第1页
“跨越语言的鸿沟”
-电商系统中的多语言翻译技术
曾晓东 阿里巴巴
第2页
自我介绍
曾晓东
阿里巴巴集团 B2B技术部-翻译平台 技术专家
澳门大学计算机硕士,2014年加入阿里,担任联盟 搜索翻译算法团队的技术专家,主要负责阿里机器 翻译算法设计与优化,同时也负责多语言自然语言 处理技术的构建。在加入阿里之前,曾担任澳门 INESC-MACAU与澳门自然语言处理与葡中机器 翻译实验室的助理研究员。有超过7年的自然语言处 理、机器翻译研究经验,其多项研究成果发表在国 际顶级会议与期刊中。
第3页
今天讲些什么
如何利用翻译技术帮助
电商网站的国际化
第4页
翻译
第5页
网站国际化
•多语言 •翻译 •混搜
•用户体验 •性能优化
国际化 国际化
内容
体验
•开放AP
国际化 开放
国际化 可靠
•多中心容灾 •数据同步
第6页
目录
1 阿里巴巴电商国际化 2 机器翻译技术 3 人工(众包)翻译技术 4 经验总结
第7页
阿里巴巴全球化战略
Global Business(跨境贸易)
第8页
阿里巴巴全球化战略
to C
进口
to B
出口
第9页
为什么本地化很重要
买家
卖家
阿里巴巴国际电商平台
第10页
为什么本地化很重要
交易
买家
卖家
阿里巴巴国际电商平台
第11页
为什么本地化很重要
买家
卖家
来自世界各地,说着“不同的语言”
第12页
为什么本地化很重要
买家 语⾔言是跨境电⼦子商务的障碍 卖家
来自世界各地,说着“不同的语言”
第13页
看不懂的结果…
当⽤用户浏览商品⺴⽹网⻚页的时 候,必须能读懂、理解⺴⽹网
⻚页内容
第14页
什么需要进行翻译
交流沟通
卖家
后编辑/ 发布
多语言商品 数据库
搜索
多语言商品 页面
买家
原发商品数 据库
翻译(本地化)
第15页
什么需要进行翻译
举个“栗⼦子”
第16页
什么需要进行翻译
第17页
什么需要进行翻译
俄语 葡语 韩语 ⽇日语
商翻品译信成多息…国翻语译⾔言
第18页
什么需要进行翻译
第19页
什么需要进行翻译
多翻语译⾔言场翻景译还成有很英多⽂文…
vestidos
dresses 进⾏行英⽂文搜索
第20页
交流沟通
卖家
后编辑/ 发布
多语言商品 数据库
搜索
多语言商品 页面
买家
原发商品数 据库
翻译(本地化)
翻译场景还有很多…
第21页
翻译场景还有很多…
量级大 速度要求高
量级小 精度要求高
分为2种类型
第22页
翻译场景还有很多…
量级大 速度要求高
机器翻译
量级小 精度要求高
⼈人⼯工翻译
第23页
如何进行翻译
电商网站国际化
提供快速翻译
机器翻译
提升
语料
提供高质量翻译 或提升转化需求
积累 人工翻译
提供初翻,降低翻译成本
第24页
目录
1 阿里巴巴电商国际化 2 机器翻译技术 3 人工(众包)翻译技术 4 经验总结
第25页
机器翻译,你怎么看?
第26页
机器翻译能做什么?
快速翻译 大规模翻译 中等译文质量
第27页
主流机器翻译技术
… Now
词典
2nd generation MTs 基于规则的翻译 需要制定大量的 翻译语法规则
3rd generation MTs 基于统计的翻译
统计方式产生翻译规则 无需手工制定语法规则
1st generation MTs 词对词的翻译 少量的调序规则
4th generation MTs 基于统神经网络翻译
第28页
统计机器翻译
I am a boy . 我是⼀一个男孩。
寻找概率最⼤大候选翻译
第29页
统计机器翻译
I am a boy .
搜寻空间
我是一个男孩。 0.5634 我是一个小子。 0.2325 我是一男子。 0.1231 我是一个小伙。 0.0233 …..
寻找概率最大候选翻译
概率计算
第30页
统计机器翻译
f = (我, 看到, 一只, 狗, 咬了, 一个, 男孩, 。)
双语语料
w1
特征 f1
+
w2 w3
wn
特征 f2
特征 f3
…
特征 fn
单语语料
e = (I, saw, a, dog, bite, a, boy, .)
log p(f|e) ≈ ∑wi fi(e, f ) + C i
翻译系统选型为Log-linear Model, 融合大量的文本翻译特征,支持传统的Feature Engineering方式 Maximize another metric, e.g., BLEU
第31页
统计机器翻译
训练
翻译模型 语⾔言模型 调序模型
a dog bite a man ⼀一只 狗 咬了 ⼀一个 男⼦子
p(s)=p(狗|⼀一只) x p(咬了|狗)..
dog bite dog bite 狗 咬了 咬了 狗
翻译(解码)
权重 特征
译⽂文
原⽂文
m
exp ∑ wi f (s,t)
∑ ∑t∗ = arg max p(t | s) = arg max tt
i =1 m
exp wi f (s,t ′)
t ′ i =1
n个候选翻译
一只狗咬了一个男孩 0.5634 一只狗啃了一个男子 0.2325 ……
MERT调参
翻译模型 语⾔言模型 调序模型 寻找“最优”权重:0.53, 0.12, 0.31
A dog bite a boy
第32页
神经网络机器翻译
f = (我, 看到, 一只, 狗, 咬了, 一个, 男孩, 。)
语言生成
理解
e = (I, saw, a, dog, bite, a, boy, .)
第33页
神经网络机器翻译
f = (我, 看到, 一只, 狗, 咬了, 一个, 男孩, 。) Decoder Encoder
e = (I, saw, a, dog, bite, a, boy, .)
第34页
神经网络机器翻译
第35页
面向电商的阿里机器翻译引擎
统翻计机译器规则翻翻译记 译忆
精确匹配
重要信息
日期 命名实体翻译 数字
单位
MEBTG 一般文本
第36页
面向电商的阿里机器翻译引擎
训练
翻译模型 语⾔言模型 调序模型
a dog bite a man ⼀一只 狗 咬了 ⼀一个 男⼦子
p(s)=p(狗|⼀一只) x p(咬了|狗)..
dog bite dog bite 狗 咬了 咬了 狗
翻译(解码)
权重 特征
译⽂文
原⽂文
m
exp ∑ wi f (s,t)
∑ ∑t∗ = arg max p(t | s) = arg max tt
i =1 m
exp wi f (s,t ′)
t ′ i =1
n个候选翻译
⼀一只狗咬了⼀一个男孩 0.5634 ⼀一只狗啃了⼀一个男⼦子 0.2325 ……
MERT调参
翻译模型 语⾔言模型 调序模型 寻找“最优”权重:0.53, 0.12, 0.31
A dog bite a boy
第37页
搭建电商领域的机器翻译引擎
数据驱动系统
训练、翻译可能会很慢
领域相关性强
第38页
搭建电商领域的机器翻译引擎 数据驱动系统
要什么样的数据?数据从哪里来?
第39页
要什么样的数据
电商领域的双语语料
电商专业词表
电商领域的单语语料
领域 数据
电商品牌词表
电商高频短语翻译
通用领域单语语料
通用领域双语语料
第40页
要什么样的数据
网络抓取
人工翻译
第41页
要什么样的数据
行业化数据 行业化高质量双语
行业化高质量双语
行业化分类管理
高质量数据
高质量双语
高质量单语
双语质量评估过滤
单语质量评估过滤
原始双语平行语料
原始单语语料
原始数据
web数据 人工翻译数据
第42页
搭建电商领域的机器翻译引擎
数据驱动系统
训练、翻译可能会很慢
领域相关性强
第43页
训练&翻译的效率
机器翻译人员最大的一项技能...
等待
第44页
原来...
翻译模型
语言模型
语 料
调序模型
参数优化
训练
48~72小时 6小时 4小时 1小时
约3天
第45页
原来...
翻译模型
语言模型
语 料
调序模型
参数优化
训练
离线批量翻译
线上调用翻译
翻译
第46页
阿里翻译在云端
翻译模型
语3言天模型
语 料
调序模型
6参⼩数小优时化
训练
w=w+
离线批量翻译
0 12
MR实现⽅方式 线上调用翻译
0 1 2…3
BSP翻实现译⽅方式
第47页
阿里翻译在云端
翻译模型
数据分⽚片
语言模型
料语分布式集调序群模型
参数优化
训练
2离0天线批量翻1译天
20线0台上调用翻4译0台
翻译
第48页
搭建电商领域的机器翻译引擎
数据驱动系统
训练、翻译可能会很慢
领域相关性强
第49页
搭建电商领域的机器翻译引擎
领域相关性强
如何适应电商领域翻译?
第50页
电商领域翻译
数据
模型
评测
适应电商文本翻译技术体系
第51页
电商领域翻译
评测
模型
数据
单/双语质量自动评估技术
领域语料自动筛选技术 语料运营平台
web数据
运营 算法
人工翻译数据
领域数据
第52页
电商领域翻译
数据
评测
模型
电商原⽂文优化 领域特征⾃自动挖掘⽅方法 添加领域特征
第53页
电商领域翻译
数据
评测
模型
电商⽂文本优化 领域特征⾃自动挖掘⽅方法 添加领域特征
是否含hot word 是否含query
关键词的位置 …
模型拟合 CTR预估 模型
根据⽤用户线上数据挖掘⽂文本翻译特征
第54页
电商领域翻译
数据
评测
模型
电商文本优化 领域特征自动挖掘方法 添加领域特征
不同行业(类目)专业词的翻译错误
原文:...black nuts (黑螺母)… 译文:…Черный орехи (黑核桃)
特殊词 汇的⾃自动
挖掘
+
翻译运营 平台
+
类⺫⽬目主题 模型
第55页
电商领域翻译
模型 数据
评测
电商文本翻译的评测方法
电商翻译不仅仅只是语言学问题
标准测试集 自动评测 人工评测 线上测试
第56页
目录
1 阿里巴巴电商国际化 2 机器翻译技术 3 人工(众包)翻译技术 4 经验总结
第57页
机器翻译&人工翻译
翻译质量上还是有相当大的距离
第58页
传统人工翻译的优缺点
高翻译质量 低翻译效率
第59页
众包翻译
翻译需求
全世界的译员
众包平台
“独翻译,不如众翻译”
第60页
众包翻译
全世界的译员
买家即译员
买家
阿里巴巴国际电商平台
第61页
众包翻译
买家
阿里巴巴国际电商平台
第62页
众包翻译
买家
阿里巴巴国际电商平台
第63页
目录
1 阿里巴巴电商国际化 2 机器翻译技术 3 人工(众包)翻译技术 4 经验总结
第64页
经验1: 机器翻译充当网站国际化的主要 角色,为你的领域搭建专属的机翻系统
第65页
经验2: 人工翻译其实可以做更多事情
第66页
经验3: 永远别指望翻译模型解决所有问 题,可以更加关心翻译数据的累积
第67页
Thanks! Q&A