toppic
当前位置: 首页> 科幻小说小说> 翻译神器要如何拯救沉迷中国玄幻小说的歪果仁?

翻译神器要如何拯救沉迷中国玄幻小说的歪果仁?

2020-11-03 09:45:07


这两天,一则关于美国小伙沉迷中国玄幻小说不能自拔、竟成功戒掉毒瘾的新闻刷屏网络……


这个美国小伙凯文·卡扎德失恋后用毒品自我麻醉,偶然接触到中国玄幻小说《盘龙》(Coiling Dragon)后,一发不可收拾。一整天,他不吃不喝,一连读了五六部,相当于中文一百多万字。没想到沉迷中国小说,最后还帮他成功戒掉了毒品。


后来,更新缓慢的《盘龙》已无法满足他的胃口,他又找到了三个翻译网站,同时追更15部中国网络小说,看得如痴如醉……



连载中国网络文学的 wuxiaworld.com,由美国资深译者RWX成立于2014年底,到去年8月,其全球总访问量已经超过了10亿次,其中40%来自北美,20%来自欧洲。


该网站一共刊载了23部中国网络小说,7部已翻译完结, Dragon)。



据了解,现在国外翻译网站都是由志愿者翻译。但是中国网络玄幻小说往往篇幅很长,翻译工作量巨大,往往翻译的速度跟不上老外看的速度。。。


有不少玄幻小说粉接受不了更新速度,开始自学中文!



“我学中文六个月了,只为了看网络小说,所以只学了汉字和语法。现在虽然我能借助弹窗词典看懂70%的内容,但是一点乐趣也没有。所以现在我决定从头学中文,读和说都学起来,这绝对更有用。”


这么多的歪果仁因为玄幻小说翻译慢而苦恼,我们能不能创建一个智能的翻译器?拯救那些渴望中国玄幻小说的歪果仁。


- 拯救歪果仁 -

Save Foreigners


1.传统的机器翻译


目前最重要的机器翻译方式有两种:规则法和统计法


规则法,简称RBMT,依据语言规则对文本进行分析,再借助计算机程序进行翻译。多数商用机器翻译系统采用规则法。


规则法机器翻译系统的运作通过三个连续的阶段实现:分析转换生成,根据三个阶段的复杂性分为三级。


①直接翻译:简单的词到词的翻译。
②转换翻译:翻译过程要参考并兼顾到原文的词法、句法和语义信息。


因为信息来源范围过于宽泛,语法规则过多且相互之间存在矛盾和冲突,转换翻译较为复杂且易出错。



统计法 ,简称SMT,通过对大量的平行语料进行统计分析,构建统计翻译模型(词汇、比对或是语言模式),进而使用此模型进行翻译,一般会选取统计中出现概率最高的词条作为翻译,概率算法依据贝叶斯定理。

贝叶斯定理是关于随机事件 A 和 B 的条件概率


SMT根据文本分析程度级别的不同分为两种:基于词的SMT和基于短语的SMT,后一个是目前普遍使用的,Google之前用的就是这种。


翻译文本被自动分为固定长度的词语序列,再对各词语序列在语料库里进行统计分析,以查找到出现对应概率最高的翻译。



很显然,传统的机器翻译很难满足我们的翻译需求。遇到稍微长一些的句子,难一些的语法,多义偏义词时,这两种翻译方法都很容易出错。更别提生僻字多,文章翻译难度的大的玄幻小说了。


2.Google神经机器翻译


2016年9月,Google宣布发布Google神经网络机器翻译系统,该系统使用了当前最先进的训练技术,能够实现到目前为止机器翻译质量的最大提升。


下面的可视化图展示了Google神经网络机器翻译系统将一个中文句子翻译成英语句子的过程。首先,该网络将这句中文的词编码成一个向量列表,其中每个向量都表示了到目前为止所有被读取到的词的含义(编码器“Encoder”)。


一旦读取完整个句子,解码器就开始工作,一次生成英语句子的一个词(解码器“Decoder”)。为了在每一步都生成翻译正确的词,解码器重点注意了与生成英语词最相关编码的中文向量的权重分布。



使用人类对比评分指标,神经网络机器翻译系统得出的翻译内容相较于之前实现了极大的提升。


在双语评估者的帮助下,,Google发现:在多个样本的翻译中,神经网络机器翻译系统将误差降低了 55%-85%甚至以上。尤其是汉语,谷歌用神经机器系统把汉语翻译成英语,错误率最高下降85%



然而,相比一般的文章,中国玄幻小说的翻译困难不仅仅是语句,语法方面的困难,更有文化差异的存在。这样的机器翻译很难将玄幻小说转换成老外通俗易懂的文字。



3.智能的机器翻译


这里小编所讲的智能机器翻译,其实可以视作谷歌神经机器翻译的升级版。我们要创建的是一个循环神经网络,简称RNN,是一个稍微改进过的神经网络的版本,区别是RNN先前的状态是可以被当做输入,再次带入到下一次计算中去。这意味着之前的计算结果会更改未来计算的结果!相当于我们在谷歌神经机器翻译系统中加入了机器学习,他可以自己不断升级进化!



Google神经网络机器翻译系统仍然会犯一些人类译者永远不会出的重大错误,例如漏词和错误翻译专有名词或罕见术语,以及将句子单独进行翻译而不考虑其段落或上下文。


而且,玄幻小说中不仅有很多奇怪的招式名难以翻译,“修仙”“穿越”“炼丹”等独有的词不知道怎么和老外解释。就连大哥大嫂这些中国的辈分都很难让他们理解。“血滴子”“芭蕉扇”这些武器也是中国独有,更是没有相关英文单词与之对应。


这种情况,我们只能通过人工,创建玄幻小说独有的词库。有些难以理解的词可以加上备注,并且创建专门的查询表、图鉴等工具。



有了翻译系统,还有了专门的词库,我们的智能翻译却还不能上线。此时的他相当于刚开始学说话的孩子,我们要给他不断纠错,让他开始成长。


比如,我们找来一本《天龙八部》。机器翻译后肯定会存在许多错误,我们将翻译过的文章进行纠错,然后提供给他错误信息。然后在进行一次翻译,再次纠错,直到没有错误。在翻译越来越多的文章同时,我们的智能翻译正确率会越来越高。当正确率达到一定程度后,就可以投入到实用了!


我相信,此时我们的智能翻译所翻译的小说应该能够满足大部分外国读者的需求,也拯救了他们的“玄幻小说荒”,说不定还能实现国内外同步更新。这样的神器一经推广,不知道会帮多少歪果仁脱离“毒”海呢。



4.聪明的预测销售云


2017是世界预测销售云元年,Datatist将推出比Salesforce爱因斯坦更聪明的预测销售云。机器学习,精准预测,2017让我们来拯救你们的企业!


3月31日,Datatist将举办一站式预测销售云发布会,现场注册试用不仅会有相关折扣,更有相关折扣哦!


扫描下方二维码,或点击阅读原文报名参加吧


友情链接