中国译典@中国在线翻译网-翻译论坛-查看贴子

浅谈机器翻译之瓶颈及目前的研发趋势（三）

>> 欢迎您登陆翻译论坛您的身份：游客 | 登陆 | 注册 | 帮助信息 | 精华

翻译博客

统一坊在线翻译网

中国译典

译典论坛

>>>>译典添词*****译典评注*****公告求译*****博客文章*****会员排行榜 <<<

译典论坛

中国在线翻译网>>译典论坛>>

您是本主题第 2645 个阅读者 == 回贴倒排

作者	主题：浅谈机器翻译之瓶颈及目前的研发趋势（三） []

小珰珰

贡勋等级：子爵

经验值：519
技术等级：童生
技术分：4
共发贴15篇
共回贴0篇
共登录43次
注册：2005/11/29 10:30:00

发表于 2018/11/14 16:48:00

4.2. 参数化方式

前文已提到，语言现象也可以用机率式的描述方式来表示。例如要表示冠词不会接在动词前面这个现象，我们也可以采用“冠词的下一个字是动词的机率为零”这个说法。若以数学式表示，即为P（Ci= Verb |Ci-1=Det）= 0，其中Ci代表第i个字被归为何种辞类。至于实际的机率值，则是来自以电脑统计语料库中各种相邻词类组合（如冠词与动词相连）出现次数的结果，如下列公式所示：

在累积足够的机率参数之后，就可以建立起整个统计语言模型。然后藉由参数之间数值大小的比较，告诉电脑人类在各种不同条件下偏好的解释和用法。

这种机率表示法的最大好处，就是可以将参数估测（统计）的工作交给电脑进行。而且用连续的机率分布，取代规则库方式中是与否的二择，为系统保留了更多弹性。而估测参数时，由于是将语料库中的所有语言现象放在一起通盘考虑，因此可以避免上述的“翘翘板效应”，达到全局最佳化的效果。参数化系统由大量的参数所组成，因此参数的获取需要大量的电脑运算，储存参数也需要相当大的储存空间，超过规则库方式甚多，但是在硬件设备发展一日千里的今天，硬件上的限制已经逐渐不是问题了。

采用参数化的方式，主要是因为自然语言本身具有杂芜繁琐的特性，有些现象无法找出明确的规则作为区隔，或是需要大量的规则才能精确区隔。为了能够处理复杂的自然语言，机器翻译系统也必须拥有能够与之匹敌的复杂度。不过为了驾驭这些繁复的知识，我们还必须找到简单的管理方式。但这是规则库系统不易做到的，因为规则库系统必需由人直接建立、管理，其复杂度受限于人的能力。若要增加复杂度，就必须增加规则数，因而增加系统的复杂度，甚至最后可能超过人类头脑的负荷能力。参数化系统则将复杂度直接交由电脑控制，在增加复杂度时，参数的数量会随之增加，但整个估测及管理的程序，则完全由电脑自动进行，人只需要管理参数的控制机制（即建立模型）即可，而将复杂的直接管理工作交给电脑处理。

在参数化的作法中，是将翻译一个句子，视为替给定之原语句找寻最可能之目标语配对。对每一个可能的目标语句子，我们都会评价其机率值，如下式所示：

上方的公式为参数化机器翻译系统的示例，其中Si为原语言的句子，Ti为目标语的句子（译句），Ii为原语言-目标语配对的中间形式（Intermediate Forms），PT为语法树（下标s为原语言，t为目标语），NF1为语法的正规化形式（Syntactic Normal Form），NF2为语意的正规化形式（Semantic Normal Form），而（1）、（2）和（3）三个列式，则分别代表生成、转换和分析不同阶段中的机率。

参数化系统还有一项极大的优点，就是可借由参数估测的方式，建立机器学习（Machine Learning）的机制，以方便我们建立、维护系统，和依据个人需求自定义系统。因为一般来说，如果能特别针对某一个特定的领域来设计专属的机器翻译系统，将有助于质量的提升。例如加拿大的TAUM-METEO气象预报系统，其英法翻译的正确率可达90%以上，至今仍运行不辍。但是在以往规则库的做法下，由于规则须以人力归纳，成本相当高昂，所以无法针对各细分的领域逐一量身订做专用的系统。但若采用参数化的做法，就可以使用不同领域的语料库，估测出各式各样的参数集。尔后只要更换参数集，便可将系统切换至不同的领域，以配合不同使用者、不同用途的需求。而且每次翻译作业完成后，还可将使用者的意见纳入新的参数估测程序中，使系统越来越贴近使用者的需要。以下我们将进一步说明如何建立机器学习的机制。

4.2.1 非监督式学习

一般来说，要让电脑进行学习，最直接有效的方式，就是将语料库标注后，让电脑直接从中学习标注的信息，也就是所谓的“监督式学习（Supervised Learning）”。但因标注语料库需要花费大量的专业人力，且不易维持其一致性，所以对我们来说，最理想的机器学习方式，莫过于“非监督式学习（Unsupervised Learning）”，即不须人力参与，让电脑直接从不加标注的语料库中学习。

不过要达到非教导式学习的理想相当困难。因为自然语言本身会有歧义现象，在没有任何标注信息的情况下，电脑很难判断文句的真意。为了降低学习的困难度，我们可以使用双语的语料库（即原语言与其目标语译句并陈的语料库），间接加上制约，以降低其可能之歧义数目。由于双语语料库中并列的原语言和目标语译句，其语意必须是一致的，也就是双方在可能的歧义上，必须求取交集。如此即可减少可能的歧义，让电脑了解到句子的正确意思。

以“This is a crane./这是一只白鹤。”这个原语言/译句配对为例，“crane”一字在英文中有“白鹤”和“起重机”两个意思。若单看句子，在没有标注的情况下，电脑很难判断出这里的“crane”要作何解释。但若给了中文的对应句子，那么很明显此处的“crane”指的一定是白鹤（即两者的交集），才能使中英文句子表达的意思一致，因为中文的“白鹤”一词并无“起重机”的歧义。在不同的语言中，词汇的解释分布通常是不一样的，所以双语语料库中的配对，可以形成一种制约，有助于大幅缩减歧义的数量及可能范围。

4.2.2 不同的参数化作法

在建立原语句和译句的对映关系时，可以使用的方式有纯统计方式（又分word-based和phrase-based这两类），以及使用语言学分析为基础的语法或语意树对映。纯统计方式是目前IBM模型所采用的做法，其特征为不考虑句子的结构，纯粹以单字或词串（phrase，此处的词串可以为任意连续字，不见得具有语言学上的意义）为单位进行比对。这种方式的缺失在于只考虑局部相关性（Local Dependency，通常为bigram或trigram），往往无法顾及句中的长距离相关性（Long-Distance Dependency，例如句中的NP-Head与VP-Head通常会有相关性）。若两个文法上有密切相关的单字之间，夹杂了很多其他的修饰语，就会使它们彼此超出局部相关性的范围，此模式即无法辨识这种相关性。近来的phrase-based方式，已针对上述缺点，改以词串为单位进行比对，这样虽然可以解决词串内单字的相关性问题，然而在相关字超出词串的范围时，还是会产生无法辨认长距离关联性的缺失。

但若使用以语言学知识为基础的做法，不仅可以顾及语句中的长距离关联性，而且句子的分析和生成结果，还可使用在其他用途上（如信息抽取、问答系统等）。如下方图2中所示，将原语句和译句分别进行语法及语意分析，各自产生其语法树及语意树，再对所产生的语法树或语意树之各节点进行配对映像。但由于句子有歧义的可能性，每个句子都有数种可能的语法树或不同的语意解释，因此我们可以依照前文中的例子所述，藉由两者间的对映关系，以采取交集的方式，分别排除原语言语法树和目标语语法树的歧义，如图3所示。

虽然在分析的过程中，由浅至深有许多不同的层次。理论上，原语言和目标语可在任一层次的结构上建立对映关系，如词串到词串、语法树到词串、语法树到语法树、语意树到语意树等。但事实上，采取不同的对映层次，会影响到对映的难易程度。如下方图4所示，当在语法树上做映像时，由于两边文法结构不同，许多节点无法被对映到（即图中的白色节点）。然而当转到语意层次做对映时，对映不到的节点（白色部分）就会减少很多，如图5中的例子所示。在这个例子中，所有语意树上的节点甚至全部都可以一一对映到。因此同样的句子，采用较深层的语意层次进行双向式学习，可以增加对映的效率。

上文论及若在语意层次进行映像，对映的效率较高。这主要是因为同样的句子可以有不同的讲法，如主动式、被动式等。所以配对中的两个句子，可能会采用不同的讲法，再加上不同的人写出的原语言和目标语文法，其表达形式也可能有差异。因此如果直接在句法树上作配对，对映效果往往很差。下表的实验结果，也清楚呈现出这种趋势。在1531句的句法树配对（PT）中，只有3.4%的句子拥有完全相符的语法剖析树。但是如果先将这些语法树转成正规化的语意型式（即下表中之NF2），甚至再做些局部的树型调整（如下表之TC-TP，即Target-Case-Topology-Tree），则语意树可完全对映的比例就可以提高到50.3%。

剩下无法完全对映的句子，经检查后发现大部分其实语意已被译者变更。如“Please check if the fuse is in the appropriate place.”，被译为“请检查是否已插入正确的保险丝”。严格来说这两个句子所含的意思是不相等的。进行翻译时，在多数情况下我们会希望译句保有和原语句相同的语意，因此一般译者会尽量维持语意相同。所以，先转为正规化的语意形式，再行配对节点，可靠性会增加许多。

在将原语句和译句配对后，所谓的自动学习过程，就是去寻找一组参数集ΛMAX，使其能让所有原语句和译句间之配对，有最大的“可能性”（likelihood value）。如下列公式所示（其中S为所有的原语句，T为所有译句，I则为所有分析过程中的中间型式）：

这组参数即为参数化系统的“知识”，可以在翻译的时候，用来决定哪一个目标语句最有可能是特定原语句的翻译。由于参数化系统是以非决定性的方式来呈现语言现象，有别于规则库系统的是/否二择，因此保留了更多的弹性。这项特点在自然语言处理中十分重要，因为自然语言的歧义和语法不合设定问题，本身即具有非决定性的特质，因此较适合以非决定性的知识来解决。同时，参数化系统可藉由电脑的统计语言模型，自动从语料库中学习有关语言的知识（即机率参数），大幅减低了建立和维护过程中需要的人力。随着电脑化和网络的普及，语料库的取得越来越方便，涵盖的领域也越来越广。参数化系统可以充分利用这项资源，作为其知识的来源，而无须太多的人力介入。基于上述的原因，近年在机器翻译系统的研发领域中，参数化系统逐渐取代了过去的规则库系统成为主流。

ppppp

你还没有个性签名，点击此处可以添加。
发贴者的其它发贴：上一篇：浅谈机器翻译之瓶颈及目前的研发趋势（二）下一篇：浅谈机器翻译之瓶颈及目前的研发趋势（四）

||给作者留言

您要搜索的字符

搜索范围