浅谈机器翻译之瓶颈及目前的研发趋势(三)
>> 欢迎您 登陆翻译论坛 您的身份:游客 | 登陆 | 注册 | 帮助信息 | 精华

统一坊在线翻译网
中国译典
     译典论坛

>>>>译典添词*****译典评注*****公告求译*****博客文章*****会员排行榜 <<<

中国在线翻译网>>译典论坛>>
您是本主题第 2645 个阅读者 == 回贴倒排
作者
主题: 浅谈机器翻译之瓶颈及目前的研发趋势(三) []
小珰珰


贡勋等级:子爵
经验值:519
技术等级:童生
技术分:4
共发贴15篇
共回贴0篇
共登录43次
注册:2005/11/29 10:30:00
发表于 2018/11/14 16:48:00
4.2. 参数化方式

前文已提到,语言现象也可以用机率式的描述方式来表示。例如要表示冠词不会接在动词前面这个现象,我们也可以采用“冠词的下一个字是动词的机率为零”这个说法。若以数学式表示,即为P(Ci= Verb |Ci-1=Det)= 0,其中Ci代表第i个字被归为何种辞类。至于实际的机率值,则是来自以电脑统计语料库中各种相邻词类组合(如冠词与动词相连)出现次数的结果,如下列公式所示:

在累积足够的机率参数之后,就可以建立起整个统计语言模型。然后藉由参数之间数值大小的比较,告诉电脑人类在各种不同条件下偏好的解释和用法。

这种机率表示法的最大好处,就是可以将参数估测(统计)的工作交给电脑进行。而且用连续的机率分布,取代规则库方式中是与否的二择,为系统保留了更多弹性。而估测参数时,由于是将语料库中的所有语言现象放在一起通盘考虑,因此可以避免上述的“翘翘板效应”,达到全局最佳化的效果。参数化系统由大量的参数所组成,因此参数的获取需要大量的电脑运算,储存参数也需要相当大的储存空间,超过规则库方式甚多,但是在硬件设备发展一日千里的今天,硬件上的限制已经逐渐不是问题了。

采用参数化的方式,主要是因为自然语言本身具有杂芜繁琐的特性,有些现象无法找出明确的规则作为区隔,或是需要大量的规则才能精确区隔。为了能够处理复杂的自然语言,机器翻译系统也必须拥有能够与之匹敌的复杂度。不过为了驾驭这些繁复的知识,我们还必须找到简单的管理方式。但这是规则库系统不易做到的,因为规则库系统必需由人直接建立、管理,其复杂度受限于人的能力。若要增加复杂度,就必须增加规则数,因而增加系统的复杂度,甚至最后可能超过人类头脑的负荷能力。参数化系统则将复杂度直接交由电脑控制,在增加复杂度时,参数的数量会随之增加,但整个估测及管理的程序,则完全由电脑自动进行,人只需要管理参数的控制机制(即建立模型)即可,而将复杂的直接管理工作交给电脑处理。

在参数化的作法中,是将翻译一个句子,视为替给定之原语句找寻最可能之目标语配对。对每一个可能的目标语句子,我们都会评价其机率值,如下式所示:

上方的公式为参数化机器翻译系统的示例,其中Si为原语言的句子,Ti为目标语的句子(译句),Ii为原语言-目标语配对的中间形式(Intermediate Forms),PT为语法树(下标s为原语言,t为目标语),NF1为语法的正规化形式(Syntactic Normal Form),NF2为语意的正规化形式(Semantic Normal Form),而(1)、(2)和(3)三个列式,则分别代表生成、转换和分析不同阶段中的机率。

参数化系统还有一项极大的优点,就是可借由参数估测的方式,建立机器学习(Machine Learning)的机制,以方便我们建立、维护系统,和依据个人需求自定义系统。因为一般来说,如果能特别针对某一个特定的领域来设计专属的机器翻译系统,将有助于质量的提升。例如加拿大的TAUM-METEO气象预报系统,其英法翻译的正确率可达90%以上,至今仍运行不辍。但是在以往规则库的做法下,由于规则须以人力归纳,成本相当高昂,所以无法针对各细分的领域逐一量身订做专用的系统。但若采用参数化的做法,就可以使用不同领域的语料库,估测出各式各样的参数集。尔后只要更换参数集,便可将系统切换至不同的领域,以配合不同使用者、不同用途的需求。而且每次翻译作业完成后,还可将使用者的意见纳入新的参数估测程序中,使系统越来越贴近使用者的需要。以下我们将进一步说明如何建立机器学习的机制。

4.2.1 非监督式学习

一般来说,要让电脑进行学习,最直接有效的方式,就是将语料库标注后,让电脑直接从中学习标注的信息,也就是所谓的“监督式学习(Supervised Learning)”。但因标注语料库需要花费大量的专业人力,且不易维持其一致性,所以对我们来说,最理想的机器学习方式,莫过于“非监督式学习(Unsupervised Learning)”,即不须人力参与,让电脑直接从不加标注的语料库中学习。

不过要达到非教导式学习的理想相当困难。因为自然语言本身会有歧义现象,在没有任何标注信息的情况下,电脑很难判断文句的真意。为了降低学习的困难度,我们可以使用双语的语料库(即原语言与其目标语译句并陈的语料库),间接加上制约,以降低其可能之歧义数目。由于双语语料库中并列的原语言和目标语译句,其语意必须是一致的,也就是双方在可能的歧义上,必须求取交集。如此即可减少可能的歧义,让电脑了解到句子的正确意思。

以“This is a crane./这是一只白鹤。”这个原语言/译句配对为例,“crane”一字在英文中有“白鹤”和“起重机”两个意思。若单看句子,在没有标注的情况下,电脑很难判断出这里的“crane”要作何解释。但若给了中文的对应句子,那么很明显此处的“crane”指的一定是白鹤(即两者的交集),才能使中英文句子表达的意思一致,因为中文的“白鹤”一词并无“起重机”的歧义。在不同的语言中,词汇的解释分布通常是不一样的,所以双语语料库中的配对,可以形成一种制约,有助于大幅缩减歧义的数量及可能范围。

4.2.2 不同的参数化作法

在建立原语句和译句的对映关系时,可以使用的方式有纯统计方式(又分word-based和phrase-based这两类),以及使用语言学分析为基础的语法或语意树对映。纯统计方式是目前IBM模型所采用的做法,其特征为不考虑句子的结构,纯粹以单字或词串(phrase,此处的词串可以为任意连续字,不见得具有语言学上的意义)为单位进行比对。这种方式的缺失在于只考虑局部相关性(Local Dependency,通常为bigram或trigram),往往无法顾及句中的长距离相关性(Long-Distance Dependency,例如句中的NP-Head与VP-Head通常会有相关性)。若两个文法上有密切相关的单字之间,夹杂了很多其他的修饰语,就会使它们彼此超出局部相关性的范围,此模式即无法辨识这种相关性。近来的phrase-based方式,已针对上述缺点,改以词串为单位进行比对,这样虽然可以解决词串内单字的相关性问题,然而在相关字超出词串的范围时,还是会产生无法辨认长距离关联性的缺失。

但若使用以语言学知识为基础的做法,不仅可以顾及语句中的长距离关联性,而且句子的分析和生成结果,还可使用在其他用途上(如信息抽取、问答系统等)。如下方图2中所示,将原语句和译句分别进行语法及语意分析,各自产生其语法树及语意树,再对所产生的语法树或语意树之各节点进行配对映像。但由于句子有歧义的可能性,每个句子都有数种可能的语法树或不同的语意解释,因此我们可以依照前文中的例子所述,藉由两者间的对映关系,以采取交集的方式,分别排除原语言语法树和目标语语法树的歧义,如图3所示。

虽然在分析的过程中,由浅至深有许多不同的层次。理论上,原语言和目标语可在任一层次的结构上建立对映关系,如词串到词串、语法树到词串、语法树到语法树、语意树到语意树等。但事实上,采取不同的对映层次,会影响到对映的难易程度。如下方图4所示,当在语法树上做映像时,由于两边文法结构不同,许多节点无法被对映到(即图中的白色节点)。然而当转到语意层次做对映时,对映不到的节点(白色部分)就会减少很多,如图5中的例子所示。在这个例子中,所有语意树上的节点甚至全部都可以一一对映到。因此同样的句子,采用较深层的语意层次进行双向式学习,可以增加对映的效率。

上文论及若在语意层次进行映像,对映的效率较高。这主要是因为同样的句子可以有不同的讲法,如主动式、被动式等。所以配对中的两个句子,可能会采用不同的讲法,再加上不同的人写出的原语言和目标语文法,其表达形式也可能有差异。因此如果直接在句法树上作配对,对映效果往往很差。下表的实验结果,也清楚呈现出这种趋势。在1531句的句法树配对(PT)中,只有3.4%的句子拥有完全相符的语法剖析树。但是如果先将这些语法树转成正规化的语意型式(即下表中之NF2),甚至再做些局部的树型调整(如下表之TC-TP,即Target-Case-Topology-Tree),则语意树可完全对映的比例就可以提高到50.3%。

剩下无法完全对映的句子,经检查后发现大部分其实语意已被译者变更。如“Please check if the fuse is in the appropriate place.”,被译为“请检查是否已插入正确的保险丝”。严格来说这两个句子所含的意思是不相等的。进行翻译时,在多数情况下我们会希望译句保有和原语句相同的语意,因此一般译者会尽量维持语意相同。所以,先转为正规化的语意形式,再行配对节点,可靠性会增加许多。

在将原语句和译句配对后,所谓的自动学习过程,就是去寻找一组参数集ΛMAX,使其能让所有原语句和译句间之配对,有最大的“可能性”(likelihood value)。如下列公式所示(其中S为所有的原语句,T为所有译句,I则为所有分析过程中的中间型式):

这组参数即为参数化系统的“知识”,可以在翻译的时候,用来决定哪一个目标语句最有可能是特定原语句的翻译。由于参数化系统是以非决定性的方式来呈现语言现象,有别于规则库系统的是/否二择,因此保留了更多的弹性。这项特点在自然语言处理中十分重要,因为自然语言的歧义和语法不合设定问题,本身即具有非决定性的特质,因此较适合以非决定性的知识来解决。同时,参数化系统可藉由电脑的统计语言模型,自动从语料库中学习有关语言的知识(即机率参数),大幅减低了建立和维护过程中需要的人力。随着电脑化和网络的普及,语料库的取得越来越方便,涵盖的领域也越来越广。参数化系统可以充分利用这项资源,作为其知识的来源,而无须太多的人力介入。基于上述的原因,近年在机器翻译系统的研发领域中,参数化系统逐渐取代了过去的规则库系统成为主流。

ppppp








你还没有个性签名,点击此处可以添加。
发贴者的其它发贴: 上一篇: 浅谈机器翻译之瓶颈及目前的研发趋势(二) 下一篇: 浅谈机器翻译之瓶颈及目前的研发趋势(四)


||给作者留言

您要搜索的字符
搜索范围



Sponsored by Totra Technology