|
![]() ![]() ![]() ![]() ![]() |
|
![]() ![]() |
中国在线翻译网>>译典论坛>> |
您是本主题第 3244 个阅读者
==
回贴倒排
|
作者
|
主题: 浅谈机器翻译之瓶颈及目前的研发趋势(四) [] |
![]() (五)未来展望 上文中已提及,制作高品质的翻译系统,需要的知识极为琐碎而庞大。这些知识的获取和管理,正是翻译系统研发的重大瓶颈。从过去的经验可知,这项工作的复杂度已超过人类所能直接控制的范围,即使真的可行,其成本也不是大多数研发单位所能负担的。 因此近年来机器翻译系统的研发,已经逐渐由以前的规则库方式转为参数化方式。美国国家标准局(NIST)最近连续几年,都针对中译英的机器翻译举行评比。到目前为止在所有参赛系统中拔得头筹的,都是参数统计式的系统,而且与其他类型的作法有不小的差距。由此可见,机器学习式的统计导向做法,已证明其优越性。目前机器翻译研发的主流,已经逐渐从规则库导向转为参数统计方式。 这种典范转移(Paradigm Shift)现象的产生,不只是因为大家认知到,机器翻译系统的复杂度已超出人所能直接控制的范围,部分原因也在于语料库的发展规模。以往在建立语料库时,是由人工从纸版数据打字键入,因此规模多半不够大,对语言现象的涵盖度也不够高。所以主要是用来提供线索,供研究人员进一步将其概括化(Generalize)为通用的规则,以提高涵盖范围。但由于电子化的时代来临,越来越多的文件是直接以电子档产生,因此建立语料库时仅须直接编辑电子档,无须再经人工键入,建构成本大幅降低。加上网络逐渐普及,与日俱增的网页也可以当作语料库的来源。同时,共享语料库的观念也获得普遍认同,许多大规模的语料库,都可用很低廉的代价从美国LDC(Linguistic Data Consortium,网址为http://www.ldc.upenn.edu)获得。如此一来,语料库对语言现象的涵盖度已大幅增加,对以人工进行举一反三的概括化规则归纳工作的需求,已经大幅降低。 上述这些庞大的语料库,可以用来建立不同领域共享及各领域专属的参数集。过去的翻译系统,大多是以泛用的系统核心搭配不同领域的字典,企图解决专门领域文件的翻译问题,但是结果却不如预期。原因已如上述,在解决歧义和语法不合设定的问题时,必须使用到该领域的领域知识(Domain Knowledge),无法单靠专门用语字典。有了大量的语料库之后,我们可以从中挑选属于各领域范畴的部分,从中抽取相关之参数集,以解决领域知识的问题。 随着硬件性能的大幅跃升,电脑的计算能力和记忆容量已经不再是机器翻译系统研发的限制因素。同时语料库的规模也与日俱增,如果由人来推导模型,让机器在大量的双语语料库上,进行机器学习获取大量参数,将可大幅降低知识获取的复杂度,而这正是以往机器翻译研发的瓶颈所在。展望未来,如果能在统计参数化模型上,融合语言学的知识,并能以更适当的方式从语料库抽取相关知识,则在某些专业领域获得高品质的翻译,也是乐观可期的。如此,则机器翻译在实用化上的障碍,也终将获得解决。 ppppp
|