CAT软件的模糊匹配
>> 欢迎您 登陆翻译论坛 您的身份:游客 | 登陆 | 注册 | 帮助信息 | 精华

统一坊在线翻译网
中国译典
     译典论坛

>>>>译典添词*****译典评注*****公告求译*****博客文章*****会员排行榜 <<<

中国在线翻译网>>译典论坛>>
您是本主题第 2404 个阅读者 == 回贴倒排
作者
主题: CAT软件的模糊匹配 []
只会一点儿翻译


贡勋等级:子爵
经验值:416
技术等级:童生
技术分:0
共发贴15篇
共回贴0篇
共登录20次
注册:2012/9/25 10:19:00
发表于 2012/12/10 17:04:00
语料库怎么用?想想人的学习过程就知道。小时候学成语学唐诗学课文很多是要求背诵的,成语倒是随时用,诗歌也经常可以引用,不过能把课文里的那些句子段落照搬的情境确实不多。其实存储在你脑海中的东西完全可以改编后使用,之前流行的凡客体、海底捞体、梨花体,不就是因为改编才火起来的吗?

机器没那么智能,不会自动改编,顶多能够判断要翻译的材料与语料库中能对应的句子有哪些不同。不过从茫茫“语”海中选出相似的句子,再挑出这些句子与我们要翻译的资料有什么不同,机器倒是替我们节省了大半时间。至于剩下的不可替代的翻译活儿,还是交给译员们去处理吧。其实这活儿现在的机器也还是能做,但是干不好,否则机器翻译早就风靡天下,译员们也该下岗咯。

如果说翻译记忆与语料管理是CAT技术的心脏,那么模糊匹配就是CAT的躯体,如果不能匹配,CAT软件也就失去了大半的意义。只支持精确匹配的计算机辅助翻译软件走不太远。尽管在有些行业(如机械、石油),句子重复率确实挺高,但这种情况通常出现在同一篇稿件内。而像法律、旅游等行业,更多的可能是相似而不尽相同。如果模糊匹配做得好,CAT软件才算真正起到了作用。

翻译记忆与语料管理,几乎所有CAT软件都拥有这两个功能,而且几乎没差别,模糊匹配才是最能看出CAT技术的地方。一款CAT是否有用,首先得看模糊匹配怎么样。笔者试用了国内的几款使用者较多的CAT软件,并就模糊匹配做了个小小的对比。对比结果请听下回分解。








你还没有个性签名,点击此处可以添加。
发贴者的其它发贴: 上一篇: 传神与Transmate孰优孰劣


||给作者留言

3楼: 只会一点儿翻译

贡勋等级:伯爵
经验值:416
技术等级:童生
等级分:0
共发贴15篇
共回贴0篇
共登录20次
注册:2012/9/25 10:19:00
Re. 发表于2012/12/14 15:54:00

传神 
传神与杰译一样内嵌至office,一样有模糊匹配的差别标记,一样可以设置匹配率。默认的匹配率是70%,可选范围为50%~70%,比较合理。

传神似乎不是以字为单位计算匹配率的,不知道它的算法跟分词有没有关系。当然啦,这个只是笔者推断,具体算法得请教开发者咯。相信大多数使用者不太会关心技术层面上的问题。我们的理念是,谁好用谁准确就用谁的。

总体说来,传神还是比较不错的。可能由于它面市最晚,研发过程中参考了其它软件,另几款软件的优点很多它都有。不过好像没看出初中的特色。




你还没有个性签名,点击此处可以添加。


||引用回复||
2楼: 只会一点儿翻译

贡勋等级:伯爵
经验值:416
技术等级:童生
等级分:0
共发贴15篇
共回贴0篇
共登录20次
注册:2012/9/25 10:19:00
Re. 发表于2012/12/14 15:09:00

雅信
雅信用的是官网上的3.5版本,4.0好像不开放免费试用。这一版本比较老了,4.0其实也算不上新。估计之前竞争对手不算多,雅信不费吹灰之力就独占鳌头,因此也懒得费力研发保持更新。

3.5版不知道是哪一年的,感觉已经很老了。4.0在08年宣传得很多,据说10年才研发出来。3.5据说是支持模糊匹配(按道理来说应该支持),但试了却发现完全匹配的都没显示出来。应该也不是匹配率设置问题,菜单中都没找到设置选项。如果雅信有模糊匹配,那么更多的可能是,刚翻译的句子不能直接存入语料库,需要另行制作。塔多思达人们能不能解释下这个是怎么回事?




你还没有个性签名,点击此处可以添加。


||引用回复||
1楼: 只会一点儿翻译

贡勋等级:伯爵
经验值:416
技术等级:童生
等级分:0
共发贴15篇
共回贴0篇
共登录20次
注册:2012/9/25 10:19:00
Re. 发表于2012/12/12 16:25:00
Transmate
老实说,Transmate用得最多最顺手,也一直跟随着网站上的发布进度使用最新版。Transmate有几点设计挺人性化。完全匹配时(即匹配度达到100%)才会自动跳出。这一点毫无疑问,是CAT软件省时省力的原理之一。

60%至99%之间会有提示,表现为记忆库参考窗口上显示出链接,可以点击该链接选择匹配上的译文,但译文不会自动跳出。匹配度在这个区间,语料库里可能有多个句子能匹配上,默认提取出三个就不会继续查找了。译员点击链接,匹配出的句子都会显示出来,将光标指向任意一个句子,则能看到该语料的匹配率。有时候并非匹配度越高越具有参考价值,所以此时译员可自行选择。


杰译
杰译CAT中模糊匹配率可选范围比较广,10%都可以选上。不过这个匹配率也太低了点,参考价值真的不大。本着“功能少一点不如多一点”的原则,这个有点鸡肋的范围选择功能也无伤大雅。

杰译CAT在模糊匹配时能把匹配上的句子跟待翻译材料的不同之处标记出来,很好地借用了塔多思的功能。不过不论匹配率设置得有多低,译文就直接出来了,不知道是不是软件在搜索到某一个符合所选匹配度的语料就直接搬出来了。万一数据库中还有匹配度更高的呢?


雪人
雪人与杰译一样,把能匹配上的语料的句子与待翻译文档的差别标记出来了,但也只在相关栏显示了一种匹配,不知道是不是匹配度最高的。

雪人软件号称采用EBMT(Example-Based Machine Translation基于实例的机器翻译)技术,充分发挥翻译记忆库的作用。单纯的TM技术存在着精确匹配率不高,模糊匹配时产生译文质量较差等缺点;雪人CAT软件采用先进的EBMT技术,可以通过类比、推理、学习等原理根据已有的例句,自动替换翻译出其他相似的句子。





你还没有个性签名,点击此处可以添加。


||引用回复||
页次:1/1 页 转到:
[首页] [上一页][下一页] [尾页]

您要搜索的字符
搜索范围



Sponsored by Totra Technology