以“Miss Smith put two books on this dining table.”这句话的英译中为例,首先我们会对这句话进行构词(morphological)和语法的分析,得到下图左侧的英语语法树。到了转换阶段,除了进行两种语言间词汇的转换(如“put”被转换成“放”),还会进行语法的转换,因此原语言的语法树就会被转换为目标语的语法树,如下方右图所示。
3.1. 歧义
所谓歧义,就是一个句子可以有许多不同的可能解释。很多时候我们对歧义的出现浑然不觉。例如“The farmer’s wife sold the cow because she needed money.”这个句子,一般人都可以正确指出此处的“she”代表的是“wife”,但是在句法上,“she”指的也可能是“cow”。虽然人类依照常识能判断出正确的句意,但是对于依照文法规则来理解句子的电脑来说,这是一个含有歧义的句子。
3.2. 不合设定的语法
另外,虽然所有的语言都有语法,但一般我们所谓的语法,其实是一些语言学家,针对目前拥有的语料,所归纳出的一些规则。这些规则不见得完整,往往也有许多例外。再加上语言是一直在变迁的,因此我们无法要求语言的使用者,每字每句都合乎这些人订定的文法,自然也难以避免这些状况发生在我们所要处理的翻译稿件中。这些不合设定语法的例子包括不明的字汇,如拼错的字或新产生的专有名词,和旧有字汇的新用法。例如“Please xerox a copy for me.”这样的句子,即将复印机大厂Xerox的公司名称当作动词“复印”来使用。
除了字汇以外,在语句的层次也有可能出现不合文法的情形。例如“Which one?”之类的短句,在句法层次违反了传统的英文文法,因为句中没有动词,不合乎许多文法课本对句子的定义。而“My car drinks gasoline like water.”这样的句子,也违反了一般认为动词“drink”的主词必须是生物的设定。
上方的公式为参数化机器翻译系统的示例,其中Si为原语言的句子,Ti为目标语的句子(译句),Ii为原语言-目标语配对的中间形式(Intermediate Forms),PT为语法树(下标s为原语言,t为目标语),NF1为语法的正规化形式(Syntactic Normal Form),NF2为语意的正规化形式(Semantic Normal Form),而(1)、(2)和(3)三个列式,则分别代表生成、转换和分析不同阶段中的机率。
4.2.1 非监督式学习
一般来说,要让电脑进行学习,最直接有效的方式,就是将语料库标注后,让电脑直接从中学习标注的信息,也就是所谓的“监督式学习(Supervised Learning)”。但因标注语料库需要花费大量的专业人力,且不易维持其一致性,所以对我们来说,最理想的机器学习方式,莫过于“非监督式学习(Unsupervised Learning)”,即不须人力参与,让电脑直接从不加标注的语料库中学习。
不过要达到非教导式学习的理想相当困难。因为自然语言本身会有歧义现象,在没有任何标注信息的情况下,电脑很难判断文句的真意。为了降低学习的困难度,我们可以使用双语的语料库(即原语言与其目标语译句并陈的语料库),间接加上制约,以降低其可能之歧义数目。由于双语语料库中并列的原语言和目标语译句,其语意必须是一致的,也就是双方在可能的歧义上,必须求取交集。如此即可减少可能的歧义,让电脑了解到句子的正确意思。
以“This is a crane./这是一只白鹤。”这个原语言/译句配对为例,“crane”一字在英文中有“白鹤”和“起重机”两个意思。若单看句子,在没有标注的情况下,电脑很难判断出这里的“crane”要作何解释。但若给了中文的对应句子,那么很明显此处的“crane”指的一定是白鹤(即两者的交集),才能使中英文句子表达的意思一致,因为中文的“白鹤”一词并无“起重机”的歧义。在不同的语言中,词汇的解释分布通常是不一样的,所以双语语料库中的配对,可以形成一种制约,有助于大幅缩减歧义的数量及可能范围。
剩下无法完全对映的句子,经检查后发现大部分其实语意已被译者变更。如“Please check if the fuse is in the appropriate place.”,被译为“请检查是否已插入正确的保险丝”。严格来说这两个句子所含的意思是不相等的。进行翻译时,在多数情况下我们会希望译句保有和原语句相同的语意,因此一般译者会尽量维持语意相同。所以,先转为正规化的语意形式,再行配对节点,可靠性会增加许多。
这种典范转移(Paradigm Shift)现象的产生,不只是因为大家认知到,机器翻译系统的复杂度已超出人所能直接控制的范围,部分原因也在于语料库的发展规模。以往在建立语料库时,是由人工从纸版数据打字键入,因此规模多半不够大,对语言现象的涵盖度也不够高。所以主要是用来提供线索,供研究人员进一步将其概括化(Generalize)为通用的规则,以提高涵盖范围。但由于电子化的时代来临,越来越多的文件是直接以电子档产生,因此建立语料库时仅须直接编辑电子档,无须再经人工键入,建构成本大幅降低。加上网络逐渐普及,与日俱增的网页也可以当作语料库的来源。同时,共享语料库的观念也获得普遍认同,许多大规模的语料库,都可用很低廉的代价从美国LDC(Linguistic Data Consortium,网址为http://www.ldc.upenn.edu)获得。如此一来,语料库对语言现象的涵盖度已大幅增加,对以人工进行举一反三的概括化规则归纳工作的需求,已经大幅降低。