毕业论文代写 模具毕业论文之模板设计开题报告

更新时间:2017-08-30 11:45:21     文章来源:www.sarababy.com.cn     作者:森然论文代笔网

 
本文的主要围绕两方面内容:
提出一个基于模板的统计翻译模型以及相应的训练和翻译算法;
根据这种算法模型实现一个汉英机器翻译系统.
首先,我们将提出一个基于模板的统计机器翻译算法.这种算法是传统的基于转换的方法和统计机器翻译方法的有效结合.克服了现有的统计机器翻译方法忽视语言结构的缺点,同时又继承了其数学推导严密,模型一致性好的优点.
然后,在我们已有工作的基础上,我们将根据以上算法,提出一个完整汉英机器翻译系统及其测试系统的实现方案.
本文第一章是对已有的各种基于语料库的机器翻译方法以及机器翻译评测方法的一个综述,第二章结合我们已有的工作,提出我们自己的研究思路——基于深层结构的统计机器翻译方法,第三章给出一个具体的汉英机器翻译系统的实现方案,第四章是总结.
\
综述
机器翻译方法概述
和自然语言处理的其他技术一样,机器翻译方法也主要分为两类:人工编写规则的方法和从语料库中学习知识(规则或参数)的方法.从目前的趋势看,从语料库中学习知识的方法已经占到了主流.当然从语料库中学习知识并不排斥人类语言学知识的应用,不过这种语言学知识的应用一般不再表现为直接为某个系统手工编写规则,而更多的是通过语料库标注,词典建设等大规模语言工程的方式体现出来,应该说,这是一种计算机研究者和语言学研究者互相合作的一种更为有效的方式.
基于语料库的机器翻译方法主要有:基于实例的机器翻译方法,基于统计的机器翻译方法,混合(Hybrid)的方法.这几种方法各有特点.其中,统计机器翻译方法由于其数学推导严密,模型一致性好,可以自动学习,鲁棒性强等优点,越来越受到人们的重视.本文中提出的机器翻译方法就是统计机器翻译方法中的一种.
根据我所查阅的文献,我把基于统计的机器翻译方法大体上分为以下三类:第一类是基于平行概率语法的统计机器翻译方法,其基本思想是,用一个双语平行的概率语法模型,同时生成两种语言的句子,在对源语言句子进行理解的同时,就可以得到对应的目标语言句子.这种方法的主要代表有Alshawi的HeadTransducer模型和吴德恺的ITG(InversionTransductionGrammars)模型以及Takeda的Pattern-basedCFGforMT.第二类是基于信源信道模型的统计机器翻译方法,这种方法是由IBM公司的PeterBrown等人在1990年代初提出的,后来很多人都在这种方法的基础上做了很多改进工作,这也是目前最有影响的统计机器翻译方法,一般说的统计机器翻译方法都是指的这一类方法.第三类是德国Och等人最近提出基于最大熵的统计机器翻译方法,这种方法是比信源信道模型更一般化的一种模型.
机器翻译的范式
机器翻译经过50多年的发展,产生了很多种不同的范式(Paradigm),大致归纳起来,可以分为以下几类,如下图所示:
直接翻译方法:早期的不经过句法分析直接进行词语翻译和词序调整的方法;
基于转换的方法:基于某种深层表示形式进行转换的方法,典型的转换方法要求独立分析,独立生成;注意,这里的深层表示既可以是句法表示,也可以是语义表示;
基于中间语言的方法:利用某种独立于语言的中间表示形式(称为中间语言)实现两种语言之间的翻译.
基于平行概率语法的统计机器翻译方法
这一类方法的基本思想是,用一个双语平行的概率语法模型,即两套相互对应的带概率的规则体系,同时生成两种语言的句子,在对源语言句子进行理解的同时,就可以得到对应的目标语言句子的生成过程.
这一类方法有几个共同的特点:有明确的规则形式;源语言规则和目标语言规则一一对应;源语言与目标语言共享一套概率语法模型,对于两种语言的转换过程不使用概率模型进行描述.
以下我们分别介绍这一类方法的有代表性的几种形式.
Alshawi的基于加权中心词转录机的统计机器翻译方法
有限状态转录机(Finite-StateTransducer)和有限状态识别器(Finite-StateRecognizer)是有限状态自动机(Finite-StateAutomata)的两种基本形式.其主要区别在于有限状态转录机在识别的过程中同时可以产生一个输出,其每一条边上面同时有输入符号和输出符号两个标记,而有限状态识别器只能识别,不能输出,其每一条边上只有一个输入符号标记.
中心词转录机(HeadTransducer)是对有限状态转录机的一种改进.对于中心词转录机,识别的过程不是自左向右进行,而是从中心词开始向两边执行.所以在每条边上,除了输入输出信息外,还有语序调整的信息,用两个整数表示.下图是一个能够将任意a,b组成的串逆向输出的一个HT的示意图:
基于加权中心词转录机(WeightedHeadTransducer)的统计机器翻译方法是由AT&T实验室的Alshawi等人提出的,用于AT&T的语音机器翻译系统.该系统由语音识别,机器翻译,语音合成三部分组成.其中机器翻译系统的总体工作流程如下图所示:
在加权中心词转录机模型中,中心词转录机是唯一的知识表示方法,所有的机器翻译知识,包括词典,都表示为一个带概率的HeadTransducer的集合.知识获取的过程是全自动的,从语料库中训练得到,但获取的结果(就是中心词转录机)很直观,可以由人进行调整.中心词转录机的表示是完全基于词的,不采用任何词法,句法或语义标记.
整个知识获取的过程实际上就是一个双语语料库结构对齐的过程.句子的结构用依存树表示(但依存关系不作任何标记).他们经过一番公式推导,把一个完整的双语语料库的分析树构造并对齐的过程转化成了一个数学问题的求解过程.这个过程可用一个算法高效实现.得到对齐的依存树后,很容易就训练出一组带概率的中心词转录机,也就得到了一个机器翻译系统.不过要说明的是,通过这种纯统计方法得到的依存树,与语言学意义上的依存树并不符合,而且相差甚远.
这种方法的主要特点是:1.训练可以全自动进行,效率很高,由一个双语句子对齐的语料库可以很快训练出一个机器翻译系统;2.不使用任何人为定义的语言学标记(如词性,短语类,语义类等等),无需任何语言学知识;3.训练得到的参数包含了句子的深层结构信息,这一点比IBM的统计语言模型更好.
这种方法比较适合于语音翻译这种领域比较受限,词汇集较小的场合.
吴德恺的ITG模型
InversionTransductionGrammar(ITG)是香港科技大学吴德恺(DekaiWu)提出的一种供机器翻译使用的语法形式[Wu1997].
这种语法的特点是,源语言和目标语言共用一套规则系统.
具体来说,ITG规则有三种形式:
A→[BC]
A→
A→x/y
其中A,B,C都是非终结符,x,y是终结符.而且B,C,x,y都可以是空(用e表示).
对于源语言来说,这三条规则产生的串分别是:
BCBCx
对于目标语言来说,这三条规则产生的串分别是:
BCCBy
可以看到,第三条规则主要用于产生两种语言的词语,第一条规则和第二条规则的区别在于,前者产生两个串语序相同,后者产生的串语序相反.例如,两个互为翻译的汉语和英语句子分别是:
比赛星期三开始.
ThegamewillstartonWednesday.
采用ITG分析后得到的句法树就是:
其中,VP结点上的红色标记表示该结点对应的汉语句子中两个子结点的顺序需要交换.
通过双语对齐的语料库对这种形式的规则进行训练就可以直接用来做机器翻译.
吕雅娟[Lü2001,2002]基于ITG模型实现一个小规模(2000个例句)的英汉机器翻译系统,取得了较好的实验结果.这个系统利用的英语的单语分析器和英汉双语词对齐的结果来获取ITG.系统结构如下图所示:
Takeda的Pattern-basedCFGforMT
[Takeda96]提出了基于模式的机器翻译上下文无关语法(Pattern-basedCFGforMT).该模型对于翻译模板定义如下:
每个翻译模板由一个源语言上下文无关规则和一个目标语言上下文无关规则(这两个规则称为翻译模板的骨架),以及对这两个规则的中心词约束和链接约束构成;
中心词约束:对于上下文无关语法规则中右部(子结点)的每个非终结符,可以指定其中心词;对于规则左部(父结点)的非终结符,可以直接指定其中心词,也可以通过使用相同的序号规定其中心词等于其右部的某个非终结符的中心词;
链接约束:源语言骨架和目标语言骨架的非终结符子结点通过使用相同的序号建立对应关系,具有对应关系的非终结符互为翻译.
举例来说,一个汉英机器翻译模板可以表示如下:
S:2→NP:1岁:MP:2了
————————————
S:be→NP:1beyear:NP:2old
可以看到,这种规则比上下文无关规则表达上更为细腻.例如上述模板中如果去掉中心词约束,考虑一般的情况,显然这两条规则不能互为翻译.与实例相比,这个模板又具有更强的表达能力,因为这两个句子的主语(NP:1)和具体的岁数值都是可替换的.
该文还证明了这种模板的识别能力等价于CFG,提出了使用这种模板进行翻译的算法,讨论了如何将属性运算引入翻译模板当中,并研究了如何从实例库中提取翻译模板的算法.该文作者在小规模范围内进行了实验,取得了较好的效果.
基于信源信道模型的统计机器翻译方法
基于信源信道模型的统计机器翻译方法源于Weaver在1947年提出的把翻译看成是一种解码的过程.其正式的数学框架是由IBM公司的Brown等人建立的[Brown1990,1993].这一类方法的影响非常大,甚至成了统计机器翻译方法的同义词.不过在本文中,我们只把它作为统计机器翻译方法中的一类.
IBM的统计机器翻译方法
基本原理
基于信源信道模型的统计机器翻译方法的基本思想是,把机器翻译看成是一个信息传输的过程,用一种信源信道模型对机器翻译进行解释.假设一段源语言文本S,经过某一噪声信道后变成目标语言T,也就是说,假设目标语言文本T是由一段源语言文本S经过某种奇怪的编码得到的,那么翻译的目标就是要将T还原成S,这也就是就是一个解码的过程.
有两个容易混淆的术语在这里需要解释一下.一般谈到机器翻译时,我们都称被翻译的文本语言是源语言,要翻译到的文本语言是目标语言.而在基于信源信道模型的统计机器翻译方法中,源语言和目标语言是相对于噪声信道而言的,噪声信道的输入端是源语言,噪声信道的输出端是目标语言,翻译的过程被理解为"已知目标语言,猜测源语言"的解码过程.这与传统的说法刚好相反.
根据Bayes公式可推导得到:
这个公式在Brown等人的文章中称为统计机器翻译的基本方程式(FundamentalEquationofStatisticalMachineTranslation).在这个公式中,P(S)是源语言的文本S出现的概率,称为语言模型.P(T|S)是由源语言文本S翻译成目标语言文本T的概率,称为翻译模型.语言模型只与源语言相关,与目标语言无关,反映的是一个句子在源语言中出现的可能性,实际上就是该句子在句法语义等方面的合理程度;翻译模型与源语言和目标语言都有关系,反映的是两个句子互为翻译的可能性.
也许有人会问,为什么不直接使用P(S|T),而要使用P(S)P(T|S)这样一个更加复杂的公式来估计译文的概率呢其原因在于,如果直接使用P(S|T)来选择合适的S,那么得到的S很可能是不符合译文语法的(ill-formed),而语言模型P(S)就可以保证得到的译文尽可能的符合语法.
这样,机器翻译问题被分解为三个问题:
1.语言模型Pr(s)的参数估计;
2.翻译模型Pr(t|s)的参数估计;
3.搜索问题:寻找最优的译文;
    A+