本书内容是由在2006国际顶级学术会议NIPS(NeuralInformationProcessingSystemsConference)上发表的文章扩充而成,分为2个部分。第一部分是机器翻译研究最新进展介绍,包括翻译模型、平行语料库和名实体挖掘、核方法应用等;第二部分是统计机器翻译研究的高级题目,包括树结构翻译模型、全局词汇选择模型、判别式短语翻译选择模型等。
样章试读
目录
原书前言
第
1章 统计机器翻译初步1 1
.1 背景1 1
.2 机器翻译的评价3 1
.2.1 基于编辑距离的方法4 1
.2.2 基于狀元文法的方法5 1
.2.3 召回率的重要性6 1
.2.4 使用句法的方法6 1
.2.5 评价方法的评价与融合7 1
.2.6 统计显著性检验7 1
.3 基于词的机器翻译7 1
.3.1 模型1?模型2和隐马尔可夫模型8 1
.3.2 模型3?模型4和模型59 1
.3.3 搜索9 1
.3.4 现状10 1
.4 语言模型10 1
.4.1 狀元文法模型和平滑技术11 1
.4.2 最大熵模型13 1
.4.3 若干最新研究趋势14 1
.5 基于短语的机器翻译16 1
.5.1 对数线性模型17 1
.5.2 基于短语的翻译模型17 1
.5.3 最小错误率训练19 1
.5.4 搜索20 1
.5.5 重打分22 1
.5.6 现状23 1
.6 基于句法的统计机器翻译23 1
.6.1 无需句法分析的方法24 1
.6.2 目标语言端进行句法分析25
1.6.3 源语言端进行句法分析25 1
.6.4 源语言端和目标语言端都进行句法分析26 1
.7 其他一些重要方向27 1
.7.1 因子化模型27 1
.7.2 模型自适应27 1
.7.3 系统融合28 1
.7.4 用于机器翻译的核方法28 1
.8 用于统计机器翻译的机器学习28 1
.8.1 翻译作为一个学习问题29 1
.8.2 使用不精确损失函数的学习30 1
.8.3 用于统计机器翻译的端到端学习31 1
.9 结论32 1
.10 附录32 第一部分
:使能技术第
2章 挖掘专利构建平行语料库35 2
.1 引言35 2
.2 相关工作36 2
.3 资源37 2
.4 对齐过程38 2
.4.1 句子对齐打分38 2
.4.2 降低句对齐中的噪声40 2
.5 专利平行语料库的数据统计41 2
.5.1 全集和源数据集的比较41 2
.5.2 基本的统计数据42 2
.5.3 关于机器翻译的统计数据43 2
.6 机器翻译实验44 2
.6.1 机器翻译系统44 2
.6.2 比较重排序限制45 2
.6.3 跨板块的机器翻译实验46 2
.6.4 对原始对齐数据的基于任务的评估49 2
.7 结论51 第
3章 多语言名称词典的自动创建52 3
.1 引言和动机52 3
.1.1 内容53
3.1.2 专有名称和机器翻译54 3
.1.3 多语种名称实体词典与其他文本分析应用的相关性54 3
.1.4 存在名称变体的原因55 3
.2 相关工作57 3
.2.1 现有的名称词典或建立词典的相关探索57 3
.2.2 命名实体识别58 3
.2.3 名称变体的匹配59 3
.3 新名称的多语言识别60 3
.3.1 背景:多语言的新闻数据60 3
.3.2 一个允许多语言的轻量级识别过程61 3
.3.3 用维基百科扩充名称数据库62 3
.4 查找已知名称和其形态变体62 3
.4.1 处理词形变化62 3
.4.2 查找过程63 3
.5 人名识别的评价65 3
.6 名称变体的识别和合并66 3
.6.1 非罗马字符构成名称的音译66 3
.6.2 名称变体的“标准化”67 3
.6.3 (标准化)名称变体的近似匹配68 3
.7 总结与展望69 第
4章 多语语料库中命名实体的音译和发现71 4
.1 引言71 4
.2 前人工作73 4
.3 协同排序:命名实体发现的一个算法74 4
.3.1 时间序列生成和匹配76 4
.3.2 音译模型76 4
.4 实验性研究77 4
.4.1 命名实体发现78 4
.4.2 初始例子集合规模81 4
.4.3 时间序列打分函数的比较81 4
.5 结论82 4
.6 未来工作82 第
5章 基于多预处理机制的统计词对齐融合84 5
.1 引言84 5
.2 相关工作84
5.3 阿拉伯语的预处理机制85 5
.4 对齐的预处理机制86 5
.4.1 犌犻狕犪++对齐86 5
.4.2 对齐重映射87 5
.5 对齐融合87 5
.6 评价89 5
.6.1 实验数据和评价指标89 5
.6.2 对齐重映射的贡献90 5
.6.3 融合特征的贡献91 5
.6.4 每个单一特征的作用91 5
.6.5 对齐合并实验92 5
.6.6 测试集评估93 5
.6.7 对齐规则分析94 5
.6.8 错误分析95 5
.7 后记:机器翻译和词对齐的改进96 5
.7.1 实验设置97 5
.7.2 结果97 5
.8 结论99 第
6章 用于判别式语言建模的语言学增强的词序列核100 6
.1 动机100 6
.2 增加语言学知识的词序列核方法101 6
.2.1 词序列核方法101 6
.2.2 因子化表示方法和核组合103 6
.2.3 因子化的核103 6
.2.4 实例说明105 6
.2.5 有理数核的解释106 6
.3 实验验证107 6
.3.1 各个因子上的核108 6
.3.2 因子的整合109 6
.3.3 与狀元模型的比较111 6
.4 结论和未来的工作113 6
.5 附录114 第二部分
:机器翻译第
7章 走向树结构翻译模型的纯粹判别式训练119 7.1 引言119 7
.2 相关工作120 7
.3 学习方法121 7
.3.1 问题表征122 7
.3.2 目标函数122 7
.3.3 风险最小化123 7
.4 实验127 7
.4.1 数据127 7
.4.2 词转录128 7
.4.3 词包转录131 7
.4.4 树转录133 7
.5 结论135 第
8章 大规模统计机器翻译重排序137 8
.1 引言137 8
.2 背景138 8
.3 相关工作138 8
.4 我们的方法140 8
.5 实验1:汉译英系统的重排序141 8
.5.1 重排序器的训练142 8
.5.2 实验结果142 8
.6 实验2:法译英系统的重排序145 8
.6.1 实验结果146 8
.7 讨论149 8
.8 结论150 8
.9 附录150 第
9章 基于核的机器翻译155 9
.1 引言155 9
.2 统计机器翻译中的回归模型156 9
.2.1 岭回归156 9
.2.2 狀元语法字符串核157 9
.2.3 大规模训练158 9
.2.4 基于检索的稀疏近似法158 9
.3 解码160 9
.3.1 原像问题160 9
.3.2 柱搜索160
9.3.3 复杂性分析161 9
.4 实验162 9
.4.1 语料162 9
.4.2 系统配置163 9
.4.3 岭回归实验163 9
.4.4 稀疏近似实验165 9
.4.5 搜索错误166 9
.5 进一步讨论166 9
.5.1 语言模型166 9
.5.2 语言学知识167 9
.6 小结167 第
10章 通过全局词汇选择和句子重构实现统计机器翻译169 1
0.1 简介169 1
0.2 犛犉犛犜训练和解码170 1
0.2.1 单词对齐170 1
0.2.2 双语言表示法171 1
0.2.3 双语短语获取和局部重排序172 1
0.2.4 犛犉犛犜模型173 1
0.2.5 解码173 1
0.2.6 单词插入模型174 1
0.2.7 全局重排序174 1
0.3 词汇选择判别模型175 1
0.3.1 连续词汇选择模型176 1
0.3.2 词袋词汇选择模型177 1
0.4 选择分类器177 1
0.4.1 多元与二元分类器对比178 1
0.4.2 几何与概率解释178 1
0.4.3 犔1与犔2正则化179 1
0.5 数据和实验180 1
0.5.1 联合国和英国国会议事录语料182 1
0.6 讨论183 1
0.7 结论184 第
11章 统计机器翻译的判别式短语选择185 1
1.1 引言185 1
1.2 专用词语选择方法187
11.3 判别式短语翻译188 1
1.3.1 问题的设定189 1
1.3.2 学习189 1
1.3.3 特征设置190 1
1.4 局部短语翻译192 1
1.4.1 数据集及设置192 1
1.4.2 评价193 1
1.4.3 参数调整193 1
1.4.4 性能比较194 1
1.4.5 整体性能195 1
1.5 为全局任务使用局部判别式短语翻译模型197 1
1.5.1 基准系统197 1
1.5.2 软集成判别式短语翻译的预测结果198 1
1.5.3 设置200 1
1.5.4 评价200 1
1.5.5 参数调整205 1
1.5.6 结果206 1
1.6 结论211 第
12章 用于机器翻译的半监督学习214 1
2.1 引言214 1
2.2 基线机器翻译系统215 1
2.3 框架216 1
2.3.1 犢犪狉狅狑狊犽狔算法216 1
2.3.2 用于统计机器翻译的半监督学习算法218 1
2.3.3 过滤器函数218 1
2.3.4 估计函数219 1
2.3.5 评分函数219 1
2.3.6 选择函数220 1
2.4 实验结果221 1
2.4.1 设置221 1
2.4.2 汉英翻译结果223 1
2.4.3 法英结果226 1
2.4.4 翻译例子228 1
2.5 先前工作229 1
2.6 结论与展望230
第13章 学习系统融合机器翻译系统232 1
3.1 引言232 1
3.2 词对齐234 1
3.2.1 问题表示234 1
3.2.2 词对齐估计234 1
3.2.3 词汇调序237 1
3.2.4 相关研究中的其他对齐方法238 1
3.3 犆犖的生成和评分239 1
3.3.1 建立犆犖239 1
3.3.2 概率估计241 1
3.3.3 带有犚-犫犲狊狋译文翻译系统融合242 1
3.3.4 共识翻译的抽取242 1
3.3.5 语言模型重评分243 1
3.3.6 保留单词的大小写信息244 1
3.3.7 系统融合的参数优化244 1
3.4 实验244 1
3.4.1 翻译任务及环境244 1
3.4.2 评价标准245 1
3.4.3 对比实验245 1
3.4.4 最终结果247 1
3.5 结论248 参考文献
249 中英文术语
279 ]]>