文本简化是人工智能尤其是自然语言处理方向的一个重要研究领域。本书作为该领域的专业书籍,内容上尽可能覆盖文本简化领域各种主流的研究方法和相关资源。全书共9章,包括三个主要部分:第1~4章主要介绍文本简化的研究概况、背景知识、文本可读性评估和词语简化方法;第5~7章详细讨论句子分割、统计文本简化和神经文本简化方法;第8、9章着重介绍深度学习在文本简化研究和应用中的最新进展以及汉语文本简化的研究。
样章试读
目录
- 目录
新一代人工智能创新平台建设及其关键技术丛书”序
前言
第1章 绪论 1
1.1 概述 1
1.1.1 文本简化定义 1
1.1.2 文本简化发展过程 1
1.1.3 文本简化方法 3
1.1.4 相关的文本重写任务 5
1.2 文本简化语料 6
1.2.1 维基百科平行语料 7
1.2.2 Newsela语料库 10
1.2.3 英文的其他资源 13
1.2.4 三个最常用的英文平行语料的对比 16
1.2.5 其他语言的资源 16
1.3 文本简化评估 17
1.3.1 人工评估 17
1.3.2 自动评估 18
1.3.3 讨论 23
1.4 文本简化的应用 24
1.4.1 对特定目标人群的简化 24
1.4.2 自然语言处理的辅助工具 25
1.5 本书内容安排 26
第2章 背景知识 29
2.1 概述 29
2.2 统计机器翻译模型 29
2.3 神经机器翻译模型 31
2.3.1 基于端到端的模型 31
2.3.2 注意力机制 33
2.3.3 基于自注意力机制的神经网络模型 35
2.4 预训练语言模型 37
2.4.1 BERT 38
2.4.2 BART 39
2.5 本章小结 41
第3章 文本可读性评估 42
3.1 概述 42
3.2 传统的可读性公式 43
3.3 可读性评估的语料 45
3.4 可读性评估方法 47
3.4.1 可读性评估特征 47
3.4.2 基于特征工程的分类方法 51
3.4.3 神经网络分类方法 53
3.5 汉语文本的可读性评估 54
3.6 可读性评估的应用 55
3.6.1 第二语言学习者的可读性 56
3.6.2 具有语言学习障碍的读者 56
3.6.3 计算机辅助教育学习系统 57
3.6.4 Web内容的可读性评估 57
3.7 未来研究方向 58
3.8 本章小结 60
第4章 词语简化方法 61
4.1 概述 61
4.2 词语简化框架 62
4.3 词语简化方法的分类 64
4.3.1 语言数据库 65
4.3.2 自动规则 68
4.3.3 词嵌入模型 71
4.3.4 混合模型 72
4.3.5 预训练语言模型 75
4.4 方法对比 80
4.4.1 实验评估数据 80
4.4.2 候选替代词生成评估 81
4.4.3 完整的LS系统评估 82
4.4.4 讨论 83
4.5 未来研究方向 85
4.6 本章小结 86
第5章 句子分割方法 87
5.1 概述 87
5.2 基于规则的方法 88
5.2.1 早期的方法 89
5.2.2 YATS 90
5.2.3 基于事件的方法 91
5.2.4 DISSIM 93
5.3 基于神经网络模型的方法 96
5.3.1 基于事实感知的方法 96
5.3.2 基于图框架的方法 97
5.4 本章小结 100
第6章 统计文本简化方法 101
6.1 概述 101
6.2 基于短语的机器翻译方法 102
6.3 基于句法的统计文本简化方法 103
6.4 混合的方法 108
6.5 无监督的统计文本简化方法 109
6.6 本章小结 112
第7章 神经文本简化方法 113
7.1 概述 113
7.2 基于神经机器翻译的文本简化 115
7.3 强化学习机制 117
7.4 多任务学习 119
7.5 复述规则 121
7.6 程序员-解释器模型 123
7.6.1 EditNTS 123
7.6.2 程序员和解释器 124
7.6.3 编辑标签创建 125
7.7 本章小结 125
第8章 文本简化前沿研究 127
8.1 概述 127
8.2 无监督神经文本简化方法 129
8.3 无监督可编辑的文本简化方法 131
8.4 可控的句子简化方法 134
8.4.1 TargetTS 134
8.4.2 ACCESS 135
8.5 无监督的文本平行简化语料构造 136
8.5.1 基于搜索的平行语料构造 136
8.5.2 基于机器翻译语料的平行语料构造 137
8.6 零样本跨语言的文本简化 139
8.7 文本简化分析及展望 142
8.8 本章小结 144
第9章 汉语文本简化的探索 145
9.1 概述 145
9.2 背景知识 146
9.3 汉语简化语料库的构造 147
9.4 汉语文本简化方法 148
9.5 实验 151
9.5.1 评价语料库HanLS的质量 151
9.5.2 生成候选词方法的对比评价 152
9.5.3 系统评价和消融研究 153
9.5.4 误差分析 154
9.6 本章小结 155
参考文献 157