本书以固定短语自动提取为研究目标,围绕结合紧密、使用稳定原则,采取统计与规则相结合的算法,并通过历时考察最终取得固定短语。本书主要内容包括:领域高频种子词提取、通过统计量对短语的考察、通过句法规则对短语的考察、通过语义对短语的考察、历时分析对短语的考察。
样章试读
目录
- 目录
《智能科学技术著作丛书》序
序一
序二
前言
第一章绪论1
1.1问题的提出1
1.2固定短语的界定6
1.3研究目标6
1.4研究内容和研究重点6
1.5研究意义9
1.5.1对中文信息处理领域的意义9
1.5.2对语言资源监测领域的意义9
1.5.3对汉语语言学领域的意义10
1.5.4对词典编纂领域的意义11
1.5.5对对外汉语教学领域的意义12
1.5.6对舆情分析领域的意义12
1.6创新点13
参考文献14
第二章短语提取相关研究综述15
2.1国内语言学界对固定短语的研究15
2.1.1国内语言学界对固定短语的定义15
2.1.2国内语言学界对固定短语的研究方法和现状16
2.2信息处理界对短语的研究综述16
2.2.1国内外短语识别基本方法17
2.2.2术语提取基本方法和技术18
2.2.3国内对于短语研究所做的重要的工作19
2.2.4搭配的度量指标——搭配强度、搭配离散度、搭配尖峰22
2.3国外短语提取的最新进展24
2.3.1多字词表达的定义24
2.3.2多字词表达的复杂特性25
2.3.3多字词表达的提取27
2.3.4多字词表达研究的代表性工作28
2.4本章小结29
参考文献30
第三章固定短语提取的基础平台34
3.1基础数据资源——DCC语料库34
3.1.1语料库和语料库语言学34
3.1.2动态知识更新理论与动态流通语料库36
3.1.3基于动态流通语料库的主要研究37
3.2工具简介38
3.3基础数据资源加工——语料的准备和预处理40
3.3.1语料的选择标准40
3.3.2语料库的存储模式41
3.3.3语料库的语料量42
3.3.4原始语料格式转换42
3.3.5文本分类42
3.3.6文本分词43
3.4本章小结44
参考文献44
第四章利用特定领域的高频种子词提取固定短语候选串45
4.1教育领域高频种子词提取45
4.2面向特定领域的固定短语提取长度的确定50
4.2.1已有的研究成果51
4.2.2实验步骤和实验数据51
4.2.3实验结果及分析51
4.2.4结论55
4.3固定短语候选串提取55
4.4本章小结56
参考文献56
第五章固定短语候选串的定量考察与分析58
5.1结合紧密与搭配的关系58
5.2搭配研究综述58
5.2.1国外搭配研究综述58
5.2.2国内语言学界对搭配的研究60
5.2.3国内外语言界对搭配的研究63
5.2.4国内计算语言学界对搭配的研究64
5.3对结合紧密的搭配从统计量角度的分析65
5.3.1互信息和熵简介65
5.3.2互信息和熵的计算68
5.3.3互信息和熵的计算结果68
5.4按照频次、互信息结合的方法提取两个切分单位固定短语候选串69
5.4.1实验方法69
5.4.2实验结果及分析69
5.4.3对“v+n”的考察73
5.5利用频次、互信息、熵值结合的方法提取固定短语候选串74
5.5.1实验方法74
5.5.2实验结果74
5.5.3数据分析75
5.6本章小结76
参考文献76
第六章固定短语候选串的句法角度考察与分析78
6.1固定短语候选串从定量到定性分析78
6.2句法角度考察79
6.2.1类联接简介81
6.2.2类联接的定义83
6.2.3本文的类联接类型83
6.3类联接模式对固定短语候选串的提取86
6.3.1实验方法86
6.3.2实验结果87
6.4数据分析87
6.4.1类联接“a+n”候选串分析87
6.4.2类联接“n+n”候选串分析88
6.4.3类联接“v+n”候选串分析91
6.4.4类联接“n+v”候选串分析93
6.4.5类联接“v+v”候选串分析95
6.5本章小结98
参考文献98
第七章固定短语候选串语义角度考察与分析99
7.1搭配与语义的相互关系99
7.1.1语义对搭配的制约99
7.1.2搭配的语义基础100
7.1.3搭配决定语义100
7.1.4国内研究综述101
7.2知网简介101
7.2.1知网的结构102
7.2.2知网对词的描述103
7.2.3知网的信息结构规则103
7.3基于知网的考察和过滤104
7.4基于知网的考察实验105
7.4.1实验方法105
7.4.2实验数据105
7.4.3实验分析过程106
7.5本章小结124
参考文献125
第八章固定短语候选串的历时考察126
8.1历时中包含有共时和共时中包含有历时的相对时间观126
8.1.1索绪尔的时间观126
8.1.2历时中包含有共时和共时中包含有历时的相对时间观127
8.2时点和时段的相对性128
8.3历时考察相关研究工作130
8.4历时考察工作131
8.4.1语料数据131
8.4.2历时考察对象131
8.4.3历时考察方法141
8.4.4数据分析142
8.5本章小结144
参考文献144
第九章结语145
9.1全文总结145
9.2进一步的工作146
附录148
附表1位序比法提取的教育领域高频词(按频次降序排序前一百)148
附表2左熵排序(按左熵降序排序前一百)151
附表3右熵排序(按右熵降序排序前一百)154
附表4“v+n”互信息排序前100(按互信息降序排序前一百)158
后记162