本文提出基于词语搭配强度计算的语境计算模型RFR_SUM(SUM of Relative Frequency Ratio),用于处理各类词语级的歧义消解问题。各章节的顺序大致勾勒出该模型形成和发展的轨迹。提出广义组配理论框架,并据此建立语境计算模型RFR_SUM,用以处理语言中广泛存在的词语级歧义现象。将RFR_SUM模型应用于中文信息处理中的组合型切分歧义和交集型切分歧义的消解、兼类词的消解、多音词的消解以及词义消歧、语料库精加工、隐喻识别等多项任务中,均取得满意的结果,验证了该理论的普适性。本书可以作为从事自然语言处理和计算语言学相关研究人员的参考书。
样章试读
目录
序一 序二 绪论 1 自然语言处理的根本问题 2 词语搭配问题的研究 3 本书的主要研究内容 第1章 词语组配的研究现状 1.1 汉语词语组配及其性质 1.2 国外词语搭配研究现状 1.3 国内词语搭配研究现状 第2章 词语搭配的自动抽取研究 2.1 词语搭配的抽取方法 2.2 搭配抽取框架的建立 2.3 实验及其结果 第3章 广义组配理论 3.1 广义组配理论的提出 3.2 语境的可计算性 第4章 语境计算模型RFR_SUM 4.1 相对词频比RFR 4.2 基本RFR_SUM模型 第5章 RFR_SUM模型在分词消歧中的应用 5.1 RFR_SUM模型应用于组合型消歧 5.2 RFR_SUM模型应用于交集型消歧 第6章 兼类词与多音词的消歧 6.1 RFR_SUM模型在兼类词消解中的应用 6.2 基于RFR_SUM模型的多音词的消歧 第7章 词义消歧研究 7.1 RFR_SUM模型在词义消歧中的应用 7.2 无需词性标注语料的词义消歧实验 第8章 词义消歧的二元模型及集成研究 8.1 BI_RFR_SUM模型 8.1.1 二元搭配强度和二元相对词频比(BI_RFR) 8.1.2 BI_RFR_SUM模型 8.1.3 实验及结果 8.2 UNI_RFR_SUM与BI_RFR_SUM的集成 8.3 多分类问题研究 第9章 超大规模语料精加工技术研究 9.1 问题的提出 9.2 现有标注软件的性能指标的计量研究 9.2.1 ICTCLAS系统标注结果分析 9.2.2 系统改进探讨 9.3 语料精加工的方法 9.3.1 词表校对法 9.3.2 基于简单词语组合特性的方法 9.3.3 基于多元组比对的方法 9.3.4 基于RFR_SUM模型的方法 9.4 初步实验结果 第10章 隐喻识别研究 10.1 隐喻研究现状 10.2 隐喻研究的意义 10.3 隐喻研究的内容和方案 10.4 初步的研究成果 结语 1 本研究完成的主要工作 2 进一步研究计划 主要参考文献 附录1 北京大学汉语文本词性标注集 附录2 组合型切分歧义强弱势比例 附录3 “从小/学”训练用例句 附录4 “应/用于”训练用例句 附录5 “应用于”测试集 附录6 “从小学”测试集 附录7 “科学”词性标注开放测试中标注错误句子 附录8 “黄色”词义消歧中错误句子 附录9 “黄金”词义消歧中错误句子 附录10 经改进后,“黄金”词义消歧中错误句子 附录11 经改进后,“黄色”词义消歧中错误句子 附录12 “黄色”词义开放测试错误句子 附录13 “黄金”词义开放测试错误句子 附录14 “分子”分类错误的句子 附录15 “材料”分类错误的句子 附录16 “着/u”和“着/v”校对出错误的句子 附录17 “本书/r”和“本/q书/n”校对出错误的句子 后记