内容介绍
用户评论
全部咨询
本书系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。全书分三篇共13章内容,从基本工作原理概述,到一个小型简单搜索引擎具体细节的实现,进而详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;最后介绍了面向主题和个性化的Web信息服务,阐述了中文网页自动分类等技术及其应用。本书层次分明,由浅入深;既有深入的理论分析,也有大量的实验数据,具有学习和实用双重意义。
本书可作为高等院校计算机科学与技术、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资料,对广大从事网络技术、Web站点的管理、数字图书馆、Web挖掘等研究和应用开发的科技人员也有很高的参考价值。
目录
- 前言
第一章 引论
第一节 搜索引擎的概念
第二节 搜索引擎的发展历史
第三节 一些茂名的搜索引擎
第二章 WEB搜索引擎工作原理和体系结构
第一节 基本要求
第二节 网页搜集
第三节 预处理
第四节 查询服务
第五节 体系结构
第三章 WEB信息的搜集
第一节 引言
第二节 网页搜集
第三节 多道搜集程序并行工作
第四节 如何避免网页的重复搜集
第五节 如何首先搜集重要的网页
第六节 搜集信息的类型
第七节 本章小结
第四章 对搜集信息的预处理
第一节 信息预处理的系统结构
第二节 索引网页库
第三节 中文自动分词
第四节 分析网页和建立倒排文件
第五节 本章小结
第五章 信息查询服务
第一节 查询服务的系统结构
第二节 检索的定义
第三节 查询服务的实现
第四节 本章小结
中篇 对质量和性能的追求
第六章 可扩展搜集子系统
第一节 天网系统概述和集中式搜集系统结构
第二节 利用并行处理技术高效搜集网页的一种方案
第三节 本章小结
第七章 网页净化与消重
第一节 网页净化与元数据提取
第二节 网页消重算法
第八章 高性能检索子系统
第一节 检索系统基本技术
第二节 倒排文件性能模型
第三节 混合索引技术
第四节 倒排文件缓存机制
第五节 本章小结
第九章 用户行为的特征及缓存的应用
第一节 用户查询与点击日志
第二节 用户行为特征的统计分析
第三节 查询缓存的使用
第四节 用户行为与Web信息的分布特征
第十章 相关培训与系统质量评估
第一节 传统IR的相关排序技术
第二节 链接分析与相关排序
第三节 相关排序的一种实现方案
第四节 索引引擎系统质量评估
下篇 面向主题和个性化的Web信息服务
第十一章 中文网页自动分类技术
第一节 引言
第二节 文档自动分类算法的类型
第三节 实现中文网页自动分类的一般过程
第四节 影响分类器性能的关键因素分析
第五节 天网目录导航服务
第六节 本章小结
第十二章 搜索引擎个性化查询服务
第一节 基于Web挖掘的个性化技术
第二节 天网知名度系统
第十三章 面向主题的信息搜集与应用
第一节 主题信息的搜集
第二节 主题信息的一种搜集与处理模型及其应用
参考文献
附录 术语
后记