扫一扫
关注中图网
官方微博
本类五星书更多>
-
>
全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用
-
>
决战行测5000题(言语理解与表达)
-
>
软件性能测试.分析与调优实践之路
-
>
第一行代码Android
-
>
C Primer Plus 第6版 中文版
-
>
深度学习
-
>
MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码
搜索引擎技术基础 版权信息
- ISBN:9787302227960
- 条形码:9787302227960 ; 978-7-302-22796-0
- 装帧:暂无
- 册数:暂无
- 重量:暂无
- 所属分类:>>
搜索引擎技术基础 内容简介
这是一本关于搜索引擎的教科书,它从研究实践者的角度介绍了搜索引擎的相关技术及其产业,并试图协助读者成为搜索引擎领域的局内人。与传统的将搜索引擎作为信息检索系统实现的一个特殊实例的做法不同,作者试图把搜索引擎作为一个独立的研究课题,从纷繁复杂的互联网数据现象和搜索引擎工作案例中提炼知识点,对现代商业搜索引擎的体系结构、运行原理、运营机制和核心算法进行总结和讲解。
本书是清华大学计算机系与百度公司合作在清华大学开设的“搜索引擎技术基础”课程的教材,适合作为高等院校信息科学技术、图书馆学等相关专业本科生与研究生相关课程的教材,也可作为相关领域技术人员与搜索引擎技术爱好者的参考资料。
搜索引擎技术基础 目录
第1章 为什么要关注搜索引擎
1.1 互联网上*重要的应用系统
1.2 人类历史上*大规模的信息集散平台
1.3 学术界重要的技术研发平台
1.4 经济领域能够盈利的“生意”
第2章 搜索引擎的基本概念与发展历史
2.1 互联网与万维网的发展
2.2 英雄辈出: 搜索引擎的发展历史回顾
2.3 搜索引擎的定义与运行原理概述
2.4 总结: 我们能够从历史中学到什么?
参考文献
第3章 搜索引擎性能评价
3.1 搜索引擎评价与cranfield评价体系
3.2 查询样例集合构建
3.2.1 查询样例集合构建中的真实性
3.2.2 查询样例集合构建中的代表性
3.2.3 查询样例集合构建中信息需求表述的完整性
3.3 正确答案集合构建
3.4 搜索引擎评价指标
3.5 搜索引擎性能评价的新进展
参考文献
第4章 搜索引擎体系结构概述
4.1 数据抓取子系统的主要功能与性能需求
4.1.1 及时性
4.1.2 全面性
4.1.3 高效性
4.2 内容索引子系统的主要功能与性能需求
4.2.1 内容索引子系统的主要功能
4.2.2 倒排索引结构
4.2.3 内容索引子系统的性能需求
4.3 内容检索子系统的主要功能与性能需求
4.3.1 内容检索子系统与文本信息检索系统
4.3.2 内容检索子系统的相关性需求
4.3.3 内容检索子系统的查询理解需求
4.3.4 内容检索子系统的效率需求
4.4 链接结构分析子系统的主要功能与性能需求
4.4.1 基于链接结构分析评价数据质量
4.4.2 基于链接结构分析扩展文档描述
4.4.3 链接结构分析子系统的效率需求
4.5 搜索引擎体系结构设计理念
参考文献
第5章 数据抓取子系统设计及核心算法
5.1 抓取系统的基本架构
5.2 数据抓取涉及的网络协议
5.2.1 url规范
5.2.2 http协议
5.2.3 user-agent
5.2.4 robots协议
5.3 网页抓取技术
5.3.1 网页抓取的基本过程
5.3.2 基于异步i/o模型的抓取器
5.3.3 抓取压力控制
5.3.4 对url重定向的支持
5.3.5 对https协议的支持
5.4 链接选取策略
5.4.1 爬虫的抓取方式
5.4.2 抓取优先级策略
5.4.3 网页的重访策略
5.4.4 链接去重策略
5.5 网页存储技术
5.5.1 分布式哈希存储系统
5.5.2 基于bigtable 的网页存储系统
参考文献
第6章 内容索引子系统设计及核心算法
第7章 内容检索子系统设计及其核心算法
第8章 链接结构分析子系统设计及核心算法
第9章 万维网数据质量评估
第10章 万维网垃圾网页识别
第11章 搜索引擎广告技术
第12章 中文搜索引擎的现状与未来
1.1 互联网上*重要的应用系统
1.2 人类历史上*大规模的信息集散平台
1.3 学术界重要的技术研发平台
1.4 经济领域能够盈利的“生意”
第2章 搜索引擎的基本概念与发展历史
2.1 互联网与万维网的发展
2.2 英雄辈出: 搜索引擎的发展历史回顾
2.3 搜索引擎的定义与运行原理概述
2.4 总结: 我们能够从历史中学到什么?
参考文献
第3章 搜索引擎性能评价
3.1 搜索引擎评价与cranfield评价体系
3.2 查询样例集合构建
3.2.1 查询样例集合构建中的真实性
3.2.2 查询样例集合构建中的代表性
3.2.3 查询样例集合构建中信息需求表述的完整性
3.3 正确答案集合构建
3.4 搜索引擎评价指标
3.5 搜索引擎性能评价的新进展
参考文献
第4章 搜索引擎体系结构概述
4.1 数据抓取子系统的主要功能与性能需求
4.1.1 及时性
4.1.2 全面性
4.1.3 高效性
4.2 内容索引子系统的主要功能与性能需求
4.2.1 内容索引子系统的主要功能
4.2.2 倒排索引结构
4.2.3 内容索引子系统的性能需求
4.3 内容检索子系统的主要功能与性能需求
4.3.1 内容检索子系统与文本信息检索系统
4.3.2 内容检索子系统的相关性需求
4.3.3 内容检索子系统的查询理解需求
4.3.4 内容检索子系统的效率需求
4.4 链接结构分析子系统的主要功能与性能需求
4.4.1 基于链接结构分析评价数据质量
4.4.2 基于链接结构分析扩展文档描述
4.4.3 链接结构分析子系统的效率需求
4.5 搜索引擎体系结构设计理念
参考文献
第5章 数据抓取子系统设计及核心算法
5.1 抓取系统的基本架构
5.2 数据抓取涉及的网络协议
5.2.1 url规范
5.2.2 http协议
5.2.3 user-agent
5.2.4 robots协议
5.3 网页抓取技术
5.3.1 网页抓取的基本过程
5.3.2 基于异步i/o模型的抓取器
5.3.3 抓取压力控制
5.3.4 对url重定向的支持
5.3.5 对https协议的支持
5.4 链接选取策略
5.4.1 爬虫的抓取方式
5.4.2 抓取优先级策略
5.4.3 网页的重访策略
5.4.4 链接去重策略
5.5 网页存储技术
5.5.1 分布式哈希存储系统
5.5.2 基于bigtable 的网页存储系统
参考文献
第6章 内容索引子系统设计及核心算法
第7章 内容检索子系统设计及其核心算法
第8章 链接结构分析子系统设计及核心算法
第9章 万维网数据质量评估
第10章 万维网垃圾网页识别
第11章 搜索引擎广告技术
第12章 中文搜索引擎的现状与未来
展开全部
书友推荐
- >
有舍有得是人生
有舍有得是人生
¥19.4¥45.0 - >
自卑与超越
自卑与超越
¥13.5¥39.8 - >
二体千字文
二体千字文
¥16.0¥40.0 - >
月亮与六便士
月亮与六便士
¥13.4¥42.0 - >
回忆爱玛侬
回忆爱玛侬
¥10.5¥32.8 - >
苦雨斋序跋文-周作人自编集
苦雨斋序跋文-周作人自编集
¥6.9¥16.0 - >
唐代进士录
唐代进士录
¥17.1¥39.8 - >
上帝之肋:男人的真实旅程
上帝之肋:男人的真实旅程
¥19.3¥35.0
本类畅销
-
2022图书×抽奖盲袋
¥9.9¥25 -
2023读书月阅读盲盒——天黑,闭眼,刀谁?
¥42.3¥158 -
2022读者节纪念徽章-三星会员专属
¥45¥45.6 -
2023读书月阅读盲盒——我什么场面没见过?
¥42.3¥158 -
2023读书月阅读盲盒——去码头整点什么薯条?
¥42.3¥158