中图网

>

计算机理论

搜索引擎技术与发展

作者：罗刚

出版社：电子工业出版社出版时间：2020-10-01

开本：其他页数： 268

本类榜单：计算机/网络销量榜

中图价:¥33.8(4.9折) 定价 ~~¥69.0~~ 登录后可看到会员价

加入购物车收藏

运费6元，满69元免运费

?快递不能达地区使用邮政小包，运费14元起

云南、广西、海南、新疆、青海、西藏六省，部分地区快递不可达

温馨提示：5折以下图书主要为出版社尾货，大部分为全新（有塑封/无塑封），个别图书品相8-9成新、切口
有划线标记、光盘等附件不全详细品相说明>>

本类五星书更多>

>
全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用

全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用

¥11.3¥45
>
决战行测5000题(言语理解与表达)

决战行测5000题(言语理解与表达)

¥28.2¥88
>
软件性能测试.分析与调优实践之路

软件性能测试.分析与调优实践之路

¥55.2¥69
>
第一行代码Android

第一行代码Android

¥76.2¥99
>
C Primer Plus 第6版中文版

C Primer Plus 第6版中文版

¥75.6¥108
>
深度学习

深度学习

¥82.3¥168
>
MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码

MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码

¥43.5¥79

商品详情
商品评论(0条)

中图价:¥33.8 加入购物车

版权信息
本书特色
内容简介
目录
作者简介

微信公众号

搜索引擎技术与发展版权信息

ISBN：9787121398032
条形码：9787121398032 ; 978-7-121-39803-2
装帧：一般胶版纸
册数：暂无
重量：暂无
所属分类：
计算机/网络
>
计算机理论

搜索引擎技术与发展本书特色

本书主要介绍如何使用Java语言开发搜索引擎，包括搜索引擎技术入门，使用Java开发网络爬虫，实现从文档中提取索引内容，中文分词的原理与实现，在Linux服务器端开发Solr应用，Spring Boot微服务框架实现的后端，以及React框架实现的前端等内容。从工程项目实践结合当前理论的角度讨论中文分词和自然语言处理相关技术，介绍主流的Java搜索技术解决方案发展历程

搜索引擎技术与发展内容简介

本书主要介绍如何使用Java语言开发搜索引擎，包括搜索引擎技术入门，使用Java开发网络爬虫，实现从文档中提取索引内容，中文分词的原理与实现，在Linux服务器端开发Solr应用，Spring Boot微服务框架实现的后端，以及React框架实现的前端等内容。章主要介绍各种类型的搜索引擎和开发搜索引擎可以借助的软件工具；第2章主要介绍网络爬虫开发和数据存储；第3章主要介绍从HTML文件中提取文本，以及从PDF、Word等非HTML文件中提取文本；第4章主要介绍Lucene中的中文分析器的原理与实现；第5章主要介绍Solr索引库的创建与维护，以及Solr的查询解析器；第6章主要介绍Web方式搜索结果界面的实现；第7章主要介绍如何使用SolrCloud实现分布式搜索。

搜索引擎技术与发展目录

第1章遍历搜索引擎技术 1
1．1 快速上手搜索引擎 1
1．1．1 准备工作环境 1
1．1．2 生成索引 3
1．1．3 关键词查询 8
1．1．4 实现搜索界面 10
1．2 搜索语法 22
1．3 你也可以做搜索引擎 24
1．4 搜索引擎的基本技术 25
1．4．1 网络爬虫 25
1．4．2 全文索引结构 26
1．4．3 Solr全文检索引擎 27
1．4．4 Nutch网络搜索软件 27
1．4．5 用户界面 28
1．5 商业搜索引擎技术概述 29
1．5．1 通用搜索 30
1．5．2 垂直搜索 30
1．5．3 站内搜索 31
1．6 本章小结 32
第2章获得海量数据 34
2．1 自己的网络爬虫 34
2．1．1 使用URL访问网络资源 34
2．1．2 重试 37
2．1．3 网络爬虫的遍历与实现 44
2．1．4 多线程爬虫 48
2．1．5 Log4j2日志 49
2．1．6 存储URL地址 51
2．1．7 定向采集 57
2．1．8 暗网抓取 58
2．1．9 Selenium抓取动态页面 59
2．1．10 图片抓取 61
2．2 数据存储 62
2．2．1 写入文件 63
2．2．2 Jdbi写入数据库 63
2．3 本地部署 66
2．4 本章小结 66
第3章提取文档中的文本内容 68
3．1 从HTML文件中提取文本 68
3．1．1 使用HTMLParser实现定向抓取 71
3．1．2 结构化信息提取 80
3．1．3 网页的DOM结构 83
3．1．4 网页去噪 85
3．1．5 正文提取 87
3．2 从非HTML文件中提取文本 92
3．2．1 PDF文件 95
3．2．2 Word文件 96
3．2．3 Rtf文件 98
3．2．4 Excel文件 98
3．2．5 PowerPoint文件 99
3．2．6 从图片中提取文本 100
3．3 流媒体内容提取 101
3．3．1 音频流内容提取 101
3．3．2 视频流内容提取 102
3．4 本章小结 103
第4章中文分词 104
4．1 Lucene中的中文分词 104
4．2 中文分词的原理 105
4．3 查找词典算法 106
4．4 句子切分 112
4．5 有限状态机识别未登录串 113
4．6 *大概率分词方法 117
4．7 N元分词方法 125
4．7．1 二元词典 125
4．7．2 二元分词 135
4．7．3 开发中文分析器 139
4．8 新词发现 150
4．9 命名实体识别 152
4．9．1 人名识别 152
4．9．2 组织机构名称识别 160
4．9．3 化学物质识别 161
4．10 词性标注 162
4．11 平滑算法 173
4．12 地名切分 176
4．13 本章小结 182
第5章 Solr服务器端开发 183
5．1 在Linux操作系统中安装Solr 183
5．2 创建和维护索引库 186
5．3 索引本地硬盘上的文件 191
5．4 使用Bean索引文档 192
5．5 更新索引库中的索引文档 194
5．6 删除数据 195
5．7 检测索引 195
5．8 查询解析器 196
5．9 本章小结 196
第6章用户界面的设计与实现 197
6．1 Solr搜索接口（search代码） 197
6．2 搜索页面设计 198
6．2．1 用于显示搜索结果的模板 200
6．2．2 搜索结果分页 202
6．2．3 测试搜索结果页 215
6．2．4 界面国际化 216
6．2．5 用于Solr的Spring Data 219
6．2．6 Spring-HATEOAS实现REST架构 221
6．3 实现搜索接口 224
6．3．1 基本查询 224
6．3．2 布尔搜索 226
6．3．3 指定范围搜索 226
6．3．4 搜索结果排序 227
6．4 实现聚合 228
6．5 实现相似文档搜索 234
6．6 实现自动完成 235
6．6．1 总体结构 236
6．6．2 服务器端处理 236
6．6．3 自动完成客户端 238
6．7 搜索日志 244
6．8 React框架 247
6．9 本章小结 251
第7章 Solr分布式搜索 252
7．1 使用Solr实现分布式搜索 252
7．1．1 使用SolrCloud 252
7．1．2 分片 254
7．1．3 管理集群 254
7．1．4 SolrCloud工作原理 255
7．1．5 ZooKeeper分布式协调器 256
7．2 Jenkins持续集成 258
7．3 本章小结 259
参考文献 260

展开全部

搜索引擎技术与发展作者简介

猎兔搜索技术创始人曾经担任国防大学科研处技术顾问工信部舆情开发顾问东南大学社会导师首都师范大学金融课程讲师北京石油化工学院社会导师北大光华管理学院技术顾问蓝汛公司搜索集群技术咨询顾问新东方创新研究院研究员

商品评论(0条)

写书评赚书币

暂无评论……

书友推荐

>
苦雨斋序跋文-周作人自编集
苦雨斋序跋文-周作人自编集
周作人著，止庵校订
¥6.9~~¥16.0~~
>
【精装绘本】画给孩子的中国神话
【精装绘本】画给孩子的中国神话
施英巍
¥17.6~~¥55.0~~
>
诗经-先民的歌唱
诗经-先民的歌唱
裴溥言
¥15.1~~¥39.8~~
>
自卑与超越
自卑与超越
[奥]阿尔弗雷德·阿德勒著，韩阳译
¥13.5~~¥39.8~~
>
山海经
山海经
林非
¥19.2~~¥68.0~~
>
人文阅读与收藏·良友文学丛书:一天的工作
人文阅读与收藏·良友文学丛书:一天的工作
鲁迅
¥18.3~~¥45.8~~
>
小考拉的故事-套装共3册
小考拉的故事-套装共3册
[澳] 多萝西·沃尔著，崔育平译
¥36.7~~¥68.0~~
>
李白与唐代文化
李白与唐代文化
葛景春
¥9.9~~¥29.8~~

本类畅销

数学之美

吴军著

¥48.3~~¥69~~
浪潮之巅-下册-第二版

吴军

¥22.1~~¥45~~
挑战程序设计竞赛(第2版)

秋叶拓哉，岩田阳一，北川宜稔　编，巫泽俊，庄俊元，李津羽　译

¥55.3~~¥79~~
算法竞赛入门经典-(第2版)

刘汝佳

¥34.9~~¥49.8~~
2022图书×抽奖盲袋

¥9.9~~¥25~~
2023读书月阅读盲盒——天黑，闭眼，刀谁？

中图网

¥42.3~~¥158~~

搜索引擎技术与发展

搜索引擎技术与发展版权信息

搜索引擎技术与发展本书特色

搜索引擎技术与发展内容简介

搜索引擎技术与发展目录

搜索引擎技术与发展作者简介

苦雨斋序跋文-周作人自编集

【精装绘本】画给孩子的中国神话

诗经-先民的歌唱

自卑与超越

山海经

人文阅读与收藏·良友文学丛书:一天的工作

小考拉的故事-套装共3册

李白与唐代文化

数学之美

浪潮之巅-下册-第二版

挑战程序设计竞赛(第2版)

算法竞赛入门经典-(第2版)

2022图书×抽奖盲袋

2023读书月阅读盲盒——天黑，闭眼，刀谁？

陶潜和樱子

祸枣集

女孩们

房思琪的初恋乐园

时间停止的那一天

朱仙镇年画:七日谈

搜索引擎技术与发展

搜索引擎技术与发展 版权信息

搜索引擎技术与发展 本书特色

搜索引擎技术与发展 内容简介

搜索引擎技术与发展 目录

搜索引擎技术与发展 作者简介

搜索引擎技术与发展版权信息

搜索引擎技术与发展本书特色

搜索引擎技术与发展内容简介

搜索引擎技术与发展目录

搜索引擎技术与发展作者简介