欢迎光临中图网 请 | 注册
> >>
数据科学与工程技术丛书文本数据管理与分析:信息检索与文本挖掘的实用导论

数据科学与工程技术丛书文本数据管理与分析:信息检索与文本挖掘的实用导论

出版社:机械工业出版社出版时间:2019-04-01
开本: 16开 页数: 328
中 图 价:¥120.9(8.7折) 定价  ¥139.0 登录后可看到会员价
暂时缺货 收藏
运费6元,满69元免运费
?快递不能达地区使用邮政小包,运费14元起
云南、广西、海南、新疆、青海、西藏六省,部分地区快递不可达
本类五星书更多>

数据科学与工程技术丛书文本数据管理与分析:信息检索与文本挖掘的实用导论 版权信息

数据科学与工程技术丛书文本数据管理与分析:信息检索与文本挖掘的实用导论 本书特色

本书以文本数据处理为核心,从理论到实践介绍了文本数据管理与分析的关键问题,广泛涵盖了信息检索和文本数据挖掘领域的主要概念、技术和方法,并包括许多专门设计并辅以配套软件工具包(例如META)的动手练习,来帮助读者学习如何运用文本挖掘和信息检索的技术来分析和处理现实世界中的文本数据,以及如何试验数据和为具体应用任务来改进一些算法。 具体内容: l 文本信息获取与挖掘基础:统计与概率论、信息论等相关理论和文本数据理解技术。 l 文本信息获取关键技术:信息检索的模型、实现和评价,网络搜索以及推荐系统等。 l 文本挖掘关键技术:文档分类,文档聚类,文本摘要,主题分析,观点挖掘与情感分析,文本与结构化数据联合分析等。 l 文本管理和分析系统:整合信息检索与文本分析技术,结合配套软件工具META,构建统一的、人机结合的文本管理和分析系统。 主要特点: l ·内容深入浅出,理论实践密切结合,可作为高等院校计算机科学或相关专业本科生、研究生信息检索与文本挖掘课程的教材。 l ·主题丰富,体系完整,逻辑清晰,便于与各种课程体系结合,可作为高等院校相关专业教师的参考书。 l ·兼顾广度与深度,覆盖经典模型与方法并提供丰富的扩展阅读文献,可作为专业科研人员与工业界人士的参考书或技术手册。

数据科学与工程技术丛书文本数据管理与分析:信息检索与文本挖掘的实用导论 内容简介

本书从实际角度涵盖了信息检索和文本数据挖掘领域的主要概念、技术和方法,并包括许多专门设计并辅以配套软件工具包(例如META,一种数据科学工具包)的动手练习,来帮助读者学习如何运用文本挖掘和信息检索的技术来分析和处理现实世界中的文本数据,以及如何试验数据和为具体应用任务来改进一些算法。

数据科学与工程技术丛书文本数据管理与分析:信息检索与文本挖掘的实用导论 目录

Text Data Management and Analysis:A Practical Introduction to Information Retrieval and Text Mining 中文版序 译者序 前言 作者简介 **部分 概述和背景 第1章 绪论21.1 文本信息系统的功能41.2 文本信息系统的概念框架51.3 本书结构安排71.4 如何使用本书8书目说明和延伸阅读9 第2章 背景112.1 概率和统计基础112.1.1 联合概率和条件概率122.1.2 贝叶斯法则132.1.3 抛硬币和二项分布142.1.4 *大似然参数估计142.1.5 贝叶斯参数估计152.1.6 概率模型及其应用162.2 信息论172.3 机器学习19书目说明和延伸阅读20练习20 第3章 文本数据理解223.1 自然语言处理的历史和研究现状233.2 自然语言处理和文本信息系统243.3 文本表示263.4 统计语言模型28书目说明和延伸阅读31练习31 第4章 META:一个面向文本数据管理和分析的统一工具箱334.1 设计原则334.2 设置META344.3 架构344.4 用META分词354.5 相关工具箱37练习38 第二部分 文本数据获取 第5章 文本数据获取概述445.1 获取模式:拉取与推送445.2 多模式互动获取455.3 文本检索475.4 文本检索与数据库检索485.5 文档选择与文档排序49书目说明和延伸阅读50练习51 第6章 检索模型526.1 概述526.2 检索函数的一般形式536.3 向量空间检索模型546.3.1 向量空间模型实例化556.3.2 位向量表示的表现566.3.3 改进的模型实例576.3.4 TF变换606.3.5 文档长度规范化626.3.6 基本向量空间模型的进一步改进646.3.7 小结656.4 概率检索模型656.4.1 查询似然检索模型676.4.2 文档语言模型的平滑696.4.3 具体的平滑方法72书目说明和延伸阅读76练习76 第7章 反馈787.1 向量空间模型中的反馈797.2 语言模型中的反馈81书目说明和延伸阅读84练习84 第8章 搜索引擎实现868.1 分词器868.2 索引器878.3 打分器908.3.1 逐个词项排序908.3.2 逐个文档排序908.3.3 过滤文档918.3.4 索引分片918.4 反馈实现928.5 压缩928.5.1 按位压缩938.5.2 块压缩948.6 高速缓存958.6.1 LRU缓存958.6.2 DBLRU缓存96书目说明和延伸阅读96练习97 第9章 搜索引擎评价989.1 引言989.1.1 要度量什么989.1.2 Cranfield评价方法989.2 集合检索的评价1009.2.1 准确率和召回率1009.2.2 F度量:准确率和召回率的结合1019.3 有序列表的评价1029.4 基于多级别判断标准的评价1069.5 评价中的实际问题107书目说明和延伸阅读110练习110 第10章 网络搜索11210.1 网络爬虫11310.2 网页索引11310.3 链接分析11710.3.1 PageRank算法11810.3.2 HITS算法12110.4 排序学习12210.5 网络搜索的未来125书目说明和延伸阅读127练习127 第11章 推荐系统13011.1 基于内容的推荐13111.2 协同过滤13411.3 推荐系统的评价137书目说明和延伸阅读138练习138 第三部分 文本数据分析 第12章 文本数据分析概述14212.1 动机:文本数据分析的应用14212.2 文本与非文本数据:人类作为主观传感器14312.3 文本挖掘任务概览145 第13章 词关联挖掘14813.1 词关联挖掘的基本思想14913.2 聚合关系的发现15013.3 组合关系的发现15313.4 词关联挖掘的评价159书目说明和延伸阅读160练习160 第14章 文本聚类16214.1 聚类技术概述16314.2 文档聚类16414.2.1 凝聚层次聚类法16514.2.2 K-均值16514.3 词项聚类16714.3.1 语义关联的词语16714.3.2 点互信息16914.3.3 先进方法16914.4 文本聚类的评价172书目说明和延伸阅读173练习173 第15章 文本分类17515.1 引言17515.2 文本分类方法概述17615.3 文本分类问题17715.4 文本分类的特征17715.5 分类算法17915.5.1 k-近邻18015.5.2 朴素贝叶斯18115.5.3 线性分类器18215.6 文本分类的评价183书目说明和延伸阅读184练习184 第16章 文本摘要18516.1 文本摘要技术概述18516.2 抽取式文本摘要18616.3 抽象式文本摘要18716.4 文本摘要的评价18916.5 文本摘要的应用189书目说明和延伸阅读190练习190 第17章 主题分析19217.1 用词项表示的主题19317.2 用单词分布表示的主题19617.3 挖掘文本中的一个主题19817.3.1 *简单的主题模型:一元语言模型19917.3.2 添加背景语言模型20117.3.3 混合模型的参数估计20517.3.4 混合模型的行为20617.3.5 期望*大化20917.4 概率潜在语义分析21417.5 PLSA的扩展及潜在狄利克雷分布22017.6 主题分析的评价22317.7 主题模型的总结224书目说明和延伸阅读224练习225 第18章 观点挖掘与情感分析22618.1 情感分类22818.2 有序回归23018.3 潜在方面评分分析23218.4 观点挖掘与情感分析的评价238书目说明和延伸阅读238练习238 第19章 文本与结构化数据的联合分析24019.1 引言24019.2 上下文文本挖掘24219.3 上下文概率潜在语义分析24419.4 以社交网络作为上下文的主题分析24919.5 以时间序列作为上下文的主题分析25219.6 小结256书目说明和延伸阅读256练习257 第四部分 统一的文本数据管理和分析系统 第20章 面向一个统一的文本管理和分析系统26020.1 文本分析操作26220.2 系统架构26420.3 META作为一个统一系统265 附录A 贝叶斯统计266 附录B 期望*大化271 附录C KL-散度和狄利克雷先验平滑275 参考文献277 索引287
展开全部

数据科学与工程技术丛书文本数据管理与分析:信息检索与文本挖掘的实用导论 作者简介

作者简介:
翟成祥(ChengxiangZhai) 信息检索与数据挖掘领域世界知名学者,ACM会士、ACM杰出科学家,伊利诺伊大学香槟分校计算机科学系以及图书馆与信息科学研究生院、基因生物学研究所和统计系教授、Willet学者。研究兴趣包括信息检索、文本挖掘、自然语言处理、机器学习、生物医学与健康信息学以及智能教育信息系统。他已经在主流会议与期刊发表超过300篇研究论文,现在是《ACM Transactions on Knowledge Discovery from Data》副主编,并担任多个国际会议的程序委员会主席和大会主席。他荣获多项荣誉,包括ACM SIGIR 2004 最佳论文、ACM SIGIR 2014 时间考验奖、 Alfred P. Sloan研究奖金、IBM 教师奖、HP 创新研究项目奖、微软超越搜索研究奖以及美国青年科学家和工程师总统奖。
肖恩•马森(Sean Massung)
伊利诺伊大学香槟分校计算机科学专业博士生。他是META的联合发明者并在其所有研究中使用META,并且是多门课程的指导者。研究兴趣包括信息检索中的文本挖掘应用、自然语言处理和教育。 译者简介: 宋巍,博士,首都师范大学信息工程学院副教授。研究方向为自然语言处理与信息检索。在ACL、SIGIR、EMNLP等国际著名学术会议发表论文多篇。主持国家自然科学基金和北京市自然科学基金。入选北京市属高校青年拔尖人才培育计划。 赵鑫,博士,中国人民大学信息学院副教授。研究方向为社交媒体数据挖掘和自然语言处理。近五年内在国内外著名学术期刊与会议上发表论文60余篇。担任多个重要的国际会议或者期刊评审,入选第二届CCF青年人才发展计划。 李璐旸,博士,北京外国语大学计算机系讲师。研究方向为自然语言处理与文本挖掘。在人工智能、自然语言处理等领域国际期刊及会议发表论文多篇。 李洋,博士,东北林业大学讲师。研究领域为自然语言处理与推荐系统。,在人工智能、自然语言处理等领域国际期刊和会议上发表多篇论文。 刘挺,哈尔滨工业大学长聘教授,哈工大人工智能研究院副院长,计算机学院社会计算与信息检索研究中心主任,国家“万人计划”科技创新领军人才,教育部人工智能科技创新专家组成员。中国计算机学会理事,中国中文信息学会常务理事。主要研究方向为人工智能、自然语言处理和社会计算,是国家973课题、国家自然科学基金重点项目负责人。

商品评论(0条)
暂无评论……
书友推荐
编辑推荐
返回顶部
中图网
在线客服