中图网文创礼盒,买2个减5元
欢迎光临中图网 请 | 注册
> >
文本数据挖掘(第2版)

文本数据挖掘(第2版)

出版社:清华大学出版社出版时间:2022-11-01
开本: 其他 页数: 352
中 图 价:¥74.3(7.5折) 定价  ¥99.0 登录后可看到会员价
加入购物车 收藏
运费6元,满69元免运费
?快递不能达地区使用邮政小包,运费14元起
云南、广西、海南、新疆、青海、西藏六省,部分地区快递不可达
本类五星书更多>

文本数据挖掘(第2版) 版权信息

  • ISBN:9787302612957
  • 条形码:9787302612957 ; 978-7-302-61295-7
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 所属分类:>

文本数据挖掘(第2版) 本书特色

《文本数据挖掘(第2版)》通过实例说明实现相关任务的理论方法和技术思路,而不过多地涉及实现细节,尽量使读者能够在充分理解基本原理的基础上掌握应用系统的实现方法。

文本数据挖掘(第2版) 内容简介

文本数据挖掘是通过机器学习、自然语言处理和推理等相关技术或方法,理解、分析和挖掘文本的内 容,从而完成信息抽取、关系发现、热点预测、文本分类和自动摘要等具体任务的信息处理技术。《文本数据挖掘(第2版)》主 要介绍与文本数据挖掘有关的基本概念、理论模型和实现算法,包括数据预处理、文本表示、文本分类、文本聚类、主题模型、情感分析与观点挖掘、话题检测与跟踪、信息抽取以及文本自动摘要等,*后通过 具体实例展示相关技术在实际应用中的使用方法。《文本数据挖掘(第2版)》书可作为高等院校计算机、自动化、网络安全、大数据分析等专业,以及利用到文本信息处理的交 叉学科(如金融财经、社会人文、生物医药等)的高年级本科生或研究生从事相关研究的入门参考书,也可供相关技术研发人员阅读和参考。

文本数据挖掘(第2版) 目录

第 1章绪论 1

1.1基本概念 1

1.2文本挖掘任务 2

1.3文本挖掘面临的困难 5

1.4方法概述与本书的内容组织 8

1.5进一步阅读 10

习题 11

第 2章数据预处理和标注 12

2.1概述 12

2.2数据获取 12

2.3数据预处理 16

2.4数据标注 18

2.5基本工具 20

2.5.1汉语自动分词与词性标注 20

2.5.2句法分析 22

2.5.3 n元语法模型 23

2.6进一步阅读 24

习题 24

第 3章文本表示 25

3.1概述 25

3.2向量空间模型 25

3.2.1向量空间模型的基本概念 25

3.2.2特征项的构造与权重 26

3.2.3文本长度规范化 27

3.2.4特征工程 28

3.2.5其他文本表示方法 30

3.3词的分布式表示 31

文本数据挖掘 (第 2版)

3.3.1神经网络语言模型 32

3.3.2 C&W模型 36

3.3.3 CBOW与 Skip-gram模型 38

3.3.4噪声对比估计与负采样 39

3.3.5字词混合的分布式表示方法 41

3.4短语的分布式表示 43

3.4.1基于词袋的分布式表示 43

3.4.2基于自动编码器的分布式表示 43

3.5句子的分布式表示 46

3.5.1通用的句子表示 46

3.5.2任务相关的句子表示 49

3.6文档的分布式表示 52

3.6.1通用的文档分布式表示 53

3.6.2任务相关的文档分布式表示 55

3.7进一步阅读 56

习题 57

第 4章预训练语言模型 58

4.1概述 58

4.2 ELMo:源自语言模型的语境化分布式向量表示 58

4.2.1基于双向 LSTM的语言模型 59

4.2.2适应下游任务的语境化 ELMo词向量 60

4.3 GPT:生成式预训练模型 61

4.3.1 Transformer .62

4.3.2 GPT预训练 63

4.3.3 GPT微调 64

4.4 BERT:双向 Transformer编码表示 65

4.4.1 BERT预训练 66




4.4.2 BERT微调 68




4.4.3 XLNet:广义自回归预训练模型 68




4.4.4 UniLM 71




4.5进一步阅读 72


习题 72




第 5章文本分类 74




5.1概述 74




5.2传统文本表示 75




目录 XI


5.3特征选择 76




5.3.1互信息法 76




5.3.2信息增益法 . 79




5.3.3卡方统计量法 80




5.3.4其他方法 81




5.4传统分类算法 82




5.4.1朴素贝叶斯模型 82




5.4.2 logistic回归、 softmax回归与*大熵模型 84




5.4.3支持向量机 . 86




5.4.4集成学习 88




5.5深度神经网络方法 89




5.5.1基于前馈神经网络的文本分类方法 89




5.5.2基于卷积神经网络的文本分类方法 89




5.5.3基于循环神经网络的文本分类方法 91




5.6文本分类性能评估 94




5.7进一步阅读 97


习题 97




第 6章文本聚类 99




6.1概述 99




6.2文本相似性度量 99




6.2.1样本间的相似性 100




6.2.2簇间的相似性 102




6.2.3样本与簇之间的相似性 103




6.3文本聚类算法 103




6.3.1 K-均值聚类 103




6.3.2单遍聚类 107




6.3.3层次聚类 108




6.3.4密度聚类 111




6.4性能评估 113




6.4.1外部标准 113




6.4.2内部标准 115




6.5进一步阅读 115


习题 116




第 7章主题模型 117




7.1概述 117




文本数据挖掘 (第 2版)


7.2潜在语义分析 118




7.2.1词项-文档矩阵的奇异值分解 118




7.2.2词项和文档的概念表示及相似度计算 121




7.3概率潜在语义分析 123




7.3.1模型假设 123




7.3.2参数学习 124




7.4潜在狄利克雷分布 125




7.4.1模型假设 125




7.4.2词项和主题序列的联合概率 127




7.4.3模型推断 129




7.4.4新文档的推断 131




7.4.5 PLSA与 LDA的联系与区别 132




7.5进一步阅读 132


习题 133




第 8章情感分析与观点挖掘 135




8.1概述 135




8.2情感分析任务类型 136




8.2.1按目标形式划分 136




8.2.2按分析粒度划分 137




8.3文档或句子级情感分析方法 139




8.3.1基于规则的无监督情感分类 140




8.3.2基于传统机器学习的监督情感分类 141




8.3.3深度神经网络方法 144




8.4词语级情感分析与情感词典构建 146




8.4.1基于语义知识库的方法 147




8.4.2基于语料库的方法 147




8.4.3情感词典性能评估 149




8.5属性级情感分析 150




8.5.1属性抽取 150




8.5.2属性情感分类 153




8.5.3主题与情感的生成式建模 157




8.6情感分析中的特殊问题 159




8.6.1情感极性转移问题 159




8.6.2领域适应问题 160




8.7文本情绪分析 163




8.7.1心理学情绪理论 163




目录 XIII


8.7.2文本情绪识别 163




8.7.3情绪原因挖掘 165




8.8进一步阅读 167


习题 168




第 9章话题检测与跟踪 . 170




9.1概述 170




9.2术语与任务 172




9.2.1术语 172




9.2.2任务 173




9.3报道或话题的表示与相似性计算 175




9.4话题检测 177




9.4.1话题在线检测 177




9.4.2话题回溯检测 179




9.5话题跟踪 179

9.6评估方法 181

9.7社交媒体话题检测与跟踪 182

9.7.1社交媒体话题检测 182

9.7.2社交媒体话题跟踪 184

9.8突发话题检测 184

9.8.1突发状态识别 185

9.8.2以文档为中心的方法 187

9.8.3以特征为中心的方法 188

9.9进一步阅读 190

习题 190


展开全部

文本数据挖掘(第2版) 作者简介

宗成庆,中国科学院自动化所研究员、博士生导师,中国科学院大学岗位教授,ACL/CAAI/CCF Fellow,主要从事自然语言处理、机器翻译和语言认知计算等研究,主持国家项目10余项,发表论文200余篇,出版《统计自然语言处理》、《文本数据挖掘》和Text Data Mining三部专著及两部译著。担任国际计算语言学委员会(ICCL)委员,中国中文信息学会副理事长,曾任亚洲自然语言处理学会(AFNLP)主席,国际一流学术会议ACL’2015和COLING’2020程序委员会主席、ACL’2021大会主席。荣获国家科技进步奖二等奖和多个省部级及国家一级学会的科技奖励,获得北京市优秀教师、中科院优秀导师和国科大李佩教学名师等若干荣誉。享受国务院特殊津贴。张家俊,中国科学院自动化研究所研究员、中国科学院大学岗位教授、博士生导师,主要研究方向为机器翻译和自然语言处理,获得国家优秀青年科学基金资助,入选中国科协首届青年人才托举工程、中国科学院青年创新促进会优秀会员和北京智源青年科学家。发表CCF-A/B类论文80余篇,出版学术专著2部,译著1部。获得中国中文信息学会钱伟长中文信息处理科学技术奖一等奖、青年创新奖一等奖和2020年北京市科学技术奖一等奖等。担任中国中文信息学会青年工作委员会主任和机器翻译专委会副主任。担任ACL/EMNLP/COLING的(资深)领域主席和《自动化学报》等期刊的编委。夏睿,南京理工大学计算机学院教授、博士生导师,研究领域为人工智能、自然语言处理、文本数据挖掘,在国内外重要期刊和会议发表论文60余篇,出版学术专著2部,主持国家和省部级项目近10项,获得国际计算语言学会年会ACL2019杰出论文奖、中国中文信息学会青年创新奖一等奖等荣誉,获得江苏省杰出青年基金资助。

商品评论(0条)
暂无评论……
书友推荐
编辑推荐
返回顶部
中图网
在线客服