中图网

>

数据库

>

数据仓库与数据挖掘

数据挖掘-实用机器学习工具与技术-(原书第3版)

作者：威滕

出版社：机械工业出版社出版时间：2014-05-01

开本： 16开 页数： 462

本类榜单：计算机/网络销量榜

中图价:¥43.5(5.5折) 定价 ~~¥79.0~~ 登录后可看到会员价

暂时缺货收藏

运费6元，满69元免运费

?快递不能达地区使用邮政小包，运费14元起

云南、广西、海南、新疆、青海、西藏六省，部分地区快递不可达

本类五星书更多>

>
全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用

全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用

¥11.3¥45
>
决战行测5000题(言语理解与表达)

决战行测5000题(言语理解与表达)

¥28.2¥88
>
软件性能测试.分析与调优实践之路

软件性能测试.分析与调优实践之路

¥55.2¥69
>
第一行代码Android

第一行代码Android

¥76.2¥99
>
C Primer Plus 第6版中文版

C Primer Plus 第6版中文版

¥75.6¥108
>
深度学习

深度学习

¥82.3¥168
>
MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码

MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码

¥43.5¥79

商品详情
商品评论(0条)

中图价:¥43.5 暂时缺货

版权信息
本书特色
内容简介
目录
相关资料
作者简介

微信公众号

数据挖掘-实用机器学习工具与技术-(原书第3版) 版权信息

ISBN：9787111453819
条形码：9787111453819 ; 978-7-111-45381-9
装帧：一般胶版纸
册数：暂无
重量：暂无
所属分类：
计算机/网络
>
数据库
>
数据仓库与数据挖掘

数据挖掘-实用机器学习工具与技术-(原书第3版) 本书特色

本书是机器学习和数据挖掘领域的经典畅销教材，被众多国外名校选为教材。书中详细介绍用于数据挖掘领域的机器学习技术和工具以及实践方法，并且提供了一个公开的数据挖掘工作平台weka。本书主要内容包括：数据输入/输出、知识表示、数据挖掘技术（决策树、关联规则、基于实例的学习、线性模型、聚类、多实例学习等）以及在实践中的运用。本版对上一版内容进行了全面更新，以反映自第2版出版以来数据挖掘领域的技术变革和新方法，包括数据转换、集成学习、大规模数据集、多实例学习等，以及新版的weka机器学习软件。

数据挖掘-实用机器学习工具与技术-(原书第3版) 内容简介

weka系统的主要开发者将丰富的研发、商业应用和教学实践的经验和技术融会贯通。　　广泛覆盖在数据挖掘实践中采用的算法和机器学习技术，着眼于解决实际问题　　避免过分要求理论基础和数学知识，重点在于告诉读者“如何去做”，同时包括许多算法、代码以及具体实例的实现。　　将所有的概念都建立在具体实例的基础之上，促使读者首先考虑使用简单的技术。如果简单的技术不足以解决问题，再考虑提升到更为复杂的高级技术。　　新版增加了大量近年来*新涌现的数据挖掘算法和诸如web数据挖掘等新领域的介绍，所介绍的weka系统增加了50%的算法及大量新内容。

数据挖掘-实用机器学习工具与技术-(原书第3版) 目录

出版者的话
译者序
前言
致谢
**部分　数据挖掘简介
第1章　绪论
　1.1　数据挖掘和机器学习
　　1.1.1　描述结构模式
　　1.1.2　机器学习
　　1.1.3　数据挖掘
　1.2　简单的例子：天气问题和其他问题
　　1.2.1　天气问题
　　1.2.2　隐形眼镜：一个理想化的问题
　　1.2.3　鸢尾花：一个经典的数值型数据集
　　1.2.4　cpu性能：介绍数值预测
　　1.2.5　劳资协商：一个更真实的例子
　　1.2.6　大豆分类：一个经典的机器学习的成功例子
　1.3　应用领域
　　1.3.1　web挖掘
　　1.3.2　包含评判的决策
　　1.3.3　图像筛选
　　1.3.4　负载预测
　　1.3.5　诊断
　　1.3.6　市场和销售
　　1.3.7　其他应用
　1.4　机器学习和统计学
　1.5　将泛化看做搜索
　　1.5.1　枚举概念空间
　　1.5.2　偏差
　1.6　数据挖掘和道德
　　1.6.1　再识别
　　1.6.2　使用个人信息
　　1.6.3　其他问题
　1.7　补充读物
第2章　输入：概念、实例和属性
　2.1　概念
　2.2　样本
　　2.2.1　关系
　　2.2.2　其他实例类型
　2.3　属性
　2.4　输入准备
　　2.4.1　数据收集
　　2.4.2　arff格式
　　2.4.3　稀疏数据
　　2.4.4　属性类型
　　2.4.5　缺失值
　　2.4.6　不正确的值
　　2.4.7　了解数据
　2.5　补充读物
第3章　输出：知识表达
　3.1　表
　3.2　线性模型
　3.3　树
　3.4　规则
　　3.4.1　分类规则
　　3.4.2　关联规则
　　3.4.3　包含例外的规则
　　3.4.4　表达能力更强的规则
　3.5　基于实例的表达
　3.6　聚类
　3.7　补充读物
第4章　算法：基本方法
　4.1　推断基本规则
　　4.1.1　缺失值和数值属性
　　4.1.2　讨论
　4.2　统计建模
　　4.2.1　缺失值和数值属性
　　4.2.2　用于文档分类的朴素贝叶斯
　　4.2.3　讨论
　4.3　分治法：建立决策树
　　4.3.1　计算信息量
　　4.3.2　高度分支属性
　　4.3.3　讨论
　4.4　覆盖算法：建立规则
　　4.4.1　规则与树
　　4.4.2　一个简单的覆盖算法
　　4.4.3　规则与决策列表
　4.5　挖掘关联规则
　　4.5.1　项集
　　4.5.2　关联规则
　　4.5.3　有效地生成规则
　　4.5.4　讨论
　4.6　线性模型
　　4.6.1　数值预测：线性回归
　　4.6.2　线性分类：logistic回归
　　4.6.3　使用感知机的线性分类
　　4.6.4　使用winnow的线性分类
　4.7　基于实例的学习
　　4.7.1　距离函数
　　4.7.2　有效寻找*近邻
　　4.7.3　讨论
　4.8　聚类
　　4.8.1　基于距离的迭代聚类
　　4.8.2　快速距离计算
　　4.8.3　讨论
　4.9　多实例学习
　　4.9.1　聚集输入
　　4.9.2　聚集输出
　　4.9.3　讨论
　4.10　补充读物
　4.11　weka实现
第5章　可信度：评估学习结果
　5.1　训练和测试
　5.2　预测性能
　5.3　交叉验证
　5.4　其他评估方法
　　5.4.1　留一交叉验证
　　5.4.2　自助法
　5.5　数据挖掘方法比较
　5.6　预测概率
　　5.6.1　二次损失函数
　　5.6.2　信息损失函数
　　5.6.3　讨论
　5.7　计算成本
　　5.7.1　成本敏感分类
　　5.7.2　成本敏感学习
　　5.7.3　提升图
　　5.7.4　roc曲线
　　5.7.5　召回率-精确率曲线
　　5.7.6　讨论
　　5.7.7　成本曲线
　5.8　评估数值预测
　5.9　*小描述长度原理
　5.10　在聚类方法中应用mdl原理
　5.11　补充读物
第二部分　高级数据挖掘
第6章　实现：真正的机器学习方案
　6.1　决策树
　　6.1.1　数值属性
　　6.1.2　缺失值
　　6.1.3　剪枝
　　6.1.4　估计误差率
　　6.1.5　决策树归纳的复杂度
　　6.1.6　从决策树到规则
　　6.1.7　c4.5:选择和选项
　　6.1.8　成本-复杂度剪枝
　　6.1.9　讨论
　6.2　分类规则
　　6.2.1　选择测试的标准
　　6.2.2　缺失值和数值属性
　　6.2.3　生成好的规则
　　6.2.4　使用全局优化
　　6.2.5　从局部决策树中获得规则
　　6.2.6　包含例外的规则
　　6.2.7　讨论
　6.3　关联规则
　　6.3.1　建立频繁模式树
　　6.3.2　寻找大项集
　　6.3.3　讨论
　6.4　扩展线性模型
　　6.4.1　*大间隔超平面
　　6.4.2　非线性类边界
　　6.4.3　支持向量回归
　　6.4.4　核岭回归
　　6.4.5　核感知机
　　6.4.6　多层感知机
　　6.4.7　径向基函数网络
　　6.4.8　随机梯度下降
　　6.4.9　讨论
　6.5　基于实例的学习
　　6.5.1　减少样本集的数量
　　6.5.2　对噪声样本集剪枝
　　6.5.3　属性加权
　　6.5.4　泛化样本集
　　6.5.5　用于泛化样本集的距离函数
　　6.5.6　泛化的距离函数
　　6.5.7　讨论
　6.6　局部线性模型用于数值预测
　　6.6.1　模型树
　　6.6.2　构建树
　　6.6.3　对树剪枝
　　6.6.4　名目属性
　　6.6.5　缺失值
　　6.6.6　模型树归纳的伪代码
　　6.6.7　从模型树到规则
　　6.6.8　局部加权线性回归
　　6.6.9　讨论
　6.7　贝叶斯网络
　　6.7.1　预测
　　6.7.2　学习贝叶斯网络
　　6.7.3　算法细节
　　6.7.4　用于快速学习的数据结构
　　6.7.5　讨论
　6.8　聚类
　　6.8.1　选择聚类的个数
　　6.8.2　层次聚类
　　6.8.3　层次聚类的例子
　　6.8.4　增量聚类
　　6.8.5　分类效用
　　6.8.6　基于概率的聚类
　　6.8.7　em算法
　　6.8.8　扩展混合模型
　　6.8.9　贝叶斯聚类
　　6.8.10　讨论
　6.9　半监督学习
　　6.9.1　用于分类的聚类
　　6.9.2　协同训练
　　6.9.3　em和协同训练
　　6.9.4　讨论
　6.10　多实例学习
　　6.10.1　转换为单实例学习
　　6.10.2　升级学习算法
　　6.10.3　专用多实例方法
　　6.10.4　讨论
　6.11　weka实现
第7章　数据转换
　7.1　属性选择
　　7.1.1　独立于方案的选择
　　7.1.2　搜索属性空间
　　7.1.3　具体方案相关的选择
　7.2　离散化数值属性
　　7.2.1　无监督离散化
　　7.2.2　基于熵的离散化
　　7.2.3　其他离散化方法
　　7.2.4　基于熵的离散化与基于误差的离散化
　　7.2.5　离散属性转换成数值属性
　7.3　投影
　　7.3.1　主成分分析
　　7.3.2　随机投影
　　7.3.3　偏*小二乘回归
　　7.3.4　从文本到属性向量
　　7.3.5　时间序列
　7.4　抽样
　7.5　数据清洗
　　7.5.1　改进决策树
　　7.5.2　稳健回归
　　7.5.3　检测异常
　　7.5.4　一分类学习
　7.6　多分类问题转换成二分类问题
　　7.6.1　简单方法
　　7.6.2　误差校正输出编码
　　7.6.3　集成嵌套二分法
　7.7　校准类概率
　7.8　补充读物
　7.9　weka实现
第8章　集成学习
　8.1　组合多种模型
　8.2　装袋
　　8.2.1　偏差-方差分解
　　8.2.2　考虑成本的装袋
　8.3　随机化
　　8.3.1　随机化与装袋
　　8.3.2　旋转森林
　8.4　提升
　　8.4.1　adaboost算法
　　8.4.2　提升算法的威力
　8.5　累加回归
　　8.5.1　数值预测
　　8.5.2　累加logistic回归
　8.6　可解释的集成器
　　8.6.1　选择树
　　8.6.2　logistic模型树
　8.7　堆栈
　8.8　补充读物
　8.9　weka实现
第9章　继续：扩展和应用
　9.1　应用数据挖掘
　9.2　从大型的数据集里学习
　9.3　数据流学习
　9.4　融合领域知识
　9.5　文本挖掘
　9.6　web挖掘
　9.7　对抗情形
　9.8　无处不在的数据挖掘
　9.9　补充读物
第三部分　weka数据挖掘平台
第10章　weka简介
　10.1　weka中包含了什么
　10.2　如何使用weka
　10.3　weka的其他应用
　10.4　如何得到weka
第11章　explorer界面
　11.1　开始
　　11.1.1　准备数据
　　11.1.2　将数据载入explorer
　　11.1.3　建立决策树
　　11.1.4　查看结果
　　11.1.5　重做一遍
　　11.1.6　运用模型
　　11.1.7　运行错误的处理
　11.2　探索explorer
　　11.2.1　载入及过滤文件
　　11.2.2　训练和测试学习方案
　　11.2.3　自己动手：用户分类器
　　11.2.4　使用元学习器
　　11.2.5　聚类和关联规则
　　11.2.6　属性选择
　　11.2.7　可视化
　11.3　过滤算法
　　11.3.1　无监督属性过滤器
　　11.3.2　无监督实例过滤器
　　11.3.3　有监督过滤器
　11.4　学习算法
　　11.4.1　贝叶斯分类器
　　11.4.2　树
　　11.4.3　规则
　　11.4.4　函数
　　11.4.5　神经网络
　　11.4.6　懒惰分类器
　　11.4.7　多实例分类器
　　11.4.8　杂项分类器
　11.5　元学习算法
　　11.5.1　装袋和随机化
　　11.5.2　提升
　　11.5.3　组合分类器
　　11.5.4　成本敏感学习
　　11.5.5　优化性能
　　11.5.6　针对不同任务重新调整分类器
　11.6　聚类算法
　11.7　关联规则学习器
　11.8　属性选择
　　11.8.1　属性子集评估器
　　11.8.2　单一属性评估器
　　11.8.3　搜索方法
第12章　knowledge flow界面
　12.1　开始
　12.2　knowledge flow组件
　12.3　配置及连接组件
　12.4　增量学习
第13章　experimenter界面
　13.1　开始
　　13.1.1　运行一个实验
　　13.1.2　分析结果
　13.2　简单设置
　13.3　高级设置
　13.4　分析面板
　13.5　将运行负荷分布到多个机器上
第14章　命令行界面
　14.1　开始
　14.2　weka的结构
　　14.2.1　类、实例和包
　　14.2.2　weka.core包
　　14.2.3　weka.classifiers包
　　14.2.4　其他包
　　14.2.5　javadoc索引
　14.3　命令行选项
　　14.3.1　通用选项
　　14.3.2　与具体方案相关的选项
第15章　嵌入式机器学习
　15.1　一个简单的数据挖掘应用
　　15.1.1　messageclassifier（）
　　15.1.2　updatedata（）
　　15.1.3　classifymessage（）
第16章　编写新的学习方案
　16.1　一个分类器范例
　　16.1.1　buildclassifier（）
　　16.1.2　maketree（）
　　16.1.3　computeinfogain（）
　　16.1.4　classifyinstance（）
　　16.1.5　tosource（）
　　16.1.6　main（）
　16.2　与实现分类器有关的惯例
第17章　weka explorer的辅导练习
　17.1　explorer界面简介
　　17.1.1　导入数据集
　　17.1.2　数据集编辑器
　　17.1.3　应用过滤器
　　17.1.4　可视化面板
　　17.1.5　分类器面板
　17.2　*近邻学习和决策树
　　17.2.1　玻璃数据集
　　17.2.2　属性选择
　　17.2.3　类噪声以及*近邻学习
　　17.2.4　改变训练数据的数量
　　17.2.5　交互式建立决策树
　17.3　分类边界
　　17.3.1　可视化1r
　　17.3.2　可视化*近邻学习
　　17.3.3　可视化朴素贝叶斯
　　17.3.4　可视化决策树和规则集
　　17.3.5　弄乱数据
　17.4　预处理以及参数调整
　　17.4.1　离散化
　　17.4.2　离散化的更多方面
　　17.4.3　自动属性选择
　　17.4.4　自动属性选择的更多方面
　　17.4.5　自动参数调整
　17.5　文档分类
　　17.5.1　包含字符串属性的数据
　　17.5.2　实际文档文类
　　17.5.3　探索stringtowordvector过滤器
　17.6　挖掘关联规则
　　17.6.1　关联规则挖掘
　　17.6.2　挖掘一个真实的数据集
　　17.6.3　购物篮分析
参考文献
索引

展开全部

数据挖掘-实用机器学习工具与技术-(原书第3版) 相关资料

“本书既含理论又有实践应用，并且关注实践是本书的一大特色。对于从事数据挖掘和机器学习方面工作的每位读者，我强烈推荐本书！”
　　——dorian pyle
　　《data preparation for data mining》和《business modeling for data mining》的作者
　　“本书在数据挖掘技术领域备受推崇，是数据挖掘分析师的必读之物！”
　　——herb edelstein
　　two crows consulting公司首席数据挖掘咨询顾问
　　“这是我最喜爱的数据挖掘书籍之一，书中不仅循序渐进地介绍了各种算法，还辅以丰富实例，详细阐述了如何应用这些算法解决实际数据挖掘问题。本书不但有益于学习使用weka软件，而且还会帮助你了解各类机器学习算法。”
　　——tom breur
　　xlnt consulting公司首席咨询顾问
　　“假如你需要对数据进行分析和理解，本书以及相关的weka工具包是一个绝佳的起步。
　　本书以非常容易理解的方式展示了这门新的学科：既是用来训练新一代实际工作者和研究者的教科书，同时又能让像我这样的专业人员受益。witten、frank和hall热衷于简单而优美的解决方案。他们对每个主题都采用这样的方法，用具体的实例来讲解所有的概念，促使读者首先考虑简单的技术，当简单的技术不足以解决问题时，就提升到更为复杂的高级技术。”
　　——jim gray（图灵奖获得者）

数据挖掘-实用机器学习工具与技术-(原书第3版) 作者简介

Ian H.Witten 新西兰怀卡托大学计算机科学系教授，ACM Fellow和新西兰皇家学会Fellow，曾荣获2004年国际信息处理研究协会（IFIP）颁发的Namur奖项。他的研究兴趣包括语言学习、信息检索和机器学习。　　Eibe Frank 新西兰怀卡托大学计算机科学系副教授，《Machine Learning Journal》和《Journal of Artificial Intelligence Research》编委。　　Mark A.Hall 新西兰怀卡托大学名誉副研究员，曾获得2005年ACM SIGKDD服务奖。　　译者简介：李川，博士，副教授，四川大学计算机学院数据库知识工程研究所副所长，中国计算机学会数据库专委会委员。主持国家自然科学基金青年基金等项目多项，合作发表论文30余篇,获四川省科技成果二等奖1项。

商品评论(0条)

写书评赚书币

暂无评论……

书友推荐