4.23文创礼盒,买2个减5元 读书月福利
欢迎光临中图网 请 | 注册

数据科学手册

出版社:机械工业出版社出版时间:2019-04-01
开本: 16开 页数: 313
中 图 价:¥72.3(7.3折) 定价  ¥99.0 登录后可看到会员价
加入购物车 收藏
运费6元,满69元免运费
?快递不能达地区使用邮政小包,运费14元起
云南、广西、海南、新疆、青海、西藏六省,部分地区快递不可达
本类五星书更多>

数据科学手册 版权信息

数据科学手册 本书特色

本书对数据科学进行了整体性介绍,涵盖了掌握该学科所需的分析、编程和业务技能等方方面面。找到一个的数据科学家就像是寻找一只独角兽:因为其所需要的技术及技能组合很难在一个人身上兼备。另外,良好的数据科学素养不仅仅是对所训练技能的综合应用,还需要能够灵活考虑所有这些领域,并理解它们之间的联系。本书提供了数据科学的速成课程,将所有必要的技能结合到一个统一的学科体系中。与许多数据分析的书籍不同,本书涵盖了关键的计算机科学和软件工程相关内容,因为它们在数据科学家的日常工作中发挥了极其重要的作用。本书还介绍了经典的机器学习算法,从这些算法的数学基础到实际应用均有描述。本书对可视强调其在数据科学中的核心位置。引入古典统计学的目的是帮助读者用批判性思维对数据进行解释,并指出常见的陷阱。对分析结果的清化工具进行了综述,并晰交流(这也许是数据科学技术中*为薄弱的一个环节)有专门的章节进行讲解,本书对所有涉及的主题均是在解决实际问题的背景下加以解释。

数据科学手册 内容简介

本书对数据科学进行了整体性介绍,涵盖了掌握该学科所需的分析、编程和业务技能等方方面面。找到一个的数据科学家就像是寻找一只独角兽:因为其所需要的技术及技能组合很难在一个人身上兼备。另外,良好的数据科学素养不仅仅是对所训练技能的综合应用,还需要能够灵活考虑所有这些领域,并理解它们之间的联系。本书提供了数据科学的速成课程,将所有必要的技能结合到一个统一的学科体系中。与许多数据分析的书籍不同,本书涵盖了关键的计算机科学和软件工程相关内容,因为它们在数据科学家的日常工作中发挥了极其重要的作用。本书还介绍了经典的机器学习算法,从这些算法的数学基础到实际应用均有描述。本书对可视强调其在数据科学中的核心位置。引入古典统计学的目的是帮助读者用批判性思维对数据进行解释,并指出常见的陷阱。对分析结果的清化工具进行了综述,并晰交流(这也许是数据科学技术中*为薄弱的一个环节)有专门的章节进行讲解,本书对所有涉及的主题均是在解决实际问题的背景下加以解释。

数据科学手册 目录

译者序
原书前言
第1章 引言:成为独角兽 1
1.1 数据科学家不仅仅是高薪统计人员 2
1.2 本书的内容是怎样组织的 2
1.3 如何使用本书 3
1.4 无论如何,为什么一切都在Python中 3
1.5 示例代码及数据集 3
1.6 *后的话 4

第Ⅰ部分 必须掌握的基础素材

第2章 数据科学路线图 6
2.1 解决问题 7
2.2 理解数据:基本问题 8
2.3 理解数据:数据整理 9
2.4 理解数据:探索性分析 9
2.5 提取特征 10
2.6 模型 10
2.7 呈现结果 11
2.8 部署代码 11
2.9 迭代 12
2.10 术语 12

第3章 编程语言 13
3.1 为什么使用编程语言,有无其他选项 13
3.2 数据科学编程语言综述 14
3.2.1 Python语言 14
3.2.2 R语言 14
3.2.3 MATLAB和Octave 14
3.2.4 SAS 15
3.2.5 Scala 15
3.3 Python语言速成班 15
3.3.1 版本注解 15
3.3.2 “hello world”脚本 16
3.3.3 更为复杂的脚本 17
3.3.4 数据类型 19
3.4 字符串 19
3.4.1 注释与文档注释 21
3.4.2 复杂数据类型 21
3.4.3 列表 22
3.4.4 字符串与列表 22
3.4.5 元组 23
3.4.6 字典 24
3.4.7 集合 24
3.5 定义函数 24
3.5.1 循环与控制结构 25
3.5.2 一些关键函数 26
3.5.3 异常处理 27
3.5.4 导入库 27
3.5.5 类及对象 27
3.5.6 可哈希与不可哈希类型 28
3.6 Python语言技术库 29
3.6.1 数据帧 29
3.6.2 序列 30
3.6.3 连接与分组 32
3.7 其他Python语言资源 33
3.8 延伸阅读 33
3.9 术语 34

第4章 数据预处理:字符串操作、正则表达式和数据清理 36
4.1 世界上*糟糕的数据集 36
4.2 如何识别问题 37
4.3 数据内容问题 37
4.3.1 重复条目 37
4.3.2 单实体的多个条目 37
4.3.3 丢失缺失值 38
4.3.4 NULL 38
4.3.5 巨大异常值 38
4.3.6 过期数据 39
4.3.7 人造数据 39
4.3.8 非正规空格 39
4.4 格式化问题 39
4.4.1 不同行列之间的不规则格式化 39
4.4.2 额外的空白 39
4.4.3 不规则大小写 40
4.4.4 不一致分隔符 40
4.4.5 不规则NULL格式 40
4.4.6 非法字符 40
4.4.7 奇怪或不兼容的时间类型 40
4.4.8 操作系统不兼容 41
4.4.9 错误的软件版本 41
4.5 格式化脚本实例 42
4.6 正则表达式 43
4.6.1 正则表达式语法 43
4.7 数据科学战壕中的生活 46
4.8 术语 47

第5章 可视化与简单度量 48
5.1 关于Python语言可视化工具的说明 48
5.2 示例代码 49
5.3 饼图 49
5.4 柱状图 51
5.5 直方图 53
5.6 均值、标准差、中位数和分位数 55
5.7 箱式图 56
5.8 散点图 57
5.9 对数轴线散点图 59
5.10 散点阵列图 61
5.11 热力图 62
5.12 相关性 63
5.13 Anscombe四重奏与数字极限 64
5.14 时间序列 65
5.15 延伸阅读 68
5.16 术语 69

第6章 机器学习概要 70
6.1 历史背景 71
6.2 监督与无监督学习 71
6.3 训练数据、测试数据和过拟合 72
6.4 延伸阅读 72
6.5 术语 73

第7章 插曲:特征提取思路 74
7.1 标准特征 74
7.2 有关分组的特征 75
7.3 预览更复杂的特征 75
7.4 定义待预测功能 75

第8章 机器学习分类 77
8.1 什么是分类器,用它可以做什么 77
8.2 一些实用的关注点 78
8.3 二分类与多分类 78
8.4 实例脚本 79
8.5 特定分类器 80
8.5.1 决策树 80
8.5.2 随机森林 82
8.5.3 集成分类器 83
8.5.4 支持向量机 83
8.5.5 逻辑回归 85
8.5.6 回归 87
8.5.7 朴素贝叶斯分类器 88
8.5.8 神经网络 89
8.6 评价分类器 90
8.6.1 混淆矩阵 91
8.6.2 ROC曲线 91
8.6.3 ROC曲线之下的面积 93
8.7 选择分类阈值 93
8.7.1 其他性能测量 94
8.7.2 升力曲线 94
8.8 延伸阅读 94
8.9 术语 95

第9章 技术交流与文档化 96
9.1 指导原则 96
9.1.1 了解观众 96
9.1.2 说明其重要性 97
9.1.3 使其具体化 97
9.1.4 一张图片胜过千言万语 98
9.1.5 不要对自己的技术知识感到骄傲 98
9.1.6 使其看起来美观 98
9.2 幻灯片 99
9.2.1 C.R.A.P设计原则 99
9.2.2 一些提示和经验法则 101
9.3 书面报告 102
9.4 演示:有用的技巧 103
9.5 代码文档 104
9.6 延伸阅读 105
9.7 术语 105

第Ⅱ部分 仍需要知道的事情

第10章 无监督学习:聚类与降维 108
10.1 维数灾难 108
10.2 实例:“特征脸”降维 110
10.3 主成分分析与因子分析 112
10.4 Skree图与维度的理解 113
10.5 因子分析 114
10.6 PCA的局限性 114
10.7 聚类 115
10.7.1 聚类簇的实际评估 115
10.7.2 k均值聚类 116
10.7.3 高斯混合模型 117
10.7.4 合成聚类 118
10.7.5 聚类质量评价 118
10.7.6 轮廓分数 118
10.7.7 兰德指数与调整兰德指数 120
10.7.8 互信息 120
10.8 延伸阅读 121
10.9 术语 121

第11章 回归 1
展开全部
商品评论(0条)
暂无评论……
书友推荐
编辑推荐
返回顶部
中图网
在线客服