读书月福利
欢迎光临中图网 请 | 注册
> >>
敏捷数据科学-用Hadoop创建数据分析应用

敏捷数据科学-用Hadoop创建数据分析应用

作者:朱尔尼
出版社:电子工业出版社出版时间:2014-07-01
开本: 16开 页数: 184
中 图 价:¥27.0(5.5折) 定价  ¥49.0 登录后可看到会员价
暂时缺货 收藏
运费6元,满69元免运费
?快递不能达地区使用邮政小包,运费14元起
云南、广西、海南、新疆、青海、西藏六省,部分地区快递不可达
本类五星书更多>

敏捷数据科学-用Hadoop创建数据分析应用 版权信息

  • ISBN:9787121236198
  • 条形码:9787121236198 ; 978-7-121-23619-8
  • 装帧:一般胶版纸
  • 册数:暂无
  • 重量:暂无
  • 所属分类:>>

敏捷数据科学-用Hadoop创建数据分析应用 本书特色

《敏捷数据科学:用hadoop创建数据分析应用》面向大数据挖掘,以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据-价值金字塔进阶模式中,你将学到:一整套实用工具及其方法论,可快速实现在hadoop 上构建数据分析应用;用python、apache pig 及d3.js等轻量级工具创建用于探索数据的敏捷环境;一种可根据数据中信息快速切换,进行不同类型数据分析的迭代式开发方法。 《敏捷数据科学:用hadoop创建数据分析应用》适合所有与数据工作相关的从业者,同时也适合有志成为数据科学工作者的广大读者作为入门读物。

敏捷数据科学-用Hadoop创建数据分析应用 内容简介

对大数据的挖掘需要投入大量的人力和时间。怎么才能确保构建的是一个正确的模型?通过这本实践指南,你可以学到一套灵活的工具和方法论,在hadoop上构建数据分析应用。 使用诸如python、apache pig和d3.js等轻量级工具,你的团队能够创建一个敏捷环境来探索数据。我们会开发一个样例应用程序,挖掘你自己的电子邮箱数据。你也会学习到一种迭代式的开发方法,使得你能根据数据中的信息快速切换,进行不同类型的数据分析。书中所有的代码样例都可以在 heroku 中以 app 形式运行。 ■ 用敏捷式大数据开发方法论创建分析应用 ■ 用数据-价值栈,在一系列敏捷周期中创建价值 ■ 用多种数据结构从单个数据集中提取特征,获取洞察 ■ 用图表可视化数据,通过交互性报表从不同角度展示数据 ■ 用历史数据进行预测,将预测转化为行动 ■ 在每个迭代周期过后获取用户反馈,确保项目方向正确

敏捷数据科学-用Hadoop创建数据分析应用 目录

第1 部分 起步 ............................................................... 1

第1 章 理论 .................................................................. 3

敏捷大数据 ............................................................................................................3

big words 定义 ......................................................................................................4

敏捷大数据团队 .....................................................................................................5

认识机遇和问题 ..............................................................................................6

敏捷大数据流程 ................................................................................................... 11

代码检查和结对编程 ...........................................................................................12

敏捷的场所:开发的效率 ....................................................................................13

协作空间 .......................................................................................................14

私人空间 .......................................................................................................14

个人空间 .......................................................................................................14

用大幅打印件明确表达想法 ................................................................................15

第2 章 数据 ............................................................... 17

电子邮件 ..............................................................................................................17

处理原始数据 ......................................................................................................18

原始的电子邮件 ............................................................................................18

结构化与半结构化数据 .................................................................................18

sql ......................................................................................................................20

nosql .................................................................................................................24

序列化 ...........................................................................................................24

从演变的模式中抽取和展示特征 ..................................................................25

数据流水线 ...................................................................................................26

数据透视 ..............................................................................................................27

社交网络 .......................................................................................................28

时间序列 .......................................................................................................30

自然语言 .......................................................................................................31

概率 ...............................................................................................................33

小结 .....................................................................................................................35

第3 章 敏捷开发工具 ................................................... 37

可扩展性= 简洁...................................................................................................37

敏捷大数据处理 ...................................................................................................38

设置运行python 的虚拟环境 ...............................................................................39

使用avro 对事件进行序列化 ..............................................................................40

在python 中使用avro ..................................................................................40

收集数据 ..............................................................................................................42

使用pig 处理数据................................................................................................44

安装pig .........................................................................................................45

使用mongodb 发布数据 ....................................................................................49

安装mongodb ..............................................................................................49

安装mongodb 的java 驱动程序 .................................................................50

安装mongo-hadoop .......................................................................................50

用pig 向mongodb 推送数据 .......................................................................50

使用elasticsearch 搜索数据 ................................................................................52

安装 ...............................................................................................................52

使用wonderdog 整合elasticsearch 和pig ...................................................53

对工作流程的反思 ...............................................................................................55

轻量级的web 应用 ..............................................................................................56

python 和 flask .............................................................................................56

展示数据 ..............................................................................................................58

安装bootstrap ...............................................................................................58

启用bootstrap ...............................................................................................59

使用d3.js 和nvd3.js 可视化数据 ..................................................................63

小结 .....................................................................................................................64

第4 章 在云端 ............................................................. 65

引言 .....................................................................................................................65

github .................................................................................................................67

dotcloud ...............................................................................................................67

dotcloud echo 服务 .......................................................................................68

python 工作者服务 ........................................................................................71

amazon web services ..........................................................................................71

simple storage service ..................................................................................71

elastic mapreduce ........................................................................................72

mongodb 即服务 ..........................................................................................79

辅助工具(instrumentation) ................................................................................81

google analytics ...........................................................................................81

mortar data ...................................................................................................82

第2 部分 登上金字塔 ................................................... 85

第5 章 收集和展示数据 ............................................... 89

整合软件栈 ..........................................................................................................90

收集并序列化收件箱 ...........................................................................................90

处理和发布邮件数据 ...........................................................................................91

在浏览器中显示邮件 ...........................................................................................93

用flask 和pymongo 处理邮件数据 ..............................................................94

使用jinja2 渲染html5 页面 ......................................................................94

敏捷检查点 ..........................................................................................................98

生成电子邮件清单 ...............................................................................................99

用mongodb 显示邮件 .................................................................................99

对数据展示的分析 ...................................................................................... 101

搜索邮件 ............................................................................................................ 106

使用pig,elasticsearch 和wonderdog 构建索引 ....................................... 106

在网页中搜索邮件数据 ............................................................................... 107

结论 ................................................................................................................... 108

第6 章 使用图表可视化数据 ....................................... 111

优秀的图表 ........................................................................................................ 112

抽取实体:邮件地址 ......................................................................................... 112

抽取邮件 ..................................................................................................... 112

对时间进行可视化 ............................................................................................. 116

结论 ................................................................................................................... 122

第7 章 利用报表探索数据 .......................................... 123

为数据添加联系 ................................................................................................. 126

用tf-idf 从邮件中提取关键字 ........................................................................ 133

小结 ................................................................................................................... 138

第8 章 预测 .............................................................. 141

预测电子邮件的回复率 ...................................................................................... 142

个性化 ................................................................................................................ 147

小结 ................................................................................................................... 148

第9 章 驱动行动 ........................................................ 149

好邮件的属性 .................................................................................................... 150

使用朴素贝叶斯方法进行更好的预测 ............................................................... 150

p(reply | from ∩ to) ........................................................................................ 150

p(reply | token) ................................................................................................. 151

实时预测 ............................................................................................................ 153

记录事件日志 .................................................................................................... 157

小结 ................................................................................................................... 157

索引 ........................................................................... 159
展开全部

敏捷数据科学-用Hadoop创建数据分析应用 相关资料

“在目前“数据科学”被大肆宣传的环境下,读到一本构建数据产品的实践指南让我耳目一新。russell向我们逐步介绍了他利用数据来解决问题的敏捷哲学。”
—— mat kelcey matpalm.com博主

敏捷数据科学-用Hadoop创建数据分析应用 作者简介

作者介绍:Russsel Jurney 在美国和墨西哥的赌场开始他的数据分析生涯。他开发了一个 Web 应用来分析老虎机的性能。在经历了创业、交互式媒体和新闻业以后,他到了硅谷,在 Ning 和LinkedIn 开始构建可扩展的数据分析应用。 译者介绍:朱洪波 阿里巴巴数据挖掘专家,机器学习团队负责人,司职于解决商业客户对数据的深层需求。纸质书爱好者,相信理性与逻辑的力量。

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服