-
>
全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用
-
>
决战行测5000题(言语理解与表达)
-
>
软件性能测试.分析与调优实践之路
-
>
第一行代码Android
-
>
C Primer Plus 第6版 中文版
-
>
深度学习
-
>
MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码
敏捷数据科学-用Hadoop创建数据分析应用 版权信息
- ISBN:9787121236198
- 条形码:9787121236198 ; 978-7-121-23619-8
- 装帧:一般胶版纸
- 册数:暂无
- 重量:暂无
- 所属分类:>>
敏捷数据科学-用Hadoop创建数据分析应用 本书特色
《敏捷数据科学:用hadoop创建数据分析应用》面向大数据挖掘,以敏捷视角呈现高效构建数据模型的全程实践和思路。在一组以一个真实电子邮箱数据挖掘为例的数据-价值金字塔进阶模式中,你将学到:一整套实用工具及其方法论,可快速实现在hadoop 上构建数据分析应用;用python、apache pig 及d3.js等轻量级工具创建用于探索数据的敏捷环境;一种可根据数据中信息快速切换,进行不同类型数据分析的迭代式开发方法。 《敏捷数据科学:用hadoop创建数据分析应用》适合所有与数据工作相关的从业者,同时也适合有志成为数据科学工作者的广大读者作为入门读物。
敏捷数据科学-用Hadoop创建数据分析应用 内容简介
对大数据的挖掘需要投入大量的人力和时间。怎么才能确保构建的是一个正确的模型?通过这本实践指南,你可以学到一套灵活的工具和方法论,在hadoop上构建数据分析应用。 使用诸如python、apache pig和d3.js等轻量级工具,你的团队能够创建一个敏捷环境来探索数据。我们会开发一个样例应用程序,挖掘你自己的电子邮箱数据。你也会学习到一种迭代式的开发方法,使得你能根据数据中的信息快速切换,进行不同类型的数据分析。书中所有的代码样例都可以在 heroku 中以 app 形式运行。 ■ 用敏捷式大数据开发方法论创建分析应用 ■ 用数据-价值栈,在一系列敏捷周期中创建价值 ■ 用多种数据结构从单个数据集中提取特征,获取洞察 ■ 用图表可视化数据,通过交互性报表从不同角度展示数据 ■ 用历史数据进行预测,将预测转化为行动 ■ 在每个迭代周期过后获取用户反馈,确保项目方向正确
敏捷数据科学-用Hadoop创建数据分析应用 目录
第1 章 理论 .................................................................. 3
敏捷大数据 ............................................................................................................3
big words 定义 ......................................................................................................4
敏捷大数据团队 .....................................................................................................5
认识机遇和问题 ..............................................................................................6
敏捷大数据流程 ................................................................................................... 11
代码检查和结对编程 ...........................................................................................12
敏捷的场所:开发的效率 ....................................................................................13
协作空间 .......................................................................................................14
私人空间 .......................................................................................................14
个人空间 .......................................................................................................14
用大幅打印件明确表达想法 ................................................................................15
第2 章 数据 ............................................................... 17
电子邮件 ..............................................................................................................17
处理原始数据 ......................................................................................................18
原始的电子邮件 ............................................................................................18
结构化与半结构化数据 .................................................................................18
sql ......................................................................................................................20
nosql .................................................................................................................24
序列化 ...........................................................................................................24
从演变的模式中抽取和展示特征 ..................................................................25
数据流水线 ...................................................................................................26
数据透视 ..............................................................................................................27
社交网络 .......................................................................................................28
时间序列 .......................................................................................................30
自然语言 .......................................................................................................31
概率 ...............................................................................................................33
小结 .....................................................................................................................35
第3 章 敏捷开发工具 ................................................... 37
可扩展性= 简洁...................................................................................................37
敏捷大数据处理 ...................................................................................................38
设置运行python 的虚拟环境 ...............................................................................39
使用avro 对事件进行序列化 ..............................................................................40
在python 中使用avro ..................................................................................40
收集数据 ..............................................................................................................42
使用pig 处理数据................................................................................................44
安装pig .........................................................................................................45
使用mongodb 发布数据 ....................................................................................49
安装mongodb ..............................................................................................49
安装mongodb 的java 驱动程序 .................................................................50
安装mongo-hadoop .......................................................................................50
用pig 向mongodb 推送数据 .......................................................................50
使用elasticsearch 搜索数据 ................................................................................52
安装 ...............................................................................................................52
使用wonderdog 整合elasticsearch 和pig ...................................................53
对工作流程的反思 ...............................................................................................55
轻量级的web 应用 ..............................................................................................56
python 和 flask .............................................................................................56
展示数据 ..............................................................................................................58
安装bootstrap ...............................................................................................58
启用bootstrap ...............................................................................................59
使用d3.js 和nvd3.js 可视化数据 ..................................................................63
小结 .....................................................................................................................64
第4 章 在云端 ............................................................. 65
引言 .....................................................................................................................65
github .................................................................................................................67
dotcloud ...............................................................................................................67
dotcloud echo 服务 .......................................................................................68
python 工作者服务 ........................................................................................71
amazon web services ..........................................................................................71
simple storage service ..................................................................................71
elastic mapreduce ........................................................................................72
mongodb 即服务 ..........................................................................................79
辅助工具(instrumentation) ................................................................................81
google analytics ...........................................................................................81
mortar data ...................................................................................................82
第2 部分 登上金字塔 ................................................... 85
第5 章 收集和展示数据 ............................................... 89
整合软件栈 ..........................................................................................................90
收集并序列化收件箱 ...........................................................................................90
处理和发布邮件数据 ...........................................................................................91
在浏览器中显示邮件 ...........................................................................................93
用flask 和pymongo 处理邮件数据 ..............................................................94
使用jinja2 渲染html5 页面 ......................................................................94
敏捷检查点 ..........................................................................................................98
生成电子邮件清单 ...............................................................................................99
用mongodb 显示邮件 .................................................................................99
对数据展示的分析 ...................................................................................... 101
搜索邮件 ............................................................................................................ 106
使用pig,elasticsearch 和wonderdog 构建索引 ....................................... 106
在网页中搜索邮件数据 ............................................................................... 107
结论 ................................................................................................................... 108
第6 章 使用图表可视化数据 ....................................... 111
优秀的图表 ........................................................................................................ 112
抽取实体:邮件地址 ......................................................................................... 112
抽取邮件 ..................................................................................................... 112
对时间进行可视化 ............................................................................................. 116
结论 ................................................................................................................... 122
第7 章 利用报表探索数据 .......................................... 123
为数据添加联系 ................................................................................................. 126
用tf-idf 从邮件中提取关键字 ........................................................................ 133
小结 ................................................................................................................... 138
第8 章 预测 .............................................................. 141
预测电子邮件的回复率 ...................................................................................... 142
个性化 ................................................................................................................ 147
小结 ................................................................................................................... 148
第9 章 驱动行动 ........................................................ 149
好邮件的属性 .................................................................................................... 150
使用朴素贝叶斯方法进行更好的预测 ............................................................... 150
p(reply | from ∩ to) ........................................................................................ 150
p(reply | token) ................................................................................................. 151
实时预测 ............................................................................................................ 153
记录事件日志 .................................................................................................... 157
小结 ................................................................................................................... 157
索引 ........................................................................... 159
敏捷数据科学-用Hadoop创建数据分析应用 相关资料
“在目前“数据科学”被大肆宣传的环境下,读到一本构建数据产品的实践指南让我耳目一新。russell向我们逐步介绍了他利用数据来解决问题的敏捷哲学。”
—— mat kelcey matpalm.com博主
敏捷数据科学-用Hadoop创建数据分析应用 作者简介
作者介绍:Russsel Jurney 在美国和墨西哥的赌场开始他的数据分析生涯。他开发了一个 Web 应用来分析老虎机的性能。在经历了创业、交互式媒体和新闻业以后,他到了硅谷,在 Ning 和LinkedIn 开始构建可扩展的数据分析应用。 译者介绍:朱洪波 阿里巴巴数据挖掘专家,机器学习团队负责人,司职于解决商业客户对数据的深层需求。纸质书爱好者,相信理性与逻辑的力量。
- >
小考拉的故事-套装共3册
小考拉的故事-套装共3册
¥20.4¥68.0 - >
名家带你读鲁迅:故事新编
名家带你读鲁迅:故事新编
¥13.0¥26.0 - >
烟与镜
烟与镜
¥20.6¥48.0 - >
伯纳黛特,你要去哪(2021新版)
伯纳黛特,你要去哪(2021新版)
¥15.9¥49.8 - >
中国人在乌苏里边疆区:历史与人类学概述
中国人在乌苏里边疆区:历史与人类学概述
¥24.0¥48.0 - >
【精装绘本】画给孩子的中国神话
【精装绘本】画给孩子的中国神话
¥17.6¥55.0 - >
罗曼·罗兰读书随笔-精装
罗曼·罗兰读书随笔-精装
¥40.6¥58.0 - >
回忆爱玛侬
回忆爱玛侬
¥10.5¥32.8
-
参数化逻辑构建过程
¥34.2¥118 -
构建之法
¥48.3¥69 -
App Inventor趣味游戏编程
¥34.8¥43 -
区块链开发从入门到精通 以太坊+超级账本
¥55.9¥79.8 -
App Inventor创意趣味编程
¥27.3¥39 -
2022图书×抽奖盲袋
¥9.9¥25