中图网

>

软件工程/开发项目管理

Hadoop+Spark大数据分析实战/大数据技术丛书

作者：迟殿委

出版社：清华大学出版社出版时间：2022-07-01

开本： 16开 页数： 290

本类榜单：计算机/网络销量榜

中图价:¥51.8(7.5折) 定价 ~~¥69.0~~ 登录后可看到会员价

加入购物车收藏

运费6元，满69元免运费

?快递不能达地区使用邮政小包，运费14元起

云南、广西、海南、新疆、青海、西藏六省，部分地区快递不可达

本类五星书更多>

>
全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用

全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用

¥11.3¥45
>
决战行测5000题(言语理解与表达)

决战行测5000题(言语理解与表达)

¥28.2¥88
>
软件性能测试.分析与调优实践之路

软件性能测试.分析与调优实践之路

¥55.2¥69
>
第一行代码Android

第一行代码Android

¥76.2¥99
>
C Primer Plus 第6版中文版

C Primer Plus 第6版中文版

¥75.6¥108
>
深度学习

深度学习

¥82.3¥168
>
MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码

MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码

¥43.5¥79

商品详情
商品评论(0条)

中图价:¥51.8 加入购物车

版权信息
本书特色
内容简介
目录
作者简介

微信公众号

Hadoop+Spark大数据分析实战/大数据技术丛书版权信息

ISBN：9787302608844
条形码：9787302608844 ; 978-7-302-60884-4
装帧：一般胶版纸
册数：暂无
重量：暂无
所属分类：
计算机/网络
>
软件工程/开发项目管理

Hadoop+Spark大数据分析实战/大数据技术丛书本书特色

本书全面讲解Hadoop生态圈各组件的核心知识、操作和分析技术，系统介绍Spark框架搭建、操作和典型的机器学习分析技术。*后通过两个综合实战项目——影评分析、旅游酒店评价分析，来贯穿大数据分析的完整流程。

Hadoop+Spark大数据分析实战/大数据技术丛书内容简介

本书是Hadoop+Spark大数据分析技术入门书，基于Hadoop和Spark两大框架体系的3．2版本，以通俗易懂的方式介绍Hadoop+Spark原生态组件的原理、集群搭建、实战操作，以及整个Hadoop生态系统主流的大数据分析技术。本书共分14章。第1章讲解Hadoop框架及新版本特性，并详细讲解大数据分析环境的搭建工作，包括Linux操作系统的安装、SSH工具使用和配置等；第2章讲解Hadoop伪分布式的安装和开发体验，使读者熟悉Hadoop大数据开发两大核心组件，即HDFS和MapReduee；第3～12章讲解。Hadoop生态系统各框架HIDFS、MapReduce、输入输出、Hadoop集群配置、高可用集群、HBase、Hive、数据实时处理系统Flume，以及Spark框架数据处理、机器学习等实战技术，并通过实际案例加深对各个框架的理解与应用；第13～14章分别通过影评分析、旅游酒店评价分析实战项目来贯穿大数据分析的完整流程。本书可以作为大数据分析初学者的入门指导书，也可以作为大数据开发人员的参考手册，同时也适合作为高等院校大数据相关专业的教材或教学参考书。

Hadoop+Spark大数据分析实战/大数据技术丛书目录

第1章大数据与Hadoop 1

1.1 什么是大数据 1

1.2 大数据的来源 2

1.3 如何处理大数据 3

1.3.1 数据分析与挖掘 3

1.3.2 基于云平台的分布式处理 4

1.4 Hadoop 3新特性 6

1.5 虚拟机与Linux操作系统的安装 7

1.5.1 VirtualBox虚拟机的安装 7

1.5.2 Linux操作系统的安装 8

1.6 SSH工具与使用 14

1.7 Linux统一设置 16

1.8 本章小结 17

第2章 Hadoop伪分布式集群 18

2.1 安装独立运行的Hadoop 19

2.2 Hadoop伪分布式环境准备 21

2.3 Hadoop伪分布式安装 25

2.4 HDFS操作命令 31

2.5 Java项目访问HDFS 33

2.6 winutils 38

2.7 快速MapReduce程序示例 39

2.8 本章小结 42

第3章 HDFS分布式文件系统 43

3.1 HDFS的体系结构 43

3.2 NameNode的工作 44

3.3 SecondaryNameNode 49

3.4 DataNode 50

3.5 HDFS的命令 51

3.6 RPC远程过程调用 52

3.7 本章小结 53

第4章分布式运算框架MapReduce 55

4.1 MapReduce的运算过程 55

4.2 WordCount示例 57

4.3 自定义Writable 60

4.4 Partitioner分区编程 63

4.5 自定义排序 65

4.6 Combiner编程 67

4.7 默认Mapper和默认Reducer 68

4.8 倒排索引 69

4.9 Shuffle 73

4.9.1 Spill过程 73

4.9.2 Sort过程 74

4.9.3 Merge过程 75

4.10 本章小结 76

第5章 Hadoop输入输出 78

5.1 自定义文件输入流 79

5.1.1 自定义LineTextInputFormat 79

5.1.2 自定义ExcelInputFormat类 82

5.1.3 DBInputFormat 86

5.1.4 自定义输出流 89

5.2 顺序文件SequenceFile的读写 90

5.2.1 生成一个顺序文件 91

5.2.2 读取顺序文件 91

5.2.3 获取Key/Value类型 92

5.2.4 使用SequenceFileInputFormat读取数据 93

5.3 本章小结 95

第6章 Hadoop分布式集群配置 96

6.1 Hadoop集群 96

6.2 本章小结 100

第7章 Hadoop高可用集群搭建 101

7.1 ZooKeeper简介 101

7.2 ZooKeeper集群安装 104

7.3 znode节点类型 105

7.4 观察节点 106

7.5 配置Hadoop高可靠集群 106

7.6 用Java代码操作集群 115

7.7 本章小结 117

第8章数据仓库Hive 118

8.1 Hive简介 118

8.2 Hive3的安装配置 120

8.2.1 使用Derby数据库保存元数据 120

8.2.2 使用MySQL数据库保存元数据 121

8.3 Hive命令 124

8.4 Hive内部表 127

8.5 Hive外部表 128

8.6 Hive表分区 128

8.6.1 分区的技术细节 128

8.6.2 分区示例 131

8.7 查询示例汇总 133

8.8 Hive函数 134

8.8.1 关系运算符号 135

8.8.2 更多函数 136

8.8.3 使用Hive函数实现WordCount 138

8.9 本章小结 140

第9章 HBase数据库 141

9.1 HBase的特点 141

9.1.1 HBase的高并发和实时处理数据 142

9.1.2 HBase的数据模型 142

9.2 HBase的安装 144

9.2.1 HBase的单节点安装 145

9.2.2 HBase的伪分布式安装 147

9.2.3 Java客户端代码 149

9.2.4 其他Java操作代码 152

9.3 HBase集群安装 155

9.4 HBase Shell操作 159

9.4.1 DDL操作 160

9.4.2 DML操作 162

9.5 本章小结 166

第10章 Flume数据采集 167

10.1 Flume简介 167

10.1.1 Flume原理 167

10.1.2 Flume的一些核心概念 168

10.2 Flume的安装与配置 169

10.3 快速示例 169

10.4 在ZooKeeper中保存Flume的配置文件 171

10.5 Flume的更多Source 174

10.5.1 avro source 174

10.5.2 thrift source和thrift sink 178

10.5.3 exec source 181

10.5.4 spool source 182

10.5.5 HDFS sinks 183

10.6 本章小结 184

第11章 Spark框架搭建及应用 185

11.1 安装Spark 186

11.1.1 本地模式 186

11.1.2 伪分布式安装 188

11.1.3 集群安装 191

11.1.4 Spark on YARN 193

11.2 使用Scala开发Spark应用 196

11.2.1 安装Scala 196

11.2.2 开发Spark程序 197

11.3 spark-submit 200

11.3.1 使用spark-submit提交 200

11.3.2 spark-submit参数说明 201

11.4 DataFrame 203

11.4.1 DataFrame概述 203

11.4.2 DataFrame基础应用 205

11.5 Spark SQL 210

11.5.1 快速示例 211

11.5.2 Read和Write 215

11.6 Spark Streaming 216

11.6.1 快速示例 217

11.6.2 DStream 220

11.6.3 FileStream 220

11.6.4 窗口函数 222

11.6.5 updateStateByKey 223

11.7 共享变量 225

11.7.1 广播变量 225

11.7.2 累加器 227

11.8 本章小结 227

第12章 Spark机器学习 228

12.1 机器学习 228

12.1.1 机器学习概述 228

12.1.2 Spark ML 230

12.2 典型机器学习流程介绍 230

12.2.1 提出问题 230

12.2.2 假设函数 231

12.2.3 代价函数 232

12.2.4 训练模型确定参数 233

12.3 经典算法模型实战 233

12.3.1 聚类算法实战 233

12.3.2 回归算法实战 236

12.3.3 协同过滤算法实战 239

第13章影评分析项目实战 245

13.1 项目内容 245

13.2 项目需求及分析 246

13.3 详细实现 250

13.3.1 搭建项目环境 250

13.3.2 编写爬虫类 253

13.3.3 编写分词类 255

13.3.4 **个job的Map阶段实现 259

13.3.5 一个job的Reduce阶段实现 259

13.3.6 第二个job的Map阶段实现 260

13.3.7 第二个job的自定义排序类阶段的实现 261

13.3.8 第二个job的自定义分区阶段实现 261

13.3.9 第二个job的Reduce阶段实现 262

13.3.10 Run程序主类实现 262

13.3.11 编写词云类 263

13.3.12 效果测试 264

第14章旅游酒店评价分析项目实战 266

14.1 项目介绍 266

14.2 项目需求及分析 267

14.2.1 数据集需求 267

14.2.2 功能需求 267

14.3 详细实现 268

14.3.1 数据集上传到HDFS 269

14.3.2 Spark数据清洗 271

14.3.3 构建Hive数据仓库表 274

14.3.4 Hive表数据导出到MySQL 280

14.3.5 数据可视化开发 282

展开全部

Hadoop+Spark大数据分析实战/大数据技术丛书作者简介

迟殿委，计算机软件与理论专业硕士，系统架构设计师。有多年企业软件研发经验和丰富的JavaEE培训经验，熟练掌握JavaEE全栈技术框架，对Java核心编程技术有深刻理解。主要擅长JavaEE系统架构设计、大数据分析与挖掘。著有图书《Hadoop+Spark大数据分析实战》《Spring Boot企业级开发实战（视频教学版）》《Spring Boot+Spring Cloud微服务开发》《深入浅出Java编程》。

商品评论(0条)

写书评赚书币

暂无评论……

书友推荐

>
诗经-先民的歌唱
诗经-先民的歌唱
裴溥言
¥15.1~~¥39.8~~
>
二体千字文
二体千字文
本书编委会
¥16.0~~¥40.0~~
>
企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)
企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)
[英] 达尔文著，朱邦芊译
¥6.3~~¥14.0~~
>
史学评论
史学评论
杨玉圣
¥13.9~~¥42.0~~
>
月亮与六便士
月亮与六便士
[英]毛姆著,胡曦译
¥13.4~~¥42.0~~
>
随园食单
随园食单
袁枚
¥20.6~~¥48.0~~
>
龙榆生：词曲概论/大家小书
龙榆生：词曲概论/大家小书
龙榆生
¥9.1~~¥24.0~~
>
名家带你读鲁迅:故事新编
名家带你读鲁迅:故事新编
鲁迅著，陈漱渝主编
¥13.0~~¥26.0~~

本类畅销

2022图书×抽奖盲袋

¥9.9~~¥25~~
2023读书月阅读盲盒——天黑，闭眼，刀谁？

中图网

¥42.3~~¥158~~
2023读书月阅读盲盒——十万个为什么里面为什么没有我想问的为什么？

中图网

¥88~~¥260~~
2022读者节纪念徽章-三星会员专属

中图网

¥45~~¥45.6~~
2023读书月阅读盲盒——我什么场面没见过？

中图网

¥42.3~~¥158~~
2023读书月阅读盲盒——去码头整点什么薯条？

中图网

¥42.3~~¥158~~

Hadoop+Spark大数据分析实战/大数据技术丛书

Hadoop+Spark大数据分析实战/大数据技术丛书版权信息

Hadoop+Spark大数据分析实战/大数据技术丛书本书特色

Hadoop+Spark大数据分析实战/大数据技术丛书内容简介

Hadoop+Spark大数据分析实战/大数据技术丛书目录

Hadoop+Spark大数据分析实战/大数据技术丛书作者简介

诗经-先民的歌唱

二体千字文

企鹅口袋书系列·伟大的思想20:论自然选择(英汉双语)

史学评论

月亮与六便士

随园食单

龙榆生：词曲概论/大家小书

名家带你读鲁迅:故事新编

2022图书×抽奖盲袋

2023读书月阅读盲盒——天黑，闭眼，刀谁？

2023读书月阅读盲盒——十万个为什么里面为什么没有我想问的为什么？

2022读者节纪念徽章-三星会员专属

2023读书月阅读盲盒——我什么场面没见过？

2023读书月阅读盲盒——去码头整点什么薯条？

人间草木

祸枣集

房思琪的初恋乐园

上海滩的贾斯汀·比伯

百年梦忆－梁实秋人生自述

时间停止的那一天

Hadoop+Spark大数据分析实战/大数据技术丛书

Hadoop+Spark大数据分析实战/大数据技术丛书 版权信息

Hadoop+Spark大数据分析实战/大数据技术丛书 本书特色

Hadoop+Spark大数据分析实战/大数据技术丛书 内容简介

Hadoop+Spark大数据分析实战/大数据技术丛书 目录

Hadoop+Spark大数据分析实战/大数据技术丛书 作者简介

Hadoop+Spark大数据分析实战/大数据技术丛书版权信息

Hadoop+Spark大数据分析实战/大数据技术丛书本书特色

Hadoop+Spark大数据分析实战/大数据技术丛书内容简介

Hadoop+Spark大数据分析实战/大数据技术丛书目录

Hadoop+Spark大数据分析实战/大数据技术丛书作者简介