4.23文创礼盒,买2个减5元 读书月福利
欢迎光临中图网 请 | 注册
> >>
Hadoop & Spark大数据开发实战

Hadoop & Spark大数据开发实战

作者:肖睿
出版社:中国水利水电出版社出版时间:2017-07-01
开本: 32开 页数: 298
中 图 价:¥19.7(3.4折) 定价  ¥58.0 登录后可看到会员价
加入购物车 收藏
运费6元,满69元免运费
?快递不能达地区使用邮政小包,运费14元起
云南、广西、海南、新疆、青海、西藏六省,部分地区快递不可达
温馨提示:5折以下图书主要为出版社尾货,大部分为全新(有塑封/无塑封),个别图书品相8-9成新、切口
有划线标记、光盘等附件不全详细品相说明>>
本类五星书更多>

Hadoop & Spark大数据开发实战 版权信息

Hadoop & Spark大数据开发实战 本书特色

大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,*终形成变革之力。本书围绕Hadoop和Spark这两个主流技术进行讲解,主要内容包括Hadoop环境配置、分布式文件系统HDFS、分布式计算框架MapReduce、资源调度框架YARN与Hadoop新特性、大数据数据仓库Hive、离线处理辅助系统、Spark Core、 Spark SQL、Spark Streaming等知识。
为保证*学习效果,本书紧密结合实际应用,利用大量案例说明和实践,提炼含金量十足的开发经验。本书使用Hadoop和Spark进行大数据开发,并配以完善的学习资源和支持服务,包括视频教程、案例素材下载、学习交流社区、讨论组等终身学习内容,为开发者带来全方位的学习体验,更多技术支持请访问课工场官网:www.kgc.cn。

Hadoop & Spark大数据开发实战 内容简介

大数据让我们以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,*终形成变革之力。本书围绕Hadoop和Spark这两个主流技术进行讲解,主要内容包括Hadoop环境配置、分布式文件系统HDFS、 分布式计算框架MapReduce、资源调度框架YARN与Hadoop新特性、大数据数据仓库Hive、离线处理辅助系统、Spark Core、 Spark SQL、Spark Streaming等知识。为保证*优学 习效果,本书紧密结合实际应用,利用大量案例说明和实践,提炼含金量十足的开发经验。本书使用Hadoop和Spark进行大数据开发,并配以完善的学习资源和支持服务,包括视频教程、案例素材下载、学习交流社区、讨论组等终身学 习内容,为开发者带来全方位的学习体验,更多技术支持请访问课工场官网:www.kgc.cn。

Hadoop & Spark大数据开发实战 目录

前言关于引用作品版权说明第1章 初识Hadoop 本章任务 任务1 大数据概述 ………………… 1.1.1 大数据基本概念 1.1.2 大数据对于企业带来的挑战…… 任务2 Hadoop概述……… …… 1.2.1 Hadoop简介 …… 1.2.2 HadooD生态系统 ……… 1.2.3 大数据应用案例 ……… 任务3 Hadoop环境措建… …… 1.3.1 虚拟机安装 … … … 1.3.2 Linux系统安装 …… 1.3.3 Hadoop伪分布式环境搭建 …… 本章总结 …… …………………… 本章作业 ………… 第2章 分布式文件系统HDFS 本章任务 …… …… ………… 任务1 初识HDFS ………………… 2.1.1 HDFS概述 ……… 2.1.2 HDFS基本概念……………… 2.1.3 HDFS体系结构… … …… 任务2 HDFS操作 ……………… 2.2.1 HDFS shell访问 ……… 2.2.2 Java API访问……… …… 任务3 HDFS运行机制…………… 2.3.1 HDFS文件读写流程 ……… 2.3.2 HDFS副本机制 ………… 2.3.3 数据负载均衡…… ……… 2.3.4 机架感知 … … 任务4 HDFS进阶……………… 2.4.1 Hadoop序列化 … 2.4.2 基于文件的数据结构SequenceFile 2.4.3 基于文件的数据结构MapFile 本章总结 … ………… 本章作业…………… …… ……… 第3章 分布式计算框架MapReduce… 本章任务……………… … ……… 任务1 MapReduce编程模型……… 3.1.1 MapReduce概述… 3.1.2 MapReduce编程模型 … 3.1.3 MapReduce Woracount编程实例 任务2 MapReduce进阶…………… 3.2.1 MapReduce类型…… 3.2.2 MapReduce输入格式…… 3.2.3 MapReduce输出格式 3.2.4 Combiner … 3.2.5 Partitioner … 3.2.6 RecordReader … … 任务3 MapReduce高级编程…… 3.3.1 Join的MapReduce实现… 3.3.2 排序的MapReduce实现…… 3.3.3 二次排序的MapReduce实现…… 3.3.4 合并小文件的MapReduce实现 本章总结…… …………… …… 本章作业……… …… …… 第4章 YARN与Hadoop新特性 本章任务……………… ……… 任务1 初识资源调度框架YARN… 4.1.1 YARN产生背景 4.1.2 初识YARN 4.1.3 YARN运行机制 任务2 HDFS新特性 4.2.1 HDFS NameNOde HA 4.2.2 HDFS NameN0de Federation 4.2.3 HDFSSnaoshots 4.2.4 WebHOFS RESTAPI 4.2.5 DistCp 任务3 YARN新特性 … 4.3.1 ResourceManager Restart 4.3.2 ResourceManager HA 本章总结 … … … 本章作业 … … …… 第5章 大数据数据仓库Hive 本章任务 … … 任务1 初识Hive … … 5.1.1 Hiye简介 5.1.2 Hiye架构 5.1.3 Hiye与Hadoop的关系 5.1.4 Hive与传统关系型数据库对比 5.1.5 Hive数据存储 5.1.6 Hive环境部署 任务2 Hive基本操作… … 5.2.1 DDL操作 5.2.2 DML操作 5.2.3 Hive shell操作 任务3 Hive进阶 … … 5.3.1 Hive函数 5.3.2 Hive常用调优策略 本章总结 … ……… 本章作业……… … 第6章 离线处理辅助系统 本章任务… … … 任务1 使用Sqoop完成数据迁移 6.1.1 Sqoop简介 6.1.2 导入MysQL数据到HDFS 6.1.3 导出HOFS数据到MySQL 6.1.4 导入MySQL数据到Hive 6.1.5 Sqoop中Job的使用 任务2 工作流调度框架Azkaban 6.2.1 Azkaban简介 6.2.2 Azkaban部署 6.2.3 Azkaban实战 本章总结 本章作业第7章 Spark入门 本章任务 …… …… 任务1 初识Spark ……… 7.1.1 Spark概述 7.1.2 Spark优点 7.1.3 Spark生态系统BDAs 任务2 Scala入门… 7.2.1 Scala介绍 7.2.2 Scala函数 7.2.3 Scala面向对象 7.2.4 Scala集合 7.2.5 Scala进阶 任务3 获取Spark源码并进行编译 7.3.1 获取Spark源码 7.3.2 Spark源码编译 任务4 第次与Spark亲密接触… 7.4.1 Spark环境部署 7.4.2 Spark完成词频统计分析 本章总结 …… … 本章作业 … … 第8章 SparkCore…………… 本章任务 …… ………… 任务1 SparK的基石RDD … 8.1.1 RDD概述 8.1.2 RDD常用创建方式… 8.1.3 RDD的转换 8.1.4 ROD的动作 8.1.5 RDD的依赖 任务2 RDD进阶 … 8.2.1 RDD缓存 8.2.2 共享变量(Shared Variables) 8.2.3 Spark核心概念 8.2.4 Spark运行架构 任务3 基于RDD的Spark编程 8.3.1 开发前置准备 8.3.2 使用SparkCore开发词频计数WordCount 8.3.3 使用SparkCore进行年龄统计 本章总结 本章作业第9章 Spark SQL 本章任务 任务1 SparkSQL前世今生 9.1.1 为什么需要SQL 9.1.2 常用的SQL on Hadoop框架 9.1.3 Spark SQL概述 任务2 Spark SQL编程 9.2.1 SparkSQL编程入口 9.2.2 DataFrame是什么 9.2.3 DataFrame编程 任务3 SparkSQL进阶 9.3.1 Spark SQL外部数据源操作 9.3.2 SparkSQL函数的使用 9.3.3 Spark SQL常用调优 本章总结 本章作业第10章 Spark Streaming 本章任务 任务1 初始流处理框架及Spark Streaming 10.1.1 流处理框架概述 10.1.2 Spark Streaming概述 任务2 Spark Streaming编程 10.2.1 Spark Streaming核心概念 10.2.2 使用Spark Streaming编程 任务3 Spark Streaming进阶 10.3.1 Spark Streaming整合Flume 10.3.2 Spark Streaming整合Kafka 10.3.3 Spark Streaming常用优化策略 本章总结 本章作业
展开全部

Hadoop & Spark大数据开发实战 作者简介

肖睿,北京大学教育学博士,课工场kgc.cn创始人,总经理。长期服务于中国IT职业教育领军企业北大青鸟Aptech,现任北大青鸟Aptech副总裁,职业教育研究院院长。
肖睿先生曾就读于吉林大学少年班,专攻人工智能专家系统方向,作为国内顶尖软件技术专家,早期曾领导北大方正核心软件产品研发,并受聘为北京大学软件学院特约讲师、北京创客总部创业导师、教育部专业和课程评审专家、人力资源和社会保障部岗位标准评审专家。拥有20年IT职业教育产品管理和企业管理经验,是中国IT职业教育领军人物。

商品评论(0条)
暂无评论……
书友推荐
编辑推荐
返回顶部
中图网
在线客服