4.23文创礼盒,买2个减5元 读书月福利
欢迎光临中图网 请 | 注册

Spark大数据处理技术

作者:夏俊鸾
出版社:电子工业出版社出版时间:2015-01-01
开本: 16开 页数: 336
中 图 价:¥31.9(4.9折) 定价  ¥65.0 登录后可看到会员价
暂时缺货 收藏
运费6元,满69元免运费
?快递不能达地区使用邮政小包,运费14元起
云南、广西、海南、新疆、青海、西藏六省,部分地区快递不可达
温馨提示:5折以下图书主要为出版社尾货,大部分为全新(有塑封/无塑封),个别图书品相8-9成新、切口
有划线标记、光盘等附件不全详细品相说明>>
本类五星书更多>

Spark大数据处理技术 版权信息

Spark大数据处理技术 本书特色

本书以spark 0.9版本为基础进行编写,是一本全面介绍spark及spark生态圈相关技术的书籍,是国内首本深入介绍 spark 原理和架构的技术书籍。主要内容有 spark 基础功能介绍及内部重要模块分析,包括部署模式、调度框架、存储管理以及应用监控;同时也详细介绍了 spark 生态圈中其他的软件和模块,包括 sql 处理引擎 shark 和 spark sql、流式处理引擎 spark streaming、图计算框架 graphx 以及分布式内存文件系统 tachyon。本书从概念和原理上对 spark 核心框架和生态圈做了详细的解读,并对 spark 的应用现状和未来发展做了一定的介绍,旨在为大数据从业人员和 spark爱好者提供一个更深入学习的平台。   本书适合任何大数据、spark 领域的从业人员阅读,同时也为架构师、软件开发工程师和大数据爱好者展现了一个现代大数据框架的架构原理和实现细节。相信通过学习本书,读者能够熟悉和掌握 spark 这一当前流行的大数据框架,并将其投入到生产实践中去。  

Spark大数据处理技术 内容简介

全球首部全面介绍spark及spark生态圈相关技术的技术书籍   俯览未来大局,不失精细剖析,呈现一个现代大数据框架的架构原理和实现细节   透彻讲解spark原理和架构,以及部署模式、调度框架、存储管理及应用监控等重要模块   spark生态圈深度检阅:sql处理shark和spark sql、流式处理spark streaming、图计算graphx及内存文件系统tachyon

Spark大数据处理技术 目录

第1章 spark系统概述
  1.1 大数据处理框架
  1.2  spark大数据处理框架
    1.2.1  rdd表达能力
    1.2.2  spark子系统
  1.3 小结
第2章 spark rdd及编程接口
  2.1  spark程序“hello world”
  2.2  spark rdd
    2.2.1  rdd分区(partitions)
    2.2.2  rdd优先位置(preferredlocations)
    2.2.3  rdd依赖关系(dependencies)
    2.2.4  rdd分区计算(compute)
    2.2.5  rdd分区函数(partitioner)
  2.3 创建操作
    2.3.1 集合创建操作
    2.3.2 存储创建操作
  2.4 转换操作
    2.4.1 rdd基本转换操作
    2.4.2 键值rdd转换操作
    2.4.3 再论rdd依赖关系
  2.5 控制操作(control operation)
  2.6 行动操作(action operation)
    2.6.1 集合标量行动操作
    2.6.2 存储行动操作
  2.7 小结
第3章 spark运行模式及原理
  3.1  spark运行模式概述
    3.1.1  spark运行模式列表
    3.1.2  spark基本工作流程
    3.1.3 相关基本类
  3.2  local模式
    3.2.1 部署及程序运行
    3.2.2 内部实现原理
  3.3  standalone模式
    3.3.1 部署及程序运行
    3.3.2 内部实现原理
  3.4  local cluster模式
    3.4.1 部署及程序运行
  ……
第4章 spark调度管理原理
第5章 spark的存储管理
第6章 spark监控管理
第7章 spark架构与安装配置
第8章 sql程序扩展
第9章 spark sql
第10章 spark streaming流数据处理框架
第11章 graphx计算框架
第12章 tachyon存储系统
展开全部

Spark大数据处理技术 相关资料

spark的高速发展导致了中文信息的脱节。这本书深入浅出地介绍了spark和spark上多个重要计算框架,希望它的问世可以更好地在大中华地区普及spark,增进华人spark社区的发展。
  ——databricks大数据公司联合创始人 apache spark pmc member 辛湜
  apache spark对一体化大数据流水线的搭建进行了前所未有的简化。然而,在大数据领域固有的复杂性面前,要交付高效稳定的数据产品,开发者仍有必要对框架细节有充分的了解。本书详细介绍了spark主体框架中最为关键的执行流程,相信可以为读者在基于spark的大数据系统设计和调优方面提供有效的指导。
  ——databricks工程师 连城
  随着大数据时代的到来,企业数据每天都在急剧快速膨胀,如何发掘这些数据的价值,需要一种高效而稳定的分布式计算框架和模型。spark恰逢其时,应运而生。本书对spark进行了详细的阐述,包括核心模块和各个子系统,能让spark初学者快速了解和上手spark,是学习spark的敲门砖。希望借此书,能让更多的读者去深入发掘spark之美。
  ——淘宝技术部数据挖掘与计算团队负责人 黄明(明风)
  apache spark由于其基于内存的高性能计算模式以及丰富灵活的编程接口,得到了广泛的支持和应用,大有逐渐取代hadoop mapreduce成为新一代大数据计算引擎的趋势。本书从源代码角度深入浅出地分析了apache spark及相关大数据技术的设计及实现,包含很多实战经验和使用心得。相信本书对于进行大数据、内存计算及分布式系统研究,apache spark的深入理解以及实际应用,都有很好的参考价值。
  ——英特尔亚太研发有限公司技术总监 段建刚
  大数据是行业热点中的热点,而spark则是大数据相关技术中的明星。本书的几位作者都是在spark领域有着丰富一线经验的技术从业者,本书系统化地介绍了spark相关知识,是学习spark不可多得的优秀书籍。
  ——前淘宝技术部负责人、技术总监 曾宪杰

 

Spark大数据处理技术 作者简介

夏俊鸾 现任阿里巴巴数据平台部高级技术专家,Apache Spark项目Committer,曾就职于英特尔亚太研发中心,微博账号@Andrew-Xia。   刘旭晖 现任蘑菇街数据平台资深架构师(花名天火),曾就职于英特尔亚太研发中心大数据软件部,Spark/Hadoop/Hbase/Phoenix 等众多大数据相关开源项目的积极贡献者。乐于分享,著有CSDN博客 blog.csdn.net/colorant。   邵赛赛 英特尔亚太研发有限公司开发工程师,专注于大数据领域,开源爱好者,现从事Spark相关工作,Spark代码贡献者。   程浩 英特尔大数据技术团队软件工程师,Shark和Spark SQL活跃开发者,致力于SQL on Big Data的性能调优与优化。   史鸣飞 英特尔亚太研发有限公司大数据软件部工程师,专注于大数据领域,主要从事Spark及相关项目的开发及应用,Spark及Shark代码贡献者,现在主要投身于Tachyon项目的开发。   黄洁 目前就职于英特尔亚太研发中心大数据技术中心,担任高级软件工程师,致力于大数据技术的性能优化及开发工作,涉及Hadoop、Spark、HBase等开源项目。在多年的工作过程中,积累了一定的分布式大数据框架性能调优经验,并且是Apache Chukwa项目的PMC成员和Committer。在此之前,毕业于上海交通大学并获硕士及学士学位。  

商品评论(0条)
暂无评论……
书友推荐
编辑推荐
返回顶部
中图网
在线客服