欢迎光临中图网 请 | 注册
> >>
大数据日知录-架构与算法

大数据日知录-架构与算法

作者:张俊林
出版社:电子工业出版社出版时间:2014-09-01
开本: 16开 页数: 388
中 图 价:¥48.3(7.0折) 定价  ¥69.0 登录后可看到会员价
暂时缺货 收藏
运费6元,满69元免运费
?快递不能达地区使用邮政小包,运费14元起
云南、广西、海南、新疆、青海、西藏六省,部分地区快递不可达
本类五星书更多>

大数据日知录-架构与算法 版权信息

大数据日知录-架构与算法 本书特色

大数据是当前*为流行的热点概念之一,其已由技术名词衍生到对很多行业产生颠覆性影响的社会现象,作为*明确的技术发展趋势之一,基于大数据的各种新型产品必将会对每个人的日常生活产生日益重要的影响。 《大数据日知录:架构与算法》从架构与算法角度全面梳理了大数据存储与处理的相关技术。大数据技术具有涉及的知识点异常众多且正处于快速演进发展过程中等特点,其技术点包括底层的硬件体系结构、相关的基础理论、大规模数据存储系统、分布式架构设计、各种不同应用场景下的差异化系统设计思路、机器学习与数据挖掘并行算法以及层出不穷的新架构、新系统等。《大数据日知录:架构与算法》对众多纷繁芜杂的相关技术文献和系统进行了择优汰劣并系统性地对相关知识分门别类地进行整理和介绍,将大数据相关技术分为大数据基础理论、大数据系统体系结构、大数据存储,以及包含批处理、流式计算、交互式数据分析、图数据库、并行机器学习的架构与算法以及增量计算等技术分支在内的大数据处理等几个大的方向。通过这种体系化的知识梳理与讲解,相信对于读者整体和系统地了解、吸收和掌握相关的优秀技术有极大的帮助与促进作用。 《大数据日知录:架构与算法》的读者对象包括对nosql 系统及大数据处理感兴趣的所有技术人员,以及有志于投身到大数据处理方向从事架构师、算法工程师、数据科学家等相关职业的在校本科生及研究生。

大数据日知录-架构与算法 内容简介

推荐购买: 《elasticsearch:可扩展的开源弹性搜索解决方案》 国内唯一es技术书 全面剖析这一快速、灵活、可扩展的搜索解决方案 《spark大数据处理技术》            shark|spark sql|spark streaming|graphx|tachyon深度解密spark完整生态 **committer凝聚一流实力与超前视野 spark创始人及实践先驱联合推荐 《hadoop硬实战》     学习hadoop和mapreduce不二之选 85个hadoop高级技巧实战案例  《从paxos到zookeeper:分布式一致性原理与实践》             分布式一致性及zookeeper实战唯一著作 来自国内*大型*复杂*悠久系统  《寻路大数据:海量数据与大规模分析》                   google大数据专家力作 超豪华译者|作序者 微博|高德|ucloud三大老总联合作序推荐 真正梳理趋势与生态|方案与工具选型|应用场景与价值挖掘的独家内参 1.大数据领域技术专家、畅销书《这就是搜索引擎:核心技术详解》作者张俊林*新力作,历时3年,质量上乘 2.《大数据》《信息检索导论》译者王斌、机器学习专家张栋、新浪微博平台及大数据总经理刘子正、盛大文学首席数据官陈运文、csdn/《程序员》创始人蒋涛联袂力荐 3.全面梳理大数据相关技术,从数据、算法、策略、应用和系统架构等多个维度进行剖析,包罗万象又深入浅出 4.内容全部是干货,紧跟技术前沿,是作者理论与实践经验的总结,绝对值得一读 5.每章后列有精选高质量论文,可以节约读者筛选读物的时间

大数据日知录-架构与算法 目录

第0章 当谈论大数据时我们在谈什么
0.1 大数据是什么
0.2 大数据之翼:技术范型转换
0.3 大数据商业炼金术
0.4 “大数据”在路上

第1章 数据分片与路由
1.1 抽象模型
1.2 哈希分片(hash partition)
1.2.1 round robin
1.2.2 虚拟桶(virtual buckets)
1.2.3 一致性哈希(consistent hashing)
1.3 范围分片(range partition)
参考文献

第2章 数据复制与一致性
2.1 基本原则与设计理念
2.1.1 原教旨cap主义
2.1.2 cap重装上阵(cap reloaded)
2.1.3 acid原则
2.1.4 base原则
2.1.5 cap/acid/base三者的关系
2.1.6 幂等性(idempotent)
2.2 一致性模型分类
2.2.1 强一致性
2.2.2 *终一致性
2.2.3 因果一致性
2.2.4 “读你所写”一致性
2.2.5 会话一致性
2.2.6 单调读一致性
2.2.7 单调写一致性
2.3 副本更新策略
2.3.1 同时更新
2.3.2 主从式更新
2.3.3 任意节点更新
2.4 一致性协议
2.4.1 两阶段提交协议(two-phrase commit,2pc)
2.4.2 向量时钟(vector clock)
2.4.3 rwn协议
2.4.4 paxos协议
2.4.5 raft协议
参考文献

第3章 大数据常用的算法与数据结构
3.1 布隆过滤器(bloom filter)
3.1.1 基本原理
3.1.2 误判率及相关计算
3.1.3 改进:计数bloom filter
3.1.4 应用
3.2 skiplist
3.3 lsm树
3.4 merkle哈希树(merkle hash tree)
3.4.1 merkle树基本原理
3.4.2 dynamo中的应用
3.4.3 比特币中的应用
3.5 snappy与lzss算法
3.5.1 lzss算法
3.5.2 snappy
3.6 cuckoo 哈希(cuckoo hashing)
3.6.1 基本原理
3.6.2 应用:silt存储系统
参考文献

第4章 集群资源管理与调度
4.1 资源管理抽象模型
4.1.1 概念模型
4.1.2 通用架构
4.2 调度系统设计的基本问题
4.2.1 资源异质性与工作负载异质性
4.2.2 数据局部性(data locality)
4.2.3 抢占式vs.非抢占式调度
4.2.4 资源分配粒度(allocation granularity)
4.2.5 饿死(starvation)与死锁(dead lock)问题
4.2.6 资源隔离方法
4.3 资源管理与调度系统范型
4.3.1 集中式调度器(monolithic scheduler)
4.3.2 两级调度器(two-level scheduler)
4.3.3 状态共享调度器(shared-state scheduler)
4.4 资源调度策略
4.4.1 fifo调度策略
4.4.2 公平调度器(fair scheduler)
4.4.3 能力调度器(capacity scheduler)
4.4.4 延迟调度策略(delay scheduling)
4.4.5 主资源公平调度策略(dominant resource fair scheduling)
4.5 mesos
4.6 yarn
参考文献

第5章 分布式协调系统
5.1 chubby锁服务
5.1.1 系统架构
5.1.2 数据模型
5.1.3 会话与keepalive机制
5.1.4 客户端缓存
5.2 zookeeper
5.2.1 体系结构
5.2.2 数据模型(data model)
5.2.3 api
5.2.4 zookeeper的典型应用场景
5.2.5 zookeeper的实际应用
参考文献

第6章 分布式通信
6.1 序列化与远程过程调用框架
6.1.1 protocol buffer与thrift
6.1.2 avro
6.2 消息队列
6.2.1 常见的消息队列系统
6.2.2 kafka
6.3 应用层多播通信(application-level multi-broadcast)
6.3.1 概述
6.3.2 gossip协议
参考文献

第7章 数据通道
7.1 log数据收集
7.1.1 chukwa
7.1.2 scribe
7.2 数据总线
7.2.1 databus
7.2.2 wormhole
7.3 数据导入/导出
参考文献

第8章 分布式文件系统
8.1 google文件系统(gfs)
8.1.1 gfs设计原则
8.1.2 gfs整体架构
8.1.3 gfs主控服务器
8.1.4 系统交互行为
8.1.5 colossus
8.2 hdfs
8.2.1 hdfs整体架构
8.2.2 ha方案
8.2.3 namenode 联盟
8.3 haystack存储系统
8.3.1 haystack整体架构
8.3.2 目录服务
8.3.3 haystack缓存
8.3.4 haystack存储系统的实现
8.4 文件存储布局
8.4.1 行式存储
8.4.2 列式存储
8.4.3 混合式存储
8.5 纠删码(erasure code)
8.5.1 reed-solomon算法
8.5.2 lrc编码
8.5.3 hdfs-raid架构
参考文献

第9章 内存kv数据库
9.1 ramcloud
9.1.1 ramcloud整体架构
9.1.2 数据副本管理与数据恢复
9.2 redis
9.3 membase
参考文献

第10章 列式数据库
10.1 bigtable
10.1.1 bigtable的数据模型
10.1.2 bigtable的整体结构
10.1.3 bigtable的管理数据
10.1.4 主控服务器(master server)
10.1.5 子表服务器(tablet server)
10.2 pnuts存储系统
10.2.1 pnuts的整体架构
10.2.2 存储单元
10.2.3 子表控制器与数据路由器
10.2.4 雅虎消息代理
10.2.5 数据一致性
10.3 megastore
10.3.1 实体群组切分
10.3.2 数据模型
10.3.3 数据读/写与备份
10.4 spanner
10.4.1 spanserver软件栈
10.4.2 数据模型
10.4.3 truetime
参考文献

第11章 大规模批处理系统
11.1 mapreduce计算模型与架构
11.1.1 计算模型
11.1.2 系统架构
11.1.3 mapreduce计算的特点及不足
11.2 mapreduce计算模式
11.2.1 求和模式(summarization pattern)
11.2.2 过滤模式(filtering pattern)
11.2.3 组织数据模式(data organization pattern)
11.2.4 join模式(join pattern)
11.3 dag计算模型
11.3.1 dag计算系统的三层结构
11.3.2 dryad
11.3.3 flumejava和tez
参考文献

第12章 流式计算
12.1 流式计算系统架构
12.1.1 主从架构
12.1.2 p2p架构
12.1.3 samza架构
12.2 dag拓扑结构
12.2.1 计算节点
12.2.2 数据流
12.2.3 拓扑结构
12.3 送达保证(delivery guarantees)
12.3.1 storm的送达保证机制
展开全部

大数据日知录-架构与算法 相关资料

我和俊林接触不多但神交已久,几年前我看过他一本搜索方面的技术书籍,觉得写得相当不错,从此俊林的书都是必然要收藏的。看了这本书,感觉和上一本一样出色。和其他介绍大数据技术的书相比,这本书的涉及面相当广,覆盖了当前大数据技术(分布式计算、大规 模文件系统、nosql数据库、常用数据结构和算法、批处理和流式计算、图数据库、分布式机器学习等)的方方面面。实在且实用,我想是这本书最大的特点,诚挚推荐对大数据技术感兴趣的读者阅读。
  王斌
  中国科学院信息工程研究所研究员、博士生导师
  《大数据》《信息检索导论》译者
  本书区别于市场上已有的众多大数据概念类书籍,重点讲述了解决大数据问题的算法与架构,全书逻辑清晰,重点突出,讲述复杂算法时图文并茂,可以看出作者将实际工作经验结合理论,在本书上花了很多心血,相信能帮助从事大数据工作的所有工程技术人员。
  张栋
  原百度科学家,凤巢系统架构师;原google研究员,机器学习专家
  此书内容跨度很大,可称为大数据领域“从入门到精通”的教科书,非常全面且系统化。人人都在谈论大数据,但事实上并没有人告诉大家大数据到底是什么、涵盖哪些方面,而此书可以给出答案。
  刘子正
  新浪微博平台及大数据总经理
  这是一本大数据技术的百科全书——从大数据的存储结构、内容管理,讲到集群任务调度、分布式数据通信、流行的各类新式数据库的介绍,还有基于机器学习技术的大数据实现以及大数据挖掘应用范例等内容,既包罗万象,又深入浅出。俊林的这本心血之作,是大数据研发人员绝好的技术向导。
  陈运文
  盛大文学首席数据官
  大数据已成为上到国家领导人,下到媒体会议必谈话题,但大数据的应用时代才刚刚开始,各大互联网公司都奇缺熟悉hadoop、分布式系统开发和数据分析挖掘的人才,张俊林这本书全面展示了大数据相关的技术,理论算法和实践,有广度有深度,对于希望掌握大数据技术的开发者是必备利器。
  蒋涛
  csdn总裁、《程序员》杂志创始人

大数据日知录-架构与算法 作者简介

张俊林是技术书籍《这就是搜索引擎:核心技术详解》(该书荣获全国第十二届输出版优秀图书奖)的作者,目前担任畅捷通智能平台总监。在此之前,张俊林曾经在阿里巴巴搜索技术中心、百度商务搜索部凤巢广告平台以及新浪微博搜索部及数据系统部担任资深技术专家,新浪微博技术委员会成员,负责算法策略方向。他还曾是智能信息聚合网站“玩聚网”的联合创始人之一。他的研发兴趣集中在:搜索技术、推荐系统、社交挖掘、自然语言处理与大数据算法架构等方面,并在以上领域有多年工业界实践经验。   张俊林本科毕业于天津大学管理学院,1999年至2004年在中科院软件所直接攻读博士学位,研究方向是信息检索理论与自然语言处理,就学期间曾在ACL/COLING/IJCNLP等国际顶级会议发表多篇学术论文,另外,他在此期间领导设计的搜索系统曾在美国国防部DARPA主持的TREC第二届高精度检索系统评测中在17支国际高水平研究团队激烈竞争中胜出,并取得综合排名第一名的优异成绩。

商品评论(0条)
暂无评论……
书友推荐
编辑推荐
返回顶部
中图网
在线客服