读书月福利
欢迎光临中图网 请 | 注册

大数据分析与计算

作者:汤羽
出版社:清华大学出版社出版时间:2018-03-01
开本: 16开 页数: 485
中 图 价:¥62.3(7.0折) 定价  ¥89.0 登录后可看到会员价
加入购物车 收藏
运费6元,满69元免运费
?快递不能达地区使用邮政小包,运费14元起
云南、广西、海南、新疆、青海、西藏六省,部分地区快递不可达
本类五星书更多>

大数据分析与计算 版权信息

大数据分析与计算 本书特色

大数据应用已成为行业热点和产业发展新增长点,数据科学与计算技术也是*的前沿领域,其中,大数据计算分析提供了核心的技术支撑。本书从大数据计算系统的三个层次对数据模型、处理算法、计算模型与架构、开发技术标准等内容进行了综合性的介绍,重点阐述了各类数据分析算法和MapReduce,图并行计算,交互式处理,流计算,内存计算等计算架构。本书适合作为数据科学与大数据计算技术、计算机科学与技术、互联网应用系统、物联网工程等专业相关课程的教材。

大数据分析与计算 内容简介

1)对大数据计算的标准、模型、计算架构、开发技术体系做了一个较完整的论述和总结,适宜于作为计算机和软件工程专业高年级课程或研究生课程的教材; 2)本书也对大数据计算架构和开发平台及技术进行了论述,给出了相关领域的工程案例,也可作为IT技术人士的专业参考书。

大数据分析与计算 目录

目录 第1章绪论 1.1数据与数据科学 1.2大数据概念 1.3大数据技术特征 参考文献 习题 第2章大数据计算体系 2.1大数据计算架构 2.2数据存储系统 2.2.1数据清洗与建模 2.2.2分布式文件系统 2.2.3NoSQL数据库 2.2.4统一数据访问接口 2.3数据处理平台 2.3.1数据分析算法 2.3.2计算处理模型 2.3.3计算平台与引擎 2.4数据应用系统 2.4.1大数据应用领域 2.4.2大数据解决方案 参考文献 习题 第3章大数据标准与模式 3.1大数据标准体系 3.2大数据计算模式 参考文献 习题 第4章数据采集方法 4.1系统日志采集 4.1.1日志采集的目的 4.1.2日志采集过程 4.2网络数据采集 4.2.1网络爬虫工作原理 4.2.2网页搜索策略 4.2.3网页分析算法 4.2.4网络爬虫框架 4.3数据采集接口 参考文献 习题 第5章数据清洗与规约方法 5.1数据预处理研究现状 5.1.1数据清洗的研究现状 5.1.2数据规约的研究现状 5.2数据质量问题分类 5.2.1单数据源的问题 5.2.2多数据源的问题 5.3数据清洗技术 5.3.1重复记录清洗 5.3.2消除噪声数据 5.3.3缺失值清洗 5.4数据归约 5.4.1维归约 5.4.2属性选择 5.4.3离散化方法 5.5数据清洗工具 参考文献 习题 第6章数据分析算法 6.1C4.5算法 6.1.1算法描述 6.1.2属性选择度量 6.1.3其他特征 6.2k均值算法 6.3支持向量机 6.4Apriori算法 6.5EM算法 6.5.1案例: 估计k个高斯分布的均值 6.5.2EM算法步骤 6.6PageRank算法 6.6.1PageRank的核心思想 6.6.2PageRank的计算过程 6.7AdaBoost算法 6.7.1Boosting算法的发展历史 6.7.2AdaBoost算法及其分析 6.8k邻近算法 6.9朴素贝叶斯 6.9.1朴素贝叶斯分类器 6.9.2贝叶斯网络 6.10分类回归树算法 6.10.1建立回归树 6.10.2剪枝过程 参考文献 习题 第7章文本读写技术 7.1读取文本文件 7.1.1读取txt文件 7.1.2读取csv文件 7.2写入文本文件 7.3处理二进制数据 7.4数据库的使用 7.4.1数据库的连接 7.4.2执行SQL语句 7.4.3选择和打印 7.4.4动态插入 7.4.5update操作 参考文献 习题 第8章数据处理技术 8.1合并数据集 8.1.1索引上的合并 8.1.2轴向连接 8.1.3合并重叠数据 8.2数据转换 8.2.1移除重复数据 8.2.2利用函数进行数据转换 8.2.3替换值 8.2.4重命名轴索引 8.2.5离散化数据 8.2.6检测异常值 8.2.7排列和随机采样 8.2.8哑变量 8.3字符串操作 8.3.1内置字符串方法 8.3.2正则表达式 8.3.3Pandas中矢量化的字符串函数 参考文献 习题 第9章数据分析技术 9.1NumPy工具包 9.1.1创建数组 9.1.2打印数组 9.1.3基本运算 9.1.4索引、切片和迭代 9.1.5形状操作 9.1.6复制和视图 9.1.7NumPy实用技巧 9.2Pandas工具包 9.2.1Series 9.2.2DataFrame 9.3ScikitLearn工具包 9.3.1逻辑回归 9.3.2朴素贝叶斯 9.3.3k*近邻 9.3.4决策树 9.3.5支持向量机 9.3.6优化算法参数 参考文献 习题 第10章数据可视化技术 10.1Matplotlib绘图 10.1.1Matplotlib API入门 10.1.2Figure和Subplot的画图方法 10.1.3调整Subplot周围的间距 10.1.4颜色、标记和线型的设置 10.1.5刻度、标签和图例 10.2Mayavi2绘图 10.2.1使用mlab快速绘图 10.2.2Mayavi嵌入到界面中 10.3其他图形化工具 参考文献 习题 第11章Hadoop生态系统 11.1Hadoop系统架构 11.2HDFS分布式文件系统 11.2.1HDFS体系结构 11.2.2HDFS存储结构 11.2.3数据容错与恢复 11.2.4Hadoop/HDFS安装 11.3分布式存储架构 11.3.1HBase系统架构 11.3.2数据模型与存储模式 11.3.3HBase数据读写 11.3.4数据仓库工具Hive 11.3.5HBase安装与配置 11.4HBase索引与检索 11.4.1二次索引表机制 11.4.2二次索引技术方案 11.5资源管理与作业调度 11.5.1分布式协同管理组件ZooKeeper 11.5.2作业调度与工作流引擎Oozie 11.5.3集群资源管理框架YARN 参考文献 习题 第12章MapReduce计算模型 12.1分布式并行计算系统 12.2MapReduce计算架构 12.3键值对与输入格式 12.4映射与化简 12.5应用编程接口 参考文献 习题 第13章图并行计算框架 13.1图基本概念 13.2BSP模型 13.3Pregel图计算引擎 13.4Hama开源框架 13.5应用编程接口 参考文献 习题 第14章交互式计算模式 14.1数据模型 14.2存储结构 14.3并行查询 14.4开源实现 参考文献 习题 第15章流计算系统 15.1流计算模型 15.2Storm计算架构 15.3工作机制实现 15.4Storm编程接口 参考文献 习题 第16章内存计算模式 16.1分布式缓存体系 16.2内存数据库 16.3内存云MemCloud 16.4Spark内存计算 参考文献 习题 第17章基于医疗数据的临床决策分析应用 17.1国内外研究现状及发展动态分析 17.2技术路线和方案 参考文献 习题 第18章基于医保数据的预测分析应用 18.1数据准备阶段 18.2模型变量选择和转换 18.2.1模型变量的选择 18.2.2模型变量的转换 18.2.3筛选模型变量 18.3建模过程 18.4模型效果 参考文献 习题 第19章互联网电商数据的分析应用 19.1电商流程管理分析 19.1.1行业背景与业务问题 19.1.2分析方法与过程 19.2用户消费行为分析 19.2.1业务问题 19.2.2分析方法与过程 19.3送货速度相关性分析 19.3.1业务问题 19.3.2分析方法与过程 19.4总结 参考文献 习题 第20章金融和经济数据的分析应用 20.1企业对创新经济活动推动的影响分析 20.1.1案例背景 20.1.2分析方法与过程 20.2信贷风险模型评估 20.3中小能源型企业的信用评价分析 20.3.1案例背景 20.3.2分析方法与过程 20.3.3分析结果 参考文献 习题
展开全部
商品评论(0条)
暂无评论……
书友推荐
编辑推荐
返回顶部
中图网
在线客服