4.23文创礼盒,买2个减5元
欢迎光临中图网 请 | 注册

数据质量导论

作者:曹建军
出版社:国防工业出版社出版时间:2017-10-01
开本: 32开 页数: 301
本类榜单:工业技术销量榜
中 图 价:¥56.9(7.2折) 定价  ¥79.0 登录后可看到会员价
加入购物车 收藏
运费6元,满69元免运费
?快递不能达地区使用邮政小包,运费14元起
云南、广西、海南、新疆、青海、西藏六省,部分地区快递不可达
本类五星书更多>

数据质量导论 版权信息

数据质量导论 本书特色

本书结合国内信息环境特点,系统分析了数据质量以及数据全生命周期质量 管理的内涵,构建了数据质量研究和数据清洗系统框架,并引入了数据质量管理的 并行发展模式;深入研究了实体分辨、不完整数据、不一致数据三类实例层数据质 量问题的数据清洗技术,提出了若干数据清洗技术方法;归纳了数据质量工具的发 展概况,提出了两种数据质量工具设计方法;总结提出了大数据质量面临的十大挑 战,构建了适用于国内信息环境特点的数据治理系统框架。 本书内容由浅入深,系统性强,易读性和可操作性强,既可作为数据质量领域 的入门和进阶用书,又可作为数据资源建设与利用、信息技术等相关学科的教学参 考用书。

数据质量导论 内容简介

《数据质量导论》结合国内信息环境特点,系统分析了数据质量以及数据全生命周期质量管理的内涵,构建了数据质量研究和数据清洗系统框架,并引入了数据质量管理的并行发展模式;深入研究了实体分辨、不完整数据、不一致数据三类实例层数据质量问题的数据清洗技术,提出了若干数据清洗技术方法;归纳了数据质量工具的发展概况,提出了两种数据质量工具设计方法;总结提出了大数据质量面临的十大挑战,构建了适用于国内信息环境特点的数据治理系统框架。 《数据质量导论》内容由浅入深,系统性强,易读性和可操作性强,既可作为数据质量领域的入门和进阶用书,又可作为数据资源建设与利用、信息技术等相关学科的教学参考用书。

数据质量导论 目录

第1章 绪论 1.1 引言 1.2 数据工程建设概述 1.2.1 数据处理与应用的发展简况 1.2.2 信息系统建设中的数据工程 1.2.3 我国数据工程建设面临的问题 1.3 数据质量概述 1.3.1 数据质量的含义 1.3.2 数据全生命周期质量管理 1.3.3 数据质量问题的来源 1.3.4 数据质量研究发展简况 1.4 本书内容结构安排 参考文献 第2章 数据质量研究和数据清洗系统框架 2.1 引言 2.2 数据质量研究框架 2.2.1 典型的数据质量框架 2.2.2 数据质量的研究主题 2.2.3 数据质量的研究方法 2.3 对数据质量管理的思考 2.3.1 数据质量管理的发展模式 2.3.2 数据质量管理问题剖析 2.4 典型数据质量控制的框架 2.4.1 层次结构数据质量控制框架 2.4.2 层次结构数据质量控制所涉及的关键问题 2.4.3 数据清洗技术简介 2.4.4 数据清洗的概念辨析. 2.4.5 数据清洗的一般性系统框架 2.5 本章小结 参考文献 第3章 典型数据清洗技术的发展动态 3.1 引言 3.2 实体分辨技术的发展动态 3.2.1 数据分块算法 3.2.2 记录比较算法 3.2.3 匹配决策模型 3.2.4 基于关系的实体分辨 3.2.5 实体分辨中的训练和测试数据集 3.2.6 实体分辨面临的挑战 3.3 不完整数据清洗技术的发展动态 3.3.1 数据完整性及其评价方法 3.3.2 不完整数据的分类 3.3.3 不完整数据清洗技术 3.4 一致数据清洗技术的发展动态 3.4.1 针对一致性的数据依赖理论 3.4.2 典型数据依赖(规则)挖掘方法 3.4.3 基于数据依赖的数据一致性保证 3.5 本章小结 参考文献 第4章 实体分辨中的数据分块方法 4.1 引言 4.2 基于冗余的数据分块 4.3 基于倒排索引消除冗余记录对 4.3.1 数据块排序索引 4.3.2 记录倒排索引 4.3.3 冗余记录对识别 4.3.4 实验分析 4.4 基于空间映射的数据块约减 4.4.1 数据块映射 4.4.2 数据块约减 4.4.3 实验分析 4.5 基于Canopy聚类的数据分块 4.5.1 整体流程 4.5.2 ID指定 4.5.3 BK生成 4.5.4 Canopy聚类 4.5.5 候选对象获取 4.5.6 复杂性分析 4.5.7 实验分析 4.6 本章小结 参考文献 第5章 实体分辨中的相似度计算方法 5.1 引言 5.2 基于多编辑距离融合的相似度计算 5.2.1 相似特征定义及其标准化 5.2.2 编辑距离 5.2.3 中西文混合字符串的编辑距离 5.2.4 多编辑距离字符串相似度融合 5.2.5 实验分析 5.3 属性相似度与函数依赖的关系 5.4 基于函数依赖的属性相似度调整 5.4.1 属性相似度划分 5.4.2 属性相似度调整 5.4.3 算法描述 5.4.4 实验分析 5.5 本章小结 参考文献 第6章 基于关系的实体分辨 6.1 引言 6.2 基于云模型的实体分辨记录对划分 6.2.1 云模型简介 6.2.2 记录相似度的分布 6.2.3 记录相似度的云模型表示 6.2.4 划分方法 6.2.5 结果分析 6.3 基于邻域粗糙集的实体分辨记录对划分 6.3.1 邻域粗糙集 6.3.2 基于邻域粗糙集的记录对划分 6.3.3 实验分析 6.4 基于关系类型的自适应实体分辨 6.4.1 路径权重 6.4.2 路径概率 6.4.3 连接强度 6.4.4 自适应关系类型权重学习 6.4.5 实验分析 6.5 本章小结 参考文献 第7章 不完整数据的分类与检测 7.1 引言 7.2 基于位运算的不完整数据分类与检测 7.2.1 不完整数据及其分类 7.2.2 记录的二进制表示 7.2.3 不完整记录的位运算分类检测方法 7.2.4 应用实例 7.3 基于统计关系的不完整数据分类 7.3.1 数据缺失模式分类 7.3.2 数据缺失机制分类 7.4 本章小结 参考文献 第8章 不完整数据的估计与填充 8.1 引言 8.2 基于统计关系学习的缺失数据估计与填充 8.2.1 统计关系学习概述 8.2.2 基于马尔可夫模型的缺失值估计方法 8.2.3 基于关系马尔可夫模型的缺失值估计 8.3 基于机器学习的缺失数据估计与填充 8.3.1 基于后一近邻的填补算法 8.3.2 局部敏感哈希技术 8.3.3 LSH-KNN数据填补算法 8.3.4 实验验证 8.4 函数依赖一致性数据生成 8.4.1 函数依赖一致性 8.4.2 单函数依赖一致性数据生成算法 8.4.3 基于有向无环图的多函数依赖一致性数据生成 8.4.4 属性集划分和数据生成流水线 8.5 本章小结 参考文献 第9章 条件函数依赖挖掘及其优化方法 9.1 引言 9.2 条件函数依赖挖掘及其常用算法 9.2.1 条件函数依赖及其挖掘问题 9.2.2 函数依赖挖掘 9.2.3 CTANE算法 9.2.4 CFDMiner算法 9.3 基于开项集剪枝的常量条件函数依赖挖掘算法 9.3.1 剪枝与优化策略 9.3.2 优化前后复杂度对比 9.3.3 实验验证与结果分析 9.4 本章小结 参考文献 第10章 基于规则的不一致数据检测与修复方法 10.1 引言 10.2 基于Fellegi一Holt方法的不一致数据检测 10.2.1 Fellegi-Holt方法 10.2.2 检测流程及策略 10.2.3 实验及分析 10.3 基于:Evidence-Rules模型的不一致数据修复 10.3.1 确定问题记录中待修改属性集 10.3.2 基于函数依赖规则的属性值修复 10.3.3 Evidence-Rules模型与问题数据修复 10.3.4 实验及分析 10.4 本章小结 参考文献 第11章 数据质量工具 11.1 引言 11.2 数据质量工具发展概况 11.2.1 Gartner分析报告 11.2.2 数据质量管理工具分析 11.3 基于表达式树的数据质量工具设计 11.3.1 数据质量规则的分类与表达 11.3.2 数据质量规则的存储与识别 11.4 基于流程的数据质量工具设计 11.4.1 数据模型 11.4.2 作业模型 11.4.3 执行方案模型 11.5 本章小结 参考文献 第12章 大数据与大数据质量问题 12.1 引言 12.2 大数据时代的特征 12.2.1 大数据的含义 12.2.2 大数据的特征 12.2.3 进入大数据时代的必要条件 12.2.4 大数据时代的革命性转变 12.2.5 大数据时代的核心任务 12.3 大数据质量面临的挑战 12.3.1 数据安全问题 12.3.2 大数据的偏见和盲区 12.3.3 非结构化数据的质量控制 12.3.4 结构化数据内缺少结构性 12.3.5 分布式数据清洗 12.3.6 数据化程度不够 12.3.7 数据稀缺 12.3.8 数据冗余 12.3.9 数据对实际需求的适用性 12.3.1 0人为选择导致的信息失真. 12.4 数据治理 12.4.1 数据治理的出发点 12.4.2 数据治理的一般流程 12.4.3 数据治理的系统框架 12.5 本章小结 参考文献 基金资助目录
展开全部

数据质量导论 作者简介

曹建军,副研究员,硕士生导师,全国优秀博士学位论文提名奖、中国博士后科学基金特别资助获得者,主要从事数据质量控制与数据治理等方面的研究工作。2008年组建信息质量研究组(Information Quality Research Group.IORG),结合国内信息环境特点系统开展相关研究与实践。先后主持省部级重点项目7项,获省部级奖励4项,授权发明专利4项,注册软件著作权2项,出版专译著4部,发表学术论文80余篇。 刁兴春,研究员,博士生导师,享受国务院特殊津贴专家,长期从事数据资源管理与分析等方面的研究工作。信息质量研究组的共同发起人。先后主持多项重大科研项目,获省部级科技进步奖10余项和发明专利6项,出版数据质量方面译著3部,在国内外重要会议和期刊上发表学术论文90余篇。

商品评论(0条)
暂无评论……
书友推荐
本类畅销
编辑推荐
返回顶部
中图网
在线客服