中图网

>

计算机教材

数据采集与预处理

作者：周勇[等]编著

出版社：西安电子科技大学出版社出版时间：2022-02-01

开本： 26cm 页数： 288页

本类榜单：计算机/网络销量榜

预估到手价¥26.5(6.3折)?

预估到手价是按参与促销活动、以最优惠的购买方案计算出的价格（不含优惠券部分），仅供参考，未必等同于实际到手价。

中图价:¥29.4(7.0折)定价 ~~¥42.0~~ 登录后可看到会员价

促销活动:

年中庆第一波|全场百万图书折上9折

加入购物车收藏

运费6元，全场折上9折期间 满39元包邮

?快递不能达地区使用邮政小包，运费14元起

云南、广西、海南、新疆、青海、西藏六省，部分地区快递不可达

本类五星书更多>

>
全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用

全国计算机等级考试最新真考题库模拟考场及详解·二级MSOffice高级应用

¥11.3¥45
>
决战行测5000题(言语理解与表达)

决战行测5000题(言语理解与表达)

¥28.2¥88
>
软件性能测试.分析与调优实践之路

软件性能测试.分析与调优实践之路

¥55.2¥69
>
第一行代码Android

第一行代码Android

¥76.2¥99
>
C Primer Plus 第6版中文版

C Primer Plus 第6版中文版

¥75.6¥108
>
深度学习

深度学习

¥82.3¥168
>
MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码

MATLAB计算机视觉与深度学习实战-赠在线交流卡和本书源码

¥43.5¥79

商品详情
商品评论(0条)

中图价:¥29.4 加入购物车

版权信息
内容简介
目录

微信公众号

数据采集与预处理版权信息

ISBN：9787560663562
条形码：9787560663562 ; 978-7-5606-6356-2
装帧：平装-胶订
册数：暂无
重量：暂无
所属分类：
计算机/网络
>
计算机教材

数据采集与预处理内容简介

随着国家大数据相关政策、规划的密集出台，大数据、人工智能商业落地速度加快，其在各个领域的应用也越来越广泛，其中面向企业服务、金融、医疗健康、电子政务、电子商务等细分领域的大数据应用展现出巨大的潜力。大数据是需要新处理模式才能适应的海量、高增长率和多样化的信息资产，被誉为“未来的新石油”，以至于数据的获取、存储、搜索、共享、分析以及可视化呈现都成为当前重要的研究课题。本书重点讲述数据采集与预处理的相关内容，并以真实案例介绍不同数据源的采集方式及基本的数据预处理方法。全书共10章。其中，第1章为概述，第2～5章介绍静态网页数据爬取，第6章介绍动态网页数据爬取，第7、8章介绍爬虫(Scrapy)框架应用，第9章介绍数据预处理，第10章给出了一个综合项目实训。本书可作为高校数据科学与大数据技术专业相关课程的教材或教学参考书，也可作为人工智能、大数据领域从业者的自学参考书。

数据采集与预处理目录

第1章概述 1 1.1 大数据采集 2 1.1.1 大数据来源 2 1.1.2 大数据采集方式 5 1.1.3 数据预处理 8 1.2 网络爬虫原理和分类 10 1.2.1 爬虫原理 11 1.2.2 爬虫分类 11 1.2.3 常用爬虫工具 12 1.3 网络爬虫法律规范 14 1.3.1 数据隐私保护 14 1.3.2 Robots协议 15 1.3.3 法律法规 16 本章小结 17 本章习题 17 第2章 Python基础 18 2.1 Python环境搭建 18 2.1.1 Python解释器 18 2.1.2 PyCharm的安装 21 2.2 Python基础 22 2.2.1 Python语法基础 22 2.2.2 数据类型 27 2.2.3 程序结构 33 2.2.4 函数 35 2.2.5 面向对象 37 本章小结 41 本章习题 41 第3章静态网页爬取 42 3.1 HTTP协议概述 42 3.1.1 请求响应模型 43 3.1.2 请求报文 43 3.1.3 响应报文 45 3.2 使用Requests库提取网页数据 46 3.2.1 Requests库的安装 46 3.2.2 Requests库的请求方法 48 3.2.3 使用Requests库发送 GET请求 49 3.2.4 使用Requests库发送 POST请求 51 3.2.5 Requests库的响应对象 51 3.2.6 HTTP状态码 53 3.2.7 定制请求头 53 3.2.8 Requests库发送GET请求的通用代码 54 3.3 使用urllib库提取网页数据 55 3.3.1 使用urllib库发送GET请求 55 3.3.2 使用urllib库发送POST请求 56 3.3.3 urllib库的用户代理 56 3.4 案例1 QQ表情包图片爬取 57 3.4.1 任务描述 57 3.4.2 任务分析 58 3.4.3 任务实现 58 3.5 案例2 手机号码归属地查询 60 3.5.1 任务描述 60 3.5.2 任务分析 61 3.5.3 任务实现 61 本章小结 62 本章习题 63 第4章网页解析 64 4.1 使用BeautifulSoup解析网页 64 4.1.1 BeautifulSoup库的安装 65 4.1.2 BeautifulSoup解析器 66 4.1.3 BeautifulSoup快速入门 66 4.1.4 使用BeautifulSoup定位提取数据 67 4.2 案例1 中国大学排名爬取 73 4.2.1 任务描述 73 4.2.2 任务分析 73 4.2.3 任务实现 74 4.3 案例2 百度新闻爬取 77 4.3.1 任务描述 77 4.3.2 任务分析 77 4.3.3 任务实现 79 4.4 使用lxml解析网页 80 4.4.1 XPath选择器 80 4.4.2 使用标签定位 81 4.4.3 使用属性定位 83 4.5 案例3 酷狗音乐华语新歌榜爬取 83 4.5.1 任务描述 83 4.5.2 任务分析 84 4.5.3 任务实现 85 4.6 案例4 起点中文网原创风云榜爬取 86 4.6.1 任务描述 86 4.6.2 任务分析 87 4.6.3 任务实现 88 本章小结 90 本章习题 90 第5章数据存储 91 5.1 文本文件存储 91 5.1.1 将数据存储为TXT文件 92 5.1.2 将数据存储为CSV文件 93 5.1.3 将数据存储为EXCEL文件 94 5.2 数据存储至MySQL 94 5.2.1 MySQL的安装 95 5.2.2 MySQL基本操作 100 5.2.3 PyMySQL的安装 102 5.2.4 PyMySQL使用方法 103 5.2.5 MySQL通用函数封装 105 5.3 案例1 豆瓣图书爬取 106 5.3.1 任务描述 106 5.3.2 任务分析 107 5.3.3 任务实现 108 5.4 案例2 安居客二手房信息爬取 113 5.4.1 任务描述 113 5.4.2 任务分析 113 5.4.3 任务实现 115 本章小结 123 本章习题 123 第6章动态网页爬取 125 6.1 动态网页概述 125 6.1.1 动态网页的概念 126 6.1.2 动态网页的常用技术 126 6.1.3 动态网页的判定方法 127 6.1.4 动态网页的爬取方法 128 6.2 案例1 新浪博客爬取 130 6.2.1 任务描述 130 6.2.2 任务分析 130 6.2.3 任务实现 133 6.3 案例2 重庆名医榜爬取 136 6.3.1 任务描述 136 6.3.2 任务分析 137 6.3.3 任务实现 137 6.4 使用Selenium爬取动态网页 142 6.4.1 Selenium的安装 142 6.4.2 Selenium的基本使用方法 144 6.4.3 元素选择器 144 6.4.4 操纵元素的方法 146 6.4.5 frame切换/窗口切换 147 6.4.6 等待 149 6.4.7 无界面浏览器模式 150 6.5 案例3 百度首页模拟登录 151 6.5.1 任务描述 151 6.5.2 任务分析 151 6.5.3 任务实现 151 6.6 案例4 QQ邮箱爬取 153 6.6.1 任务描述 153 6.6.2 任务分析 153 6.6.3 任务实现 154 本章小结 159 本章习题 160 第7章 Scrapy框架初探 161 7.1 Scrapy快速入门 161 7.1.1 Scrapy的安装 162 7.1.2 **个Scrapy项目 164 7.1.3 Scrapy目录结构简介 167 7.1.4 Scrapy常用命令行工具 168 7.2 Scrapy架构原理 171 7.3 Scrapy请求发送 172 7.3.1 Scrapy请求发送原理 172 7.3.2 GET请求 174 7.3.3 POST请求 176 7.4 案例1 贝壳网房源信息爬取 178 7.4.1 任务描述 178 7.4.2 任务分析 179 7.4.3 任务实现 179 7.5 案例2 古诗文网唐诗三百首爬取 184 7.5.1 任务描述 184 7.5.2 任务分析 184 7.5.3 任务实现 185 本章小结 189 本章习题 189 第8章 Scrpay框架深入 190 8.1 通用网络爬虫 190 8.1.1 CrawlSpider模板 191 8.1.2 链接提取器和提取规则 191 8.1.3 CrawlSpider工作原理 194 8.2 数据存储 195 8.2.1 存储至MySQL 195 8.2.2 输出为文本 197 8.3 突破反爬虫限制 198 8.3.1 常用的突破反爬虫设置 198 8.3.2 下载器中间件 200 8.3.3 随机用户代理 200 8.3.4 随机IP代理 202 8.3.5 使用Redis实现IP代理 204 8.4 Scrapy动态网页爬取 207 8.4.1 逆向分析法 207 8.4.2 模拟法 208 8.5 案例1 古诗文网全站爬取 211 8.5.1 任务描述 211 8.5.2 任务分析 211 8.5.3 任务实现 213 8.6 案例2 豆瓣网电影排行榜爬取 216 8.6.1 任务描述 216 8.6.2 任务分析 217 8.6.3 任务实现 219 本章小结 223 本章习题 224 第9章数据预处理 225 9.1 Pandas库与基本数据处理 226 9.1.1 Pandas库的安装 226 9.1.2 Pandas库基本数据结构的使用 227 9.1.3 数据文件的读取与写入 230 9.1.4 数据的拆分与拼接 233 9.2 数据清洗与整理 237 9.2.1 统一数据格式 237 9.2.2 缺失值处理 240 9.2.3 异常值处理 244 9.2.4 数据的合并与去重 245 9.3 案例房价数据预处理 250 9.3.1 任务描述 250 9.3.2 任务分析 250 9.3.3 任务实现 252 本章小结 262 本章习题 262 第10章招聘网站数据分析 263 10.1 需求分析 263 10.2 爬虫设计与实现 265 10.2.1 数据存储设计 265 10.2.2 前程无忧招聘网爬虫 268 10.2.3 猎聘网爬虫 273 10.3 数据清洗与可视化 279 10.3.1 招聘热门城市排行 279 10.3.2 招聘岗位占比分布 281 10.3.3 职位薪资分布 282 10.3.4 工作经验与薪资分布 284 10.3.5 大数据开发岗位技能词云 285 本章小结 287 本章习题 287 参考文献 288

展开全部

商品评论(0条)

写书评赚书币

暂无评论……

书友推荐