4.23文创礼盒,买2个减5元
欢迎光临中图网 请 | 注册
> >>
网络爬虫项目实践

网络爬虫项目实践

作者:李程文
出版社:西安电子科技大学出版社出版时间:2023-05-01
开本: 其他 页数: 192
本类榜单:教材销量榜
中 图 价:¥21.6(7.2折) 定价  ¥30.0 登录后可看到会员价
加入购物车 收藏
运费6元,满69元免运费
?快递不能达地区使用邮政小包,运费14元起
云南、广西、海南、新疆、青海、西藏六省,部分地区快递不可达
本类五星书更多>

网络爬虫项目实践 版权信息

网络爬虫项目实践 本书特色

本书特点如下: (1) 由浅入深,循序渐进。本书以初中级程序员为对象,采用图文结合、循序渐进的编排方式,介绍了从网络爬虫开发环境的搭建到网络爬虫核心技术的应用等内容,后通过一个完整的实际项目对网络爬虫的开发进行了详细的讲解,帮助读者快速掌握网络爬虫开发技术,全面提升开发经验。 (2) 实例典型,轻松易学。通过案例学习是好的学习方式,本书通过“一个知识点、一个例子、一个结果、一段评析”的模式,透彻详尽地讲述了实际开发网络爬虫所需的各类知识。另外,为了便于读者阅读程序代码,快速学习编程技能,书中几乎每行代码都提供了注释。 (3) 项目实战,经验累积。本书通过一个完整的电商数据爬取项目,讲解该爬虫项目的完整开发过程,带领读者亲身体验开发项目的全过程,积累开发项目的经验。 (4) 精彩内容,贴心提醒。本书根据需要在各章内容中使用了很多“注意”“说明”等提示词,可让读者在学习过程中更轻松地理解相关知识点及概念,并掌握个别技术的应用技巧。

网络爬虫项目实践 内容简介

本书基于实际工作过程,采用任务驱动的方式编写。全书共四个项目,每个项目包含三个任务。教学内容由浅入深,所有的理论知识都通过项目得以贯通。任务从“任务目标—任务描述—任务实施—实践训练”四个环节入手,环环相扣,层层递进,集“教—学—做”于一体,适合教师循序渐进的教学方式和学生的自主学习方式。每个任务的选择都是从实际工作过程出发,通过实际操作指导学生解决问题,调动学生学习的积极性,使学生能较全面掌握不同场景下Python爬取网络数据的方法和技能。除此之外,本书还配有相应的任务素材、源程序和教案、课件、教学大纲、期末试卷及答案等教学资源,读者可通过西安电子科技大学出版社官方网站(http://www.xduph.com)下载。 本书读者对象为初学编程的自学者、大中专院校的老师和学生、相关培训机构的老师和学员、初中级程序开发人员和程序测试及维护人员。

网络爬虫项目实践 目录

项目一 网页数据获取 1 任务1.1 读书网信息爬取 2 1.1.1 网页结构分析 2 1.1.2 第三方库安装 3 1.1.3 解决爬虫中文乱码的问题 6 1.1.4 网页数据爬取 7 任务1.2 今日头条数据爬取 11 1.2.1 网页数据爬取 12 1.2.2 获取搜索结果详情 16 1.2.3 解析详情页数据 18 1.2.4 保存数据 23 任务1.3 京东动态渲染页面的信息爬取 25 1.3.1 网页结构分析 26 1.3.2 第三方库安装 27 1.3.3 搜索关键字 30 1.3.4 分析页面并翻页 34 1.3.5 分析提取商品内容 38 1.3.6 保存信息至MongoDB 40 项目二 特殊网页数据获取 45 任务2.1 数睿思网模拟登录 45 2.1.1 查找提交入口 46 2.1.2 查找并获取需要提交的 表单数据 47 2.1.3 使用post请求方法登录 49 任务2.2 古诗词网数据爬取 51 2.2.1 Tesseract引擎的下载和安装 52 2.2.2 第三方库安装 53 2.2.3 验证码识别 54 2.2.4 完成登录 58 任务2.3 微信网页代理爬虫文章信息 62 2.3.1 网页结构分析 63 2.3.2 使用Flask?+?Redis维护代理池 66 2.3.3 爬取索引页内容 72 2.3.4 设置代理 74 2.3.5 分析详情页内容 76 2.3.6 保存数据信息至MongoDB 80 项目三 Scrapy框架爬虫 85 任务3.1 当当网商品爬取 86 3.1.1 创建Scrapy项目 87 3.1.2 商品数据爬取 88 3.1.3 商品数据处理 92 任务3.2 登录赶集网 95 3.2.1 创建爬虫项目 95 3.2.2 获取表单HashCode 97 3.2.3 获取验证码 98 3.2.4 编写代码 99 任务3.3 失信人信息爬取 102 3.3.1 创建爬虫项目 103 3.3.2 定义数据模型 104 3.3.3 爬取失信人名单 104 3.3.4 保存失信人名单信息 109 3.3.5 下载器中间件 112 项目四 分布式爬虫 117 任务4.1 环境搭建 118 4.1.1 安装VMware虚拟机 119 4.1.2 安装Linux 124 4.1.3 虚拟机网络设置 145 4.1.4 安装Python 148 4.1.5 安装分布式框架 151 4.1.6 克隆虚拟机 151 4.1.7 安装Redis数据库 155 任务4.2 某事百科段子爬取 162 4.2.1 创建Scrapy项目 162 4.2.2 爬取网页数据 164 4.2.3 分布式爬取 166 任务4.3 链家网内容爬取 169 4.3.1 创建Scrapy项目 170 4.3.2 爬取网页数据 171 4.3.3 数据存储 175 4.3.4 分布式爬取 177 参考文献 182
展开全部
商品评论(0条)
暂无评论……
书友推荐
编辑推荐
返回顶部
中图网
在线客服