python网络爬虫

First Post:

2024-07-16

Last Update:

2024-07-16

第1章爬虫介绍

爬虫用途

爬虫分类

按照使用场景：

通用爬虫

全网爬虫

从一些种子url扩展到整个WEB爬虫，是搜索引擎的重要组成部分

特点：

爬取范围广
对硬件要求高（CPU,存储空间）
更新频率低

聚焦爬虫

主题爬虫

只爬取相关主题页面

特点：

爬虫范围窄
对硬件要求低
更新频率快

按爬取方式：

累积式爬虫

从某个时间开始，遍历所有的能够爬取的URL，爬取相关数据，只要硬件和时间允许就可以累计大量数据

特点

爬取页面比较多
对硬件要求高
数据更新慢

增量式爬虫

在有客观数据基础上，只能爬取没有的数据或者更新的数据，而对于没有变化的数据就不在爬取了

特点

爬取页面比较少
对硬件要求不高
数据更新比较快

按爬取页面存在的方式：

表层网络爬虫

表层页面

通过url就能直接获取的HTML页面

爬取表层页面的爬虫

深层网络爬虫

深层网页

通过AJAX请求才能获取数据，动态生成的数据
登录之后才能访问的数据

爬取深层网页的爬虫

第2章爬虫的实现原理和技术

第3章网页请求原理

第4章抓取网页数据

第5章数据解析

第6章并发下载

第7章抓取动态内容

第8章图像识别与文字处理

第9章存储爬虫数据

第10章初识爬虫框架Scrapy

第11章 Scrapy终端与核心组件

第12章自动抓取网页的爬虫CrawlSpider

第13章 Scrapy-Redis分布式爬虫