python网络爬虫

First Post:

Last Update:

第1章 爬虫介绍

爬虫用途

image-20240716154602815

爬虫分类

按照使用场景:

通用爬虫

全网爬虫

从一些种子url扩展到整个WEB爬虫,是搜索引擎的重要组成部分

特点:
  • 爬取范围广
  • 对硬件要求高(CPU,存储空间)
  • 更新频率低

聚焦爬虫

主题爬虫

只爬取相关主题页面

特点:
  • 爬虫范围窄
  • 对硬件要求低
  • 更新频率快

按爬取方式:

累积式爬虫

从某个时间开始,遍历所有的能够爬取的URL,爬取相关数据,只要硬件和时间允许就可以累计大量数据

特点

  • 爬取页面比较多
  • 对硬件要求高
  • 数据更新慢

增量式爬虫

在有客观数据基础上,只能爬取没有的数据或者更新的数据,而对于没有变化的数据就不在爬取了

特点

  • 爬取页面比较少
  • 对硬件要求不高
  • 数据更新比较快

按爬取页面存在的方式:

表层网络爬虫

表层页面
  • 通过url就能直接获取的HTML页面
爬取表层页面的爬虫

深层网络爬虫

深层网页
  • 通过AJAX请求才能获取数据,动态生成的数据
  • 登录之后才能访问的数据
爬取深层网页的爬虫

第2章 爬虫的实现原理和技术

第3章 网页请求原理

第4章 抓取网页数据

第5章 数据解析

第6章 并发下载

第7章 抓取动态内容

第8章 图像识别与文字处理

第9章 存储爬虫数据

第10章 初识爬虫框架Scrapy

第11章 Scrapy终端与核心组件

第12章 自动抓取网页的爬虫CrawlSpider

第13章 Scrapy-Redis分布式爬虫