web爬虫概览

web爬虫又称web数据采集，是指使用程序的方式去访问web。一般具体实现上会采用python作为编程语言，因为python有各种各样的关于爬虫的第三方库，足够满足大多数爬虫需求，而不必自己造轮子，节省了大量的成本。

爬虫技术的实现原理有两种，一是通过控制浏览器驱动的方式来向web服务器发送HTTP请求，进而获得需要的HTTP响应，二是通过模拟浏览器来向web服务器发送HTTP请求，进而获得需要的HTTP响应。

在python中，爬虫的这两种实现原理均有相当成熟的第三方库进行了实现，这些库都提供了简单易用的API，可以让爬虫工程师快速地获取到想要的数据。

具体地，通过控制浏览器驱动来实现爬虫需求的第三方库主要有：

而通过模拟浏览器来实现爬虫需求的第三方库主要有：

进一步，对于反爬手段非常复杂的网站，还有如JS逆向、代理IP、分布式爬虫等更高级的技术。

🌱 知识地图