web爬虫又称web数据采集,是指使用程序的方式去访问web。一般具体实现上会采用python作为编程语言,因为python有各种各样的关于爬虫的第三方库,足够满足大多数爬虫需求,而不必自己造轮子,节省了大量的成本。

爬虫技术的实现原理有两种,一是通过控制浏览器驱动的方式来向web服务器发送HTTP请求,进而获得需要的HTTP响应,二是通过模拟浏览器来向web服务器发送HTTP请求,进而获得需要的HTTP响应。

在python中,爬虫的这两种实现原理均有相当成熟的第三方库进行了实现,这些库都提供了简单易用的API,可以让爬虫工程师快速地获取到想要的数据。

具体地,通过控制浏览器驱动来实现爬虫需求的第三方库主要有:

而通过模拟浏览器来实现爬虫需求的第三方库主要有:

进一步,对于反爬手段非常复杂的网站,还有如JS逆向、代理IP、分布式爬虫等更高级的技术。