Python 3反爬虫原理与绕过实战
上QQ阅读APP看书,第一时间看更新

我们正处于信息爆炸的大数据时代,数据在互联网上的传播和呈现方式多种多样,如何获取这些杂乱的数据呢?爬虫就是其中的一种方式。与此同时,在这茫茫的数据大海中,高质量的、整洁的数据变得越来越重要,这些数据甚至就是一个公司生存的支柱。要保护这些数据,不让它们被轻易爬走,反爬虫技术应运而生。

近几年,爬虫技术和反爬虫技术在不断斗争的过程中变得越来越高深和复杂。从简单的User-Agent识别到混淆验证码加密,“花样”越来越多,破解难度也越来越大,爬虫工程师和反爬虫工程师每天斗智斗勇,殚精竭虑。

知己知彼方能百战不殆。不论是爬虫工程师还是反爬虫工程师,如果想要把自己的方向做好,就需要对这两个方向的技术都有一定程度的研究。譬如拿爬虫工程师来说,如果对反爬虫的知识知其然而不知其所以然,势必会对反爬虫的绕过力有不逮。所以,双方都需要对爬虫和反爬虫技术有一定程度的了解。然而从目前来看,市面上还没有一本系统讲解爬虫和反爬虫技术的书。

我的好友韦世东是一名高级爬虫工程师,对各种爬虫和反爬虫的技巧进行过深入的研究。书中首先对各类反爬虫技术进行了合理的归类,然后通过剖析多个案例帮助大家理解各类反爬虫技术的原理。内容包括但不限于Cookie反爬虫、WebSocket反爬虫、字体反爬虫、WebDriver反爬虫、App反爬虫、验证码反爬虫,几乎涵盖了市面上所有的反爬虫技术类型,内容十分详尽,另外他还针对各类反爬虫给出了对应的绕过和破解方案。通过本书,大家可以全面了解到爬虫和反爬虫的各类技术。本书干货满满,强烈推荐给大家。

崔庆才

微软小冰工程师

《Python 3网络爬虫开发实战》作者