提要文摘: | 本书指出Python网络爬虫开发从业者的提升方向。在分布式爬虫方面, 通过对Scrapy框架源码进行剖析, 全面掌握Scrapy的设计理念 ; 在异步编程方面, 从异步编程原理到异步请求再到数据库、文件读写的异步操作, 对全体系做了全面介绍 ; 在异步编程的思想上, 再详细介绍异步的自动化浏览器库pyppeteer ; 在反爬虫方面, 对指纹技术、滑动验证、字体和CSS样式反爬虫技术、动态渲染、图片验证码处理等方面对其原理进行剖析, 对处理方案做深入介绍, 图片验证码处理还涉及机器学习的内容 ; 在分布式爬虫的设计上, 通过不同的消息中间件设计满足具体业务场景的分布式框架, 如基于RabbitMQ的分布式设计、基于Kafka的分布式设计和基于Celery的分布式设计 ; 在编码和加密方面, 讲解了编码原理和常用的集中加密算法, 如DES、AES、MD5和SHA ; 在JavaScript安全分析方面, 对目前前端常用的反爬虫措施进行深入分析, 同时对目前流程的混淆与还原进行全面的介绍 ; 在搜索引擎技术方面, 对搜索引擎原理、搜索引擎的实现过程做介绍, 并通过Elasticsearch实现一个垂直领域的搜索服务。 |