接着我的上一篇文章《网页爬虫完全指南》,这篇文章将涵盖几乎所有的 Python 网页爬取工具。我们从最基本的开始讲起,逐步涉及到当前最前沿的技术,并且对它们的利弊进行分析。
当然,我们不能全面地介绍每个工具,但这篇文章应该足以让你很好地知道哪些工具做什么,以及何时使用每一种工具。
注意: 本文中所涉及到的 Python 均指 Python3。
本文要点:
- Web 基础
- 手动创建一个 socket 并且发送 HTTP 请求
- urllib3 & LXML
- requests & BeautifulSoup
- Scrapy(爬虫框架)
- Selenium(浏览器自动化测试框架) & Chrome——headless
- 总结
Web 基础
互联网其实是
非常复杂的
——我们通过浏览器浏览一个简单的网页时,其背后其实涉及到许多技术和概念。 我并不打算对其进行逐一讲解, 但我会告诉你如果想要从网络中爬取数据需要了解哪些最重要的知识。
HyperText Transfer Protocol(超文本传输协议,简称 HTTP)
HTTP 采用
C/S
版权声明:本文为pydby01原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。