【爬虫实战】利用scrapy框架爬取豆瓣图书信息 – 小飞侠

【爬虫实战】利用scrapy框架爬取豆瓣图书信息

Post author:xfxia
Post published:2023年7月17日
Post category:其他

一、前言

scrapy是基于twisted的异步处理框架，与传统的requests爬虫程序执行流程不同，scrapy使用多线程，将发送请求，提取数据，保存数据等操作分别交给Scheduler（调度器），Downloader（下载器），Spider（爬虫），Pipeline（管道）等爬虫“组件”来完成。多线程的运行框架使得爬虫的效率大大提升，让爬虫程序变得更快，更强。基于以上特点，本文将以爬取豆瓣图书信息为例，简要阐述基于scrapy框架下的爬虫实现流程。

二、爬虫流程以及代码实现

（一）分析需要爬取的网页结构

在编写一个爬虫项目之前，我们需要对所需爬取的网页有一个清晰的认识。爬虫的本质是在响应中的字符串提取所需信息，即只有我们提取到的响应中存在我们所需要的数据时，我们才能进行爬虫。我们访问豆瓣读书，发现豆瓣图书标签中存在许多大分类（文学，文化…），大分类中存在许多小分类（小说，外国文学…）。点开每个小分类标签，会呈现出不同类型的书的列表清单，且不止一页。我们要做的就是提取豆瓣所有类型书籍下的所有书籍的简要信息，包括图书作者，书名，图书价格，豆瓣评分，书籍评论人数等。网页的页面如下图所示：

图1.豆瓣的图书标签页

版权声明：本文为dingyujiaoyu原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/dingyujiaoyu/article/details/118441513