python爬虫爬取知乎回答中的表情包

Post author:xfxia
Post published:2023年7月22日
Post category:python

今天在我的知乎收藏中看到了收藏已久的一个表情包回答，当初应该是看到表情包很可爱，但苦于图片太多，当初没有一个个下，今天直接使用爬虫直接爬取该回答下的所有表情包。

首先导入所需要的库

import requests
from bs4 import BeautifulSoup

写入url和headers

url = 'https://www.zhihu.com/question/329525297/answer/1449023611'
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}
req = requests.get(url = url,headers = headers)

这是我们要爬取的图片

在这里插入图片描述

打开f12可以看到该图片所在标签为class=content_image lazy的img中

在这里插入图片描述

先找到所有class为content_image lazy的img标签

bs = BeautifulSoup(req.text)

imgbs = bs.find_all('img',class_='content_image lazy')

打印imgbs看看结果

在这里插入图片描述

这里可以看到，图片资源的存放出现了改变

f12中：

<img src="https://pic1.zhimg.com/80/v2-134a0a34144be001d4cf61cde2005ed5_720w.jpg?source=1940ef5c" data-caption="" data-size="normal" data-rawwidth="50" data-rawheight="50" class="content_image lazy" width="50" data-actualsrc="https://pic1.zhimg.com/50/v2-134a0a34144be001d4cf61cde2005ed5_hd.jpg?source=1940ef5c" data-lazy-status="ok">

爬取下来：

data-actualsrc="https://pic4.zhimg.com/50/v2-134a0a34144be001d4cf61cde2005ed5_hd.jpg?source=1940ef5c"

接下来获取图片：

通过for来遍历所有data-actualsrc

for item in imgbs:
    print(item.attrs.get('data-actualsrc'))

再把获取到的写入到我们自己创建的文件夹即可

完整代码：

import requests
from bs4 import BeautifulSoup

url = 'https://www.zhihu.com/question/329525297/answer/1449023611'
headers = {
    "User-Agent": "chome自己查看"
}

req = requests.get(url = url,headers = headers)

bs = BeautifulSoup(req.text)

imgbs = bs.find_all('img',class_='content_image lazy')

a = 0
for item in imgbs:
    print(item.attrs.get('data-actualsrc'))
    a += 1
    fileurl = "E:/1/" + str(a) + ".jpg"
    r = requests.get(item.attrs.get("data-actualsrc"))
    with open(fileurl, 'wb') as f:
        f.write(r.content)

爬取结果：

在这里插入图片描述

不到一分钟下好311张图片，还是可以的。

新手初学爬虫，如果那里写的有错误，还请各位大佬指正

。

原文链接：https://blog.csdn.net/july_29/article/details/115919627

你可能也喜欢