python爬虫爬取知乎回答中的表情包

  • Post author:
  • Post category:python


今天在我的知乎收藏中看到了收藏已久的一个表情包回答,当初应该是看到表情包很可爱,但苦于图片太多,当初没有一个个下,今天直接使用爬虫直接爬取该回答下的所有表情包。

首先导入所需要的库

import requests
from bs4 import BeautifulSoup

写入url和headers

url = 'https://www.zhihu.com/question/329525297/answer/1449023611'
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}
req = requests.get(url = url,headers = headers)

这是我们要爬取的图片

在这里插入图片描述

打开f12可以看到该图片所在标签为class=content_image lazy的img中

在这里插入图片描述

先找到所有class为content_image lazy的img标签

bs = BeautifulSoup(req.text)

imgbs = bs.find_all('img',class_='content_image lazy')

打印imgbs看看结果

在这里插入图片描述

这里可以看到,图片资源的存放出现了改变

f12中:

<img src="https://pic1.zhimg.com/80/v2-134a0a34144be001d4cf61cde2005ed5_720w.jpg?source=1940ef5c" data-caption="" data-size="normal" data-rawwidth="50" data-rawheight="50" class="content_image lazy" width="50" data-actualsrc="https://pic1.zhimg.com/50/v2-134a0a34144be001d4cf61cde2005ed5_hd.jpg?source=1940ef5c" data-lazy-status="ok">

爬取下来:

data-actualsrc="https://pic4.zhimg.com/50/v2-134a0a34144be001d4cf61cde2005ed5_hd.jpg?source=1940ef5c"

接下来获取图片:

通过for来遍历所有data-actualsrc

for item in imgbs:
    print(item.attrs.get('data-actualsrc'))

再把获取到的写入到我们自己创建的文件夹即可

完整代码:

import requests
from bs4 import BeautifulSoup

url = 'https://www.zhihu.com/question/329525297/answer/1449023611'
headers = {
    "User-Agent": "chome自己查看"
}

req = requests.get(url = url,headers = headers)

bs = BeautifulSoup(req.text)

imgbs = bs.find_all('img',class_='content_image lazy')

a = 0
for item in imgbs:
    print(item.attrs.get('data-actualsrc'))
    a += 1
    fileurl = "E:/1/" + str(a) + ".jpg"
    r = requests.get(item.attrs.get("data-actualsrc"))
    with open(fileurl, 'wb') as f:
        f.write(r.content)

爬取结果:

在这里插入图片描述

不到一分钟下好311张图片,还是可以的。


新手初学爬虫,如果那里写的有错误,还请各位大佬指正



版权声明:本文为july_29原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。