今天在我的知乎收藏中看到了收藏已久的一个表情包回答,当初应该是看到表情包很可爱,但苦于图片太多,当初没有一个个下,今天直接使用爬虫直接爬取该回答下的所有表情包。
首先导入所需要的库
import requests
from bs4 import BeautifulSoup
写入url和headers
url = 'https://www.zhihu.com/question/329525297/answer/1449023611'
headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
}
req = requests.get(url = url,headers = headers)
这是我们要爬取的图片
打开f12可以看到该图片所在标签为class=content_image lazy的img中
先找到所有class为content_image lazy的img标签
bs = BeautifulSoup(req.text)
imgbs = bs.find_all('img',class_='content_image lazy')
打印imgbs看看结果
这里可以看到,图片资源的存放出现了改变
f12中:
<img src="https://pic1.zhimg.com/80/v2-134a0a34144be001d4cf61cde2005ed5_720w.jpg?source=1940ef5c" data-caption="" data-size="normal" data-rawwidth="50" data-rawheight="50" class="content_image lazy" width="50" data-actualsrc="https://pic1.zhimg.com/50/v2-134a0a34144be001d4cf61cde2005ed5_hd.jpg?source=1940ef5c" data-lazy-status="ok">
爬取下来:
data-actualsrc="https://pic4.zhimg.com/50/v2-134a0a34144be001d4cf61cde2005ed5_hd.jpg?source=1940ef5c"
接下来获取图片:
通过for来遍历所有data-actualsrc
for item in imgbs:
print(item.attrs.get('data-actualsrc'))
再把获取到的写入到我们自己创建的文件夹即可
完整代码:
import requests
from bs4 import BeautifulSoup
url = 'https://www.zhihu.com/question/329525297/answer/1449023611'
headers = {
"User-Agent": "chome自己查看"
}
req = requests.get(url = url,headers = headers)
bs = BeautifulSoup(req.text)
imgbs = bs.find_all('img',class_='content_image lazy')
a = 0
for item in imgbs:
print(item.attrs.get('data-actualsrc'))
a += 1
fileurl = "E:/1/" + str(a) + ".jpg"
r = requests.get(item.attrs.get("data-actualsrc"))
with open(fileurl, 'wb') as f:
f.write(r.content)
爬取结果:
不到一分钟下好311张图片,还是可以的。
新手初学爬虫,如果那里写的有错误,还请各位大佬指正
。
版权声明:本文为july_29原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。