哈喽~大家好,我是恰恰。又到了有趣的Python学习时间,不知道有没有同学会需要一起下载很多图片呢?反正我之前是需要的,因为恰恰之前是做平面设计的,会需要收集很多素材,所以这个时候,如果有同学跟我一样,就会很需要Python爬虫了,有了它,从此告别手动下载图片!让我们快学起来吧!同学们点赞收藏加关注,码住再学哦!
关于python爬虫的优点——支持模块多、代码简洁、开发效率高 ,是我们进行网络爬虫可以选取的好工具。对于一个个的爬取下载,势必会消耗我们大量的时间,使用Python爬虫就可以解决这个问题,即可以实现自动下载。本文向大家介绍python爬虫的实战练习之进行自动下载图片的爬取过程。
一、自动下载图片流程
1、总结网址规律,以便根据网址访问网页;
2、根据网址规律,循环爬取并返回网页;
3、利用正则表达式提取并返回图片。
二、使用Python爬虫实现自动下载图片步骤
1、导入相关包
import requestsimport importlibimport urllibimport reimport osimport sysimportlib.reload(sys)
2、定义网页访问函数
cookie获得方式:正常访问此页面,鼠标右键检查或F12-在Network处查看自己的cookie,由于cookie很长且每个用户的cookie不同,故代码中将cookie省略了,读者可查看自己浏览器的cookie,将其加入代码中。
def askURL(url):head = {"Accept": "image/webp,image/apng,image/*,*/*;q=0.8","Accept-Language": "zh-CN,zh;q=0.9","Connection": "keep-alive","Cookie": " ","User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}s = quote(url, safe=string.printable) # 中文转utf8字符,否则会报ascii错print(s)request = urllib.request.Request(s, headers=head)html = ""try:response = urllib.request.urlopen(request)html = response.read().decode("utf-8")print(html)except urllib.error.URLError as e:if hasattr(e, "code"):print(e.code)if hasattr(e, "reason"):print(e.reason)return html
3、提取图片并返回
根据返回的html网页可以看到,网页中包含图片的url共有四种类型,分别是objURL、middleURL、hoverURL和thumbURL,故利用正则表达式返回四种类型的链接并合并。
i = 1def savePic(url):global i #html = askURL(url)pic_url = re.findall('"objURL":"(.*?)",', html, re.S) # re.S表示让换行符包含在字符中pic_url2 = re.findall('"middleURL":"(.*?)",', html, re.S)pic_url3 = re.findall('"hoverURL":"(.*?)",', html, re.S)pic_url4 = re.findall('"thumbURL":"(.*?)",', html, re.S)result = pic_url2 + pic_url + pic_url4 + pic_url3for item in result:print("已下载" + str(i) + "张图片")# 定义异常控制try:pic = requests.get(item, timeout=5)except Exception:print("当前图片无法下载")continue# 保存图片string = 'D:/MyData/Python爬虫/图片/'+word+"/"+str(i)+".jpg"fp = open(string, 'wb')fp.write(pic.content)fp.close()i += 1
4、定义主函数
if __name__ == '__main__': # 主程序word = input("请输入想要下载的图片:")# 根据搜索的关键字判断存放该类别的文件夹是否存在,不存在则创建road = "D:/MyData/Python爬虫/图片下载器/" + wordif not os.path.exists(road):os.mkdir(road)# 根据输入的内容构建url列表,此处只访问了四页验证效果urls = ['https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word='+ word '.format(str(i)) for i in range(0, 40, 10)]for url in urls:print(url)downloadPic(url)print("下载完成!")
以上就是使用Python爬虫实现自动下载图片的过程,为了解放我们的双手,大家赶快练习起来哦~学会以后还可以往更深层次学呢,爬虫可不止是只能自动下载图片哦!