爬取的中文编码格式不是UTF-8,无法正常显示,查看编码格式:
编码格式为ISO-8859-1(长见识啦~)
在使用urllib获取reqest的response的时候,还要进行解码。
解决方法:
txt.decode('utf8', 'ignore')
报错是没有了 但是抓取的汉字 还是乱码
解决办法来了:
#文字乱码 req.encoding = 'GB2312' # 需要添加这一行,告知html文件解码方式 多种解析方式UTF-8 GB2312 ISO-8859-1 req.raise_for_status() html = req.text bf = BeautifulSoup(html)
版权声明:本文为qq_36955294原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。