前几天刚刚接触爬虫,简单爬取百度百科首页的a标签和span标签中的内容
适合初学者阅读,大神就不要浪费宝贵的时间了
# python3中用urllib.request表示python2中的urllib2
import urllib.request as urllib2
# 使用第三方模块,使用BeautifulSoup
from bs4 import BeautifulSoup as bs
# 网页出现错误的模块
from urllib.error import URLError,HTTPError,ContentTooShortError
# 存储爬取的数据
# 静态网页a标签数据
a=[]
# 静态网页span标签数据
span=[]
# 下载url
def download(url):
print("download..."+url)
# 对url错误作异常处理
try:
html= urllib2.urlopen(url)
except(URLError,HTTPError,ContentTooShortError) as e:
print("download error:"+e.reason)
html=None
return html
# 解析拿到的url
def parser_html(response):
soup = bs(response, 'html.parser')
return soup
# 打印出信息
def out_information(soup):
# 记录爬取了多少数据
indexA= 1
indexSpan=1
# 打印出title标签的内容
print(soup.title.string)
# 将span标签的信息存储在span列表里
for link in soup.find_all('span'):
span.append(str(indexA) + link.text)
indexA += 1
# 将a标签的信息存储在a列表里
for link in soup.find_all('a'):
a.append(str(indexSpan) + link.text)
indexSpan += 1
# 打印出span列表的内容
print(span)
# 打印出a列表的内容
print(a)
# 程序入口,注意是双下划线
if __name__=="__main__":
# 需要访问的url
url = "https://baike.baidu.com"
# 下载url
response=download(url)
# 解析网页
soup=parser_html(response)
# 打印内容
out_information(soup)
效果:
如有疑问,定当竭力为您解答。
版权声明:本文为weixin_40169642原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。