Xpath爬虫爬去百度贴吧帖子

  • Post author:
  • Post category:其他



xpath是基于路径来寻找相关的内容,区别于re,有时候re爬网页内容的时候会出现爬了多余的信息,造成信息整理的时候由于长度问题(当然这是可以进行内容检查的)进行规律的整理




参考Xpath用法




相关视频有一个关于Xpath


– 看视频以后自己结合内容写的代码如下:

这里写代码
from multiprocessing.dummy import Pool as ThreadPool
from lxml import etree
import functools
import requests
urls=[]
page='http://tieba.baidu.com/p/3668570906?see_lz=1&pn='
url1='http://tieba.baidu.com/p/3668570906?pn=1'

for



版权声明:本文为acsunqi原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。