python lxml.html.fromstring与etree.HTML()

Post author:xfxia
Post published:2023年12月25日
Post category:python

@[TOC](python lxml.html.fromstring与etree.HTML())

晚上看了一个大佬的爬虫解析代码，

有下面这样一段

import lxml.html


resp = requests.get(url, headers=headers)
text = resp.content.decode('utf8')
# 查了一下，下面这一句也是把html转换为html document树
doc = lxml.html.fromstring(text)

我看的很懵

因为我以前从来都是下面这样写的

from lxml import etree


resp = requests.get(url,headers= headers)
# text = resp.text
text = resp.content.decode("utf-8")
html = etree.HTML(text)

查看文档之后，etree功能更多，lxml.html专解析html,带了点特殊的方法

lxml.html特有：link[0].text_content()
lxml.html.diff：可以比较两个文件的差别

参考文章：http://blog.sina.com.cn/s/blog_8bbe95060102x5rv.html

原文链接：https://blog.csdn.net/weixin_44154094/article/details/115533531

你可能也喜欢