之前写《使用Python抓取m3u8加密视频》笔记的原因,是自己有几个视频想保存,但对于m3u8, .ts 文件拼接不熟悉,就尝试写个脚本练手。
今天看了回复,有同学想知道如何从视频网站上获得 index.m3u8 主文件的链接。正好有空,找了个网站看了下,分享笔记如下
使用包
import requests, re
from lxml import etree # 最近爱上xpath,速度比BeautifulSoup快一点,而且xpath的语法通用
示例网址
http://www.dy2046.net/index.html
每个网站的HTML结构不一样,这个是随便找的,用了动态JS和BLOB。blob我没有了解过,不知道怎么解析。不过这个网站有别的办法可以解析出 index.m3u8 地址。
分析搜索链接,获得视频主页
http://www.dy2046.net/search.asp?searchword=%D3%EB%C9%F1%CD%AC%D0%D0
与神同行主演过的电影_电视剧全集 – 电影123www.dy2046.net
使用网站顶部的站内搜索功能,随便输入电影名称,观察返回结果网页,可以看到
1、搜索是使用普通的get请求(注意uril转成了gbk编码,必须做相应转码,否则失败)
2、分析结果网页,搜索结果是保存在<ul class=”piclist”></ul>标签中
测试代码如下</