企业岗位需求决策(一):数据采集
第1关:webclient+xpath
任务描述
本关任务:编写 Webclient 程序完成对页面数据的采集。
相关知识
为了完成本关任务,你需要掌握:1.如何使用 Webclient,2.如何对页面进行分析获取 Xpath 规则。
爬虫基本流程
第一步:发起请求。一般是通过 HTTP 库,对目标站点进行请求。等同于自己打开浏览器,输入网址。
第二步: 获取响应内容(Response)。如果请求的内容存在于服务器上,那么服务器会返回请求的内容,一般为:HTML,二进制文件(视频,音频),文档,Json 字符串等。
第三步:解析内容。对于用户而言,就是寻找自己需要的信息。可以使用Xpath解析 HTML 的内容获取自己想要的信息数据,也可以使用正则匹配,方法有很多种,这一般看用户自己的偏爱了或者说熟悉哪个技术点了
第四步:保存数据。解析得到的数据可以多种形式,如文本,音频,视频保存在本地。
xpath解析工具的使用(以谷歌浏览器为例)
1.谷歌浏览器安装 XPath Helper
百度上或者其他途径下载XPath Helper工具
将XPath Helper工具文件直接拖到谷歌浏览器扩展程序上
测试说明
平台会对你编写的代码进行测试,你只需要根据任务需求与相关提示完成右侧编辑器代码的补充,然后点击测评就o
版权声明:本文为Junds0原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。