基于大数据的企业岗位需求决策

  • Post author:
  • Post category:其他




企业岗位需求决策(一):数据采集



第1关:webclient+xpath

任务描述

本关任务:编写 Webclient 程序完成对页面数据的采集。

相关知识

为了完成本关任务,你需要掌握:1.如何使用 Webclient,2.如何对页面进行分析获取 Xpath 规则。

爬虫基本流程

第一步:发起请求。一般是通过 HTTP 库,对目标站点进行请求。等同于自己打开浏览器,输入网址。

第二步: 获取响应内容(Response)。如果请求的内容存在于服务器上,那么服务器会返回请求的内容,一般为:HTML,二进制文件(视频,音频),文档,Json 字符串等。

第三步:解析内容。对于用户而言,就是寻找自己需要的信息。可以使用Xpath解析 HTML 的内容获取自己想要的信息数据,也可以使用正则匹配,方法有很多种,这一般看用户自己的偏爱了或者说熟悉哪个技术点了

第四步:保存数据。解析得到的数据可以多种形式,如文本,音频,视频保存在本地。

xpath解析工具的使用(以谷歌浏览器为例)

1.谷歌浏览器安装 XPath Helper

百度上或者其他途径下载XPath Helper工具

将XPath Helper工具文件直接拖到谷歌浏览器扩展程序上

测试说明

平台会对你编写的代码进行测试,你只需要根据任务需求与相关提示完成右侧编辑器代码的补充,然后点击测评就o



版权声明:本文为Junds0原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。