基于大数据的企业岗位需求决策

任务描述

本关任务：编写 Webclient 程序完成对页面数据的采集。

相关知识

为了完成本关任务，你需要掌握：1.如何使用 Webclient，2.如何对页面进行分析获取 Xpath 规则。

爬虫基本流程

第一步：发起请求。一般是通过 HTTP 库，对目标站点进行请求。等同于自己打开浏览器，输入网址。

第二步：获取响应内容（Response）。如果请求的内容存在于服务器上，那么服务器会返回请求的内容，一般为：HTML，二进制文件（视频，音频），文档，Json 字符串等。

第三步：解析内容。对于用户而言，就是寻找自己需要的信息。可以使用Xpath解析 HTML 的内容获取自己想要的信息数据，也可以使用正则匹配，方法有很多种，这一般看用户自己的偏爱了或者说熟悉哪个技术点了

第四步：保存数据。解析得到的数据可以多种形式，如文本，音频，视频保存在本地。

xpath解析工具的使用（以谷歌浏览器为例）

1.谷歌浏览器安装 XPath Helper

百度上或者其他途径下载XPath Helper工具

将XPath Helper工具文件直接拖到谷歌浏览器扩展程序上

测试说明

平台会对你编写的代码进行测试，你只需要根据任务需求与相关提示完成右侧编辑器代码的补充，然后点击测评就o