Web爬虫|入门实战之实习僧（编码反爬）

原创不易，本文禁止抄袭、转载，多年爬虫实战开发经验总结，侵权必究！

一、爬虫任务

任务背景

：爬取实习僧网站Python实习数据

任务目标

：利用解析库Beautiful Soup解析网页并获得所需数据

首先进入实习僧官网主页：

https://www.shixiseng.com

爬取一下实习僧IT互联网的Python实习信息，如下图：

在这里插入图片描述

滑到页面最底部，点击下一页，观察URL的规律，如下图：

从上面的网址可以看出，只有page=？这里变化了

然后再查看相应源代码的属性，如下图：

在这里插入图片描述

如上图所示，该字段的数据看不见，可能它不希望你很简单的就获得它网站的这些数据，这些数据对他来说比较重要，不想让我们轻易获得，所以启用了

反爬

如果直接运行，这些数据是爬取不下来的，如下图：

在这里插入图片描述

反反爬技巧

：实际上这是编码问题，我们只要用一种编码方式，比如“utf-8”编码来表示这些数据，然后再用你选的编码方式来替换相应的数据部分，如下图：

如上图，相关数据已经以“utf-8”编码的方式呈现出来

创建函数hack_number()，用于解码数字：

在这里插入图片描述

然后再观察一下点进去的网址：

我们这里是

先广度再深度

进行爬取数据

编写好相关代码之后，查看运行结果：

在这里插入图片描述

CSDN源码下载链接：

下载源码

原创不易，如果觉得有点用，希望可以随手点个赞，拜谢各位老铁！

作者：小鸿的摸鱼日常，Goal：让编程更有趣！

专注于算法、爬虫，网站，游戏开发，数据分析、自然语言处理，AI等，期待你的关注，让我们一起成长、一起Coding！

转载说明：本文禁止抄袭、转载，侵权必究！