粗放时代到规范时代,爬虫该何去何从?

  • Post author:
  • Post category:其他



  • 粗放时代的特点表现在以下几个方面


粗放时代:无账户或者若账户(非强制注册或者简单方式可以注册)


商业模式:流量模式,通过流量来获取广告,通过广告盈利。


防御措施:弱,不影响正常使用的情况下放任。被识别后果弱。


代表站点:黄页类网站、企查查、某些信用网


……


  • 规范时代的特点表现在以下几个方面


规范


时代:强账号体系(注册成本加大,真实身份验证)


商业


模式:不简单追求流量,更看重实际付费用户转化。


防御


措施:强,高注册成本(限制注册或者注册条件苛刻)


后果严重,一旦识别即封停或误导数据。


代表


站点:烯牛数据、企查猫、企信宝、深信(趋势)


……

网站防御策略

站在对方产品经理带着程序员的思维来看,我们定义出正常用户的一个画像,根据这个画像我们就可以很好的做到这个反爬机制的。

正常用户画像

由此可见,账号会是后续爬虫抓取的一个最大成本。人工抓取会是后时代的一个蛮好的举措,让我们拭目以待吧!



攻防兼备捉小虫,乐此不疲,唯有捉虫你大仙!



版权声明:本文为lxb18711871497原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。