网盘搜索引擎原理大揭秘

  • Post author:
  • Post category:其他




概述

网盘搜索引擎是近年来非常流行的工具,最近在知乎上看到不上关于网盘引擎的帖子,笔者今天决定对网盘搜索引擎原理,技术做个大揭秘,一方面是对不熟悉搜索引擎原理的朋友做个答疑,二是指出各种引擎的优缺点以让朋友们今后在选择你钟爱的引擎时能够心中有数。

目前国内外网盘搜索引擎实现原理大体就两种——爬虫程序爬取数据供搜索,调用google,bing三方接口搜索。前者的典型代表如比较流行的

去转盘网



盘搜搜

…后者的典型代表如

胖浩子



西林街

等。

然而现在调用google API接口搜不到任何关于网盘的东西了,估计是实施了封锁。



爬虫方式

笔者先从技术比较复杂的有自己爬虫程序的网盘搜索引擎说起,拿做的比较好的去转盘网为例:


去转盘

支持百度网盘,360网盘,电驴,旋风等主流下载方式,界面方块话,简洁有力,提供用户分享功能,正努力成长为业界一流。



技术实现

该引擎的数据是通过爬虫程序爬取百度网盘,然后将数据存储到数据库中,索引然后供用户搜索。笔者关注这个站比较久了,broom团队最近也公开了去转盘网的很多技术,也正如笔者所说。以下是我在知乎上看到的两篇相关博客,懂技术的可以看看,不懂技术的朋友跳过即可。

  • python爬虫之爬百度网盘开源
  • Lucene+Jave 中文分词,代码直接可用

    前者正是他们的爬虫程序,后者就是我所说的索引程序。

    以前百度提供用户列表API,这样爬起来比较容易,然而现在不行了,因为百度关闭了用户列表API,而且反爬机制更加严格了,如果要爬的话需要购买代理IP了。



优缺点

该类站的优点:搜索速度快,资源较新;缺点:死链多,资源少;

接下来说说调用第三方接口的引擎,这回拿大家都比较熟悉的西林街为例



调用Google接口


胖浩子

网盘搜索引擎,界面简洁清新,搜索结果多,自动检测死链



技术实现

该引擎的技术比较简单,对计算机稍有了解的朋友都可以做,他的原理是展示网站先去google申请搜索引擎接口(需要翻墙),当用户将搜索内容提交给展示网站后,展示网站又将搜索内容提交给google引擎,google引擎搜索之后把数据返回给展示网站。国内做这种网站都需要一个翻墙空间,数据从中国跑到美国搜好又回到中国,这也就是为什么这类引擎用起来有延迟感的原因。



优缺点

该类站的优点:死链少,资源多;缺点:用起来略卡,新资源少;



结尾

笔者这里只是拿两种原理下的典型代表做个解释,其他的引擎以此类推就可以了,如果你想了解更过的话建议去这个导航站:点我,这个上面有很多网盘搜索引擎站,你可以尝试访问几个,找到你的钟爱 ,谢谢你阅读此文。



版权声明:本文为haohzhang原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。