倒排索引原理

  • Post author:
  • Post category:其他



单词文档矩阵

(搜索引擎的索引其实就是实现“单词-文档矩阵”的具体数据结构)

倒排索引


倒排索引基本概念


文档(Document)

:一般搜索引擎的处理对象是互联网网页,而文档这个概念要更宽泛些,代表以文本形式存在的存储对象,相比网页来说,涵盖更多种形式,比如Word,PDF,html,XML等不同格式的文件都可以称之为文档。


文档集合(Document Collection)

:由若干文档构成的集合称之为文档集合。比如海量的互联网网页或者说大量的电子邮件都是文档集合的具体例子。


文档编号(Document ID)

:在搜索引擎内部,会将文档集合内每个文档赋予一个唯一的内部编号,以此编号来作为这个文档的唯一标识,这样方便内部处理,每个文档的内部编号即称之为“文档编号”,后文有时会用DocID来便捷地代表文档编号。


单词编号(Word ID)

:与文档编号类似,搜索引擎内部以唯一的编号来表征某个单词,单词编号可以作为某个单词的唯一表征。


倒排索引(Inverted Index)

:倒排索引是实现“单词-文档矩阵”的一种具体存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分



版权声明:本文为qq_17612199原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。