信息提取

指代消解

指代消解技术主要用于解决多个指称对应同一实体对象的问题。在一次会话中，

多个指称可能指向的是同一实体对象。利用共指消解技术，可以将这些指称项关联（合并）到正确的实体对象，共指消解还有一些其他的名字，比如对象对齐、实体匹配和实体同义。指代理解可以看成是对文本的压缩。

书中给出了一个自然语言处理的java包，并没有说明指代消解原理，查阅资料得到如下指代消解原理

指代消解中的Hobbs算法和向心理论

基于自然语言处理的共指消解是以句法分析为基础的，代表方法是Hobbs算法和向心理论（centering theory）。

Hobbs算法是最早的代词消解算法之一，主要思路是基于句法分析树进行搜索，因此适用于实体与代词出现在同一句子中的场景，有一定的局限性。

向心理论的基本思想是：将表达模式（utterance）视为语篇（discourse）的基本组成单元，通过识别表达式中的实体，可以获得当前和后续语篇中的关注中心（实体），根据语义的局部连贯性和显著性，就可以在语篇中跟踪受关注的实体。

在机器学习中，指代算法常常被看成是分类与聚类问题。聚类法的基本思想是以实体指称项为中心，通过实体聚类实现指称项与实体对象的匹配。基于统计机器学习的共指消解方法通常受限于2个问题：训练数据的（特征）稀疏性和难以在不同的概念上下文中建立实体关联。

中文关键词提取；

中文关键词提取分以下几个步骤

文本、系统参数输入
分词、过滤停用词
单个词的权重计算、排序
文本关键词

不同位置、词性的词语重要程度不同，可根据以下规则：

· 标题出现的词更重要

· 利用词性信息：关键词往往是名词或者名词结尾的词

· 利用词或字的互信息，互信息大的单子有可能是关键词

· 利用标点符号：《》和“”之间的字

· 构建文本词网络

· 把出现的名词词语按语义聚类，提取有概括性的词作为关键词

HITS算法提取关键字

词汇权重计算可采用HITS算法，Pangrank算法，TF-IDF算法等。后两者我们比较熟悉，书中详细介绍了HITS算法

HITS（HITS(Hyperlink – Induced Topic Search) ）是信息检索中计算网页排序的常用算法。

Hub页面（枢纽页面）和Authority页面（权威页面）是HITS算法最基本的两个定义：

“Authority”页面，是指与某个领域或者某个话题相关的高质量网页，比如搜索引擎领域，Google和百度首页即该领域的高质量网页，比如视频领域，优酷和土豆首页即该领域的高质量网页。
“Hub”页面，指的是包含了很多指向高质量“Authority”页面链接的网页，比如hao123首页可以认为是一个典型的高质量“Hub”网页。

将网页看成节点，计算Aut值和Hub值：

1.开始设置每个节点的Hub值和Authority值为1

2.执行Authority更新规则

3.执行Hub值更新规则

4.对Hub值和Authority值归一化

5.重复步骤2直到达到指定迭代次数，或Hub值和Authority值变化很小时停止迭代。

重复迭代过程直到满足条件，就构造了一个有向带权图，根据图可以算出最重要的节点，即关键字。

信息抽取的定义为：从自然语言文本中抽取指定类型的实体、关系、事件等事实信息，并形成结构化数据输出的文本处理技术

信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的，例如句子、段落、篇章，文本信息正是由一些小的具体的单位构成的，例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取。

信息提取遵循以下流程：

1.根据利用信息的方式定义词的类别

2.定义专业词库并根据词库对输入文档做全切分

3.最大概率动态规划求解

4.HMM词性标注

5.基于规则的未登录词识别

6.根据切分和标注的结果提取信息

提取联系方式

提取联系方式采用基于规则的提取：先建立相关字典，储存所要抓取对象的必要的特征信息(如前缀信息、后缀信息等)，再根据所要提取的信息特征定义一些规则，用于提取用户所要定义的对象。

从互联网提取信息

Web内容高度冗余，利用实体间得关系和描述这些关系得模式之间得对应关系，从一个种子关系集合出发，从Web网页中发现这些种子出现得上下文，然后从这些上下文中产生对应的模式，进而利用这些模式从Web网页中发现更多得关系实例，然后从这些关系实例中选择新的种子集合，重复上述过程，迭代得从Web上得到相应得关系和模板。

拼写纠错；

拼写纠错也成查询纠错，对输入的错误文本进行纠错。纠错的流程为：

1.输出查询

2.在词典中进行模糊匹配

3.返回词典中匹配词语

4.给出纠错建议。

它的通用公式如下：

在这里插入图片描述

P(c）是正确单词先验概率，P(w|c)是单词c误拼为w的概率，argmaxP(w|c) P（c）即为输出是w的情况下所有可能单词中概率最大的一个，将这个单词c视为纠错建议。

原文链接：https://blog.csdn.net/yang_live/article/details/106837027