自然语言处理之词性标注(POS)

  • Post author:
  • Post category:其他


一、概念:

词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。词主要可以分为以下2类:

  • 实词:名词、动词、形容词、状态词、区别词、数词、量词、代词
  • 虚词:副词、介词、连词、助词、拟声词、叹词。

二、常用的词性标注集如下:

  1. 《PFR人民日报标注语料库》词性编码表——40多个标记
  2. 《现代汉语语料库加工规范——词语切分与词性标注》词性标记——40多个标记
  3. 计算所ICTCLAS3.0汉语词性标记集——共计99个标记,包括22个一类、66个2类、11个三类
  4. HanLP词性标记集——兼容上述2和3
  5. BosonNLP词性标注——共22个大类,70个标签
  6. 结巴分词中出现的类型
  7. StanfordNLP的词性标注(中文)
  8. StanfordNLP的词性标注(英文)

详见:

https://www.biaodianfu.com/pos-tagging-set.html



版权声明:本文为m0_46483236原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。