一、概念:
词性标注(Part-of-Speech tagging 或POS tagging),又称词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。词主要可以分为以下2类:
- 实词:名词、动词、形容词、状态词、区别词、数词、量词、代词
- 虚词:副词、介词、连词、助词、拟声词、叹词。
二、常用的词性标注集如下:
- 《PFR人民日报标注语料库》词性编码表——40多个标记
- 《现代汉语语料库加工规范——词语切分与词性标注》词性标记——40多个标记
- 计算所ICTCLAS3.0汉语词性标记集——共计99个标记,包括22个一类、66个2类、11个三类
- HanLP词性标记集——兼容上述2和3
- BosonNLP词性标注——共22个大类,70个标签
- 结巴分词中出现的类型
- StanfordNLP的词性标注(中文)
- StanfordNLP的词性标注(英文)
版权声明:本文为m0_46483236原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。