1.情感分析技术:机器学习方法、语义方法。
2.基于机器学习的方法:通过大量训练样本对分类模型进行训练。首先将具有情感色彩的词分成正例和负例,然后以词频统计信息作为基础,通过二元分类器进行情感分析。
3.基于语义的方法:通过分析相关词的语义倾向,计算整个文本的情感倾向。
(1)从一些分散的形容词和动词中学习线索,对动词进行N-grams分析, 识别句子的褒贬性,从而对文本进行分类;
(2)通过建立情感分类器,进行贝叶斯分类
(3)利用统计信息对词语的语义倾向进行判断
(4)采用自定义的44个特征进行模式匹配,识别主客观表达
(5)聚类的方法将词语分为褒义和贬义两类,预测形容词的情感倾向。
4.大连理工大学中文情感本体说明文档:
中文情感词汇本体库是大连理工大学信息检索研究室在林鸿飞教授的指导下,经过全体教研室成员的努力整理和标注的一个中文本体资源。从不同的角度描述了一个中文词汇或者短语包括词语词性种类、情感类别、情感强度和极性等信息。情感分析体系是在国外比较有影响力的Ekman的6大类情感分类体系的基础上构建的。在Ekman的基础上,词汇本体加入情感类别“好”对贬义情感进行了更细致的划分,最终词汇本体中的情感共分为7大类21小类。
格式举例:词语、词性种类、词义数、词义序号、情感分类、强度、极性、辅助情感分类、强度、极性
其中,一个情感词可能对应多个情感,情感分类用于刻画情感词的主要情感分类,辅助情感为该情感词在具有主要情感分类的同时含有其他情感分类。
情感强度分类1,3,5,7,9五档,9表示最大强度,1为最小强度。
情感:快乐、安心、好、赞扬、相信、喜爱、祝愿、怒、哀、失望、疚、思、慌、恐惧、羞、恶、憎恶、贬责、妒忌、怀疑、惊奇
情感大类:乐、好、怒、哀、惧、恶、惊
词性种类:名词、动词、形容词、副词、网络词语、成语、介词短语
极性标注:0中性、1褒义、2贬义、3褒贬两性
情感词共计27466个
5.中文情感词汇本体的扩充及应用论文:(消歧、多词义情感词)
word2vec将词汇表征为实数值向量的一种开源工具,word2vec学习模型是一种典型的浅层深度学习模型。可以计算向量之间的距离来判断词语的相似性,进行相似性查找或者聚类。互信息可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不确定性。衡量两个对象之间的相似性。
distributed representation模型:通过模型训练将词语数学化,将词语映射成维度相同的实数向量,其中模型能够定义向量的维度,得到实数向量之后,通过向量之间的距离来判别语义上的相似性,从而进行相似性查找,聚类等相关研究。word2vec就是distributed representation这种词向量的表示方式。
6.结巴分词原理:
(1)基于trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) 词典:词+次数、词性
(2)动态规划查找最大概率路径,找出基于词频的最大切分组合
(3)未登陆词,用基于汉字成词能力的HMM模型,使用viterb算法,(begin,end,middle,single)位置转换概率
(4)消歧:全切分词图(逆向匹配)
7.大连理工大学情感词库(人工标记)
8.消歧方法:杨亮等人通过人工获取和人工校正结合的方法获得多情感歧义词,然后构建词义关系图,在图上进行计算,直至迭代收敛选择多情感歧义词中权值最大的词义作为
最终输出结果,实现了情感消歧。陈健美等人进行了四组实验,对比了四种不同的情感消歧方法,结果表明贝叶斯模型的词汇情感消歧方法效果更好。
杨亮,张绍武,林鸿飞,基于词图排列的词汇情感消歧研究,中文信息学报,2014 28(6)
陈建梅,林鸿飞,杨志豪,基于贝叶斯的词汇情感消歧[c]//基于贝叶斯模型的词汇情感消歧。内容计算的研究与应用前沿-第九届全国计算机语言学学术会议论文集
9.PMI计算情感极性:首先将已有的标注了的情感类别的无歧义情感词作为情感基准词,然后根据新词与这些情感基准词语的共现情况,确定新词的情感类别。