nlp小白努力探索的第n天……
今天记录和分享利用gensim.model.word2vec.Word2Vec在语料中构建种子词集同类词
先说明任务情况:
全量语料数据中包含:已打标语料,未打标语料。从已打标语料中提取出关键词,我们将这部分词汇成为种子词集。现需要从全量语料数据中找到种子词集的同类词。
步骤:
1)对语料库建立word2vec词向量模型;
2)利用 gensim.model 联动的词汇相似度计算方法,以种子词集作为研究对象在语料库中找出同类词。
数据展示:
文件名:userdic
可以发现,userdic中的词汇其实应该叫做phrase(短语),分词处理后会出现无效词,比如“了”,因此需要进行去停用词和去除干扰词的处理。
代码:
导入所需的库文件
# -*- coding: utf-8 -*-
import math
import jieba
import jieba.posseg as psg
from gensim imp
版权声明:本文为weixin_50229358原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。