利用Word2Vec在语料中构建种子词集同类词

nlp小白努力探索的第n天……

今天记录和分享利用gensim.model.word2vec.Word2Vec在语料中构建种子词集同类词

先说明任务情况：

全量语料数据中包含：已打标语料，未打标语料。从已打标语料中提取出关键词，我们将这部分词汇成为种子词集。现需要从全量语料数据中找到种子词集的同类词。

步骤：

1）对语料库建立word2vec词向量模型；

2）利用 gensim.model 联动的词汇相似度计算方法，以种子词集作为研究对象在语料库中找出同类词。

数据展示：

文件名：userdic

可以发现，userdic中的词汇其实应该叫做phrase（短语），分词处理后会出现无效词，比如“了”，因此需要进行去停用词和去除干扰词的处理。

代码：

导入所需的库文件

# -*- coding: utf-8 -*-

import math

import jieba
import jieba.posseg as psg
from gensim imp