目录
- 介绍
- 所需素材
- CNN
- RNN
- HAN
如题,本文将要介绍三种模型:
-
Convolutional Neural Network (CNN)
-
Recurrent Neural Network (RNN)
-
Hierarchical Attention Network (HAN)
介绍
文本分类是自然语言处理和监督学习领域一个非常热门的子任务,很多新手的学习也都是从文本分来开始的。那么文本分类是啥?
类似于判定一则新闻是否是垃圾新闻,通常此类数据只需两个字段,比如:
review
,
label
等。我们需要做的就是根据带标签的文本数据,训练出一个判别器,用于识别其类型的正负。常见的文本分类任务有:
- 文本情感分类(喜怒哀乐)
- 垃圾邮件判别
- 用户话语标签(某米音响中的:放歌,闭嘴,关灯等话语)
- 新闻类别分类(历史,娱乐,政治等)
当然应用领域肯定不止这些,分类属于一个非常基础且重要的功能,学好不易,且学且努力。
安利一波文本分类代码:
- Text-Classification
- brightmart-text-classification
- cnn-text-classification-tf
- …… ( 自己上gayhub上找)
素材准备
一个健全的文本分类任务是需要准备以下素材的:
-
训练语料
:没有这个都是*淡 -
WordEmbedding
:可以使用预训练好的词向量,也可以自己训练词向量 -
预训练好的词向量:
- 中文:https://github.com/Embedding/Chinese-Word-Vectors
-
英文:
- glove
- fasttext
- word2vec
-
标签
版权声明:本文为weixin_29243279原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。