文本摘要主题的数据集见我之前写的另一篇博文:
文本摘要数据集的整理、总结及介绍(持续更新ing…)
序列标注/信息抽取主题的数据集见我之前写的另一篇博文:
序列标注/信息抽取任务(持续更新ing…)
智能司法主题的数据集见我写的另一篇博文:
LegalAI公开数据集的整理、总结及介绍(持续更新ing…)
推理(包括数值和常识推理)的数据集见我写的另一篇博文:
推理数据集(持续更新ing…)
(由于多种数据集之间存在耦合,所以主要是专项数据放在专项博文里。但是这也不一定毕竟很多数据集集合也是混分类的,而且分类之间的界限并不清晰)
其他NLP数据集见下:
文章目录
1. 语料库
1.1 中文
-
CLUEbenchmark/CLUECorpus2020: Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料
-
FudanNLPLAB/CBook-150K: 中文图书语料MD5链接
-
Index of /zhwiki/latest/
-
PCL-Platform.Intelligence/Chinese_WPLC: 中文长上下文词语预测(Chinese WPLC)数据集 – Chinese_WPLC – OpenI – 启智AI开源社区提供普惠算力!
-
诗歌和音韵:
THUNLP-AIPoet/Datasets: Poetry-related datasets developed by THUAIPoet (Jiuge) group.
-
WuDaoCorpora Text文本预训练数据集
1.2 英文
-
HappyDB | Kaggle
:这个数据是集成了各种生活中快乐时光(比如
I was happy when my son got 90% marks in his examination
) -
DreamBank
-
Spambase – UCI Machine Learning Repository
:垃圾邮件 -
Enron Email Dataset
:安然高管的邮件(安然已经没了,但邮件还在) -
SNAP: Web data: Amazon reviews
-
https://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
:博客
2. NLG / MRC
复述
代码生成
QA
1. 英文
2. 中文
-
(繁中)DRCD
官方GitHub项目:
DRCKnowledgeTeam/DRCD: A 30000+ Chinese MRC dataset – Delta Reading Comprehension Dataset
MRC
翻译
其他集成性项目
3. 对话系统
3.1 open-domain
3.1.1 中文
-
https://huggingface.co/datasets/fnlp/moss-002-sft-data
-
https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_with_plugins
-
https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_without_plugins
-
thu-coai/CDial-GPT: A Large-scale Chinese Short-Text Conversation Dataset and Chinese pre-training dialog models
-
中文对话指令集:
OpenLabel-Chinese Conversations Dataset (OL-CC)
4. 多模态
4.1 图文匹配
4.2 对话
5. 自然语言推理NLI / 自然语言理解NLU
集锦
英文
中文
6. 其他集成性项目 / benchmark
6.1 中文
-
CLUEbenchmark/CLUE: 中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard
-
中文医疗信息处理评测基准CBLUE
-
千言(LUGE)| 全面的中文开源数据集合
-
funNLP
-
brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP
-
SophonPlus/ChineseNlpCorpus: 搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。
-
smoothnlp/FinancialDatasets: SmoothNLP 金融文本数据集(公开) Public Financial Datasets for NLP Researches Only
-
情感分析资源大全(语料、词典、词嵌入、代码)_英文情感词典_qq280929090的博客-CSDN博客
-
请问哪里可以找到电力相关的文本数据集? – 知乎
- NLPCC
6.2 中文多模态
6.3 英文
- SemEval
- BIG-bench
-
Multi-task Language Understanding on MMLU
-
Yelp Dataset
:比较著名的就是评论数据了 - GLUE
-
SuperGLUE
原论文:(2019 NeurIPS)
SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
-
Learning From Instructions
(TK的训练数据)
6.4 多语言
7. 文本分类
7.1 多语言
7.2 中文
7.3 格式化
-
Multi-Domain Sentiment Dataset:
https://www.cs.jhu.edu/~mdredze/datasets/sentiment/
格式:
feature:<count> .... feature:<count> #label#:<label>
7.4 英语
8. 知识图谱
8.1 中文
8.2 集成性项目
9. 其他
用于数据清洗的停用词
还没整理完,先罗列在这里
版权声明:本文为PolarisRisingWar原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。