自然语言处理数据集集锦（持续更新ing…）

Post author:xfxia
Post published:2023年8月24日
Post category:其他

诸神缄默不语-个人CSDN博文目录

文本摘要主题的数据集见我之前写的另一篇博文：

文本摘要数据集的整理、总结及介绍（持续更新ing…）

序列标注/信息抽取主题的数据集见我之前写的另一篇博文：

序列标注/信息抽取任务（持续更新ing…）

智能司法主题的数据集见我写的另一篇博文：

LegalAI公开数据集的整理、总结及介绍（持续更新ing…）

推理（包括数值和常识推理）的数据集见我写的另一篇博文：

推理数据集（持续更新ing…）

（由于多种数据集之间存在耦合，所以主要是专项数据放在专项博文里。但是这也不一定毕竟很多数据集集合也是混分类的，而且分类之间的界限并不清晰）

其他NLP数据集见下：

文章目录

1. 语料库
- 1.1 中文
- 1.2 英文
2. NLG / MRC
- 复述
- 代码生成
- QA
- - 1. 英文
  - 2. 中文
- MRC
- 翻译
- 其他集成性项目
3. 对话系统
- 3.1 open-domain
- - 3.1.1 中文
4. 多模态
- 4.1 图文匹配
- 4.2 对话
5. 自然语言推理NLI / 自然语言理解NLU
- 集锦
- 英文
- 中文
6. 其他集成性项目 / benchmark
7. 文本分类
8. 知识图谱
- 8.1 中文
- 8.2 集成性项目
9. 其他
- 用于数据清洗的停用词
还没整理完，先罗列在这里

1. 语料库

1.1 中文

1.2 英文

HappyDB | Kaggle

：这个数据是集成了各种生活中快乐时光（比如
I was happy when my son got 90% marks in his examination
）
DreamBank
Spambase – UCI Machine Learning Repository

：垃圾邮件
Enron Email Dataset

：安然高管的邮件（安然已经没了，但邮件还在）
SNAP: Web data: Amazon reviews
https://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

：博客

2. NLG / MRC

复述

ParaNMT-50M: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations
1. Para-nmt-50m
  
  https://drive.google.com/file/d/1rbF3daJjCsa1-fu2GANeJd2FBXos1ugD/view?usp=sharing
2. Para-nmt-5m-processed
  
  https://drive.google.com/file/d/19NQ87gEFYu3zOIp_VNYQZgmnwRuSIyJd/view?usp=sharing

代码生成

HumanEval Dataset | Papers With Code

QA

SQuAD
1. SQuAD数据集简介_coder1479的博客-CSDN博客

1. 英文

QQP

First Quora Dataset Release: Question Pairs – Data @ Quora – Quora

2. 中文

（繁中）DRCD

官方GitHub项目：

DRCKnowledgeTeam/DRCD: A 30000+ Chinese MRC dataset – Delta Reading Comprehension Dataset

MRC

集成性项目
1. sherlcok314159/ChineseMRC-Data: 收集了目前为止中文领域的MRC抽取式数据集

翻译

其他语言到英文：

Translation Task – ACL 2016 First Conference on Machine Translation

其他集成性项目

中文文本生成数据集整理-NLG – 知乎

3. 对话系统

3.1 open-domain

3.1.1 中文

4. 多模态

4.1 图文匹配

Flickr 30k

From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions

4.2 对话

silverriver/MMChat: [LREC] MMChat: Multi-Modal Chat Dataset on Social Media

5. 自然语言推理NLI / 自然语言理解NLU

集锦

赛尔笔记 | 自然语言推理数据集简述 – 知乎

英文

SNLI

https://nlp.stanford.edu/projects/snli/

中文

6. 其他集成性项目 / benchmark

6.1 中文

6.2 中文多模态

MUGE(Multimodal Understanding and Generation Evaluation)

6.3 英文

SemEval
BIG-bench
1. 官方GitHub项目：
  
  google/BIG-bench: Beyond the Imitation Game collaborative benchmark for measuring and extrapolating the capabilities of language models
2. 论文：
  
  Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
Multi-task Language Understanding on MMLU
Yelp Dataset

：比较著名的就是评论数据了
GLUE
1. GLUE Benchmark
2. GLUE部分基准数据集介绍：RTE、MRPC、SST-2、QNLI、MNLI、QQP_真·skysys的博客-CSDN博客
SuperGLUE

原论文：(2019 NeurIPS)

SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems
Learning From Instructions

（TK的训练数据）

6.4 多语言

7. 文本分类

7.1 多语言

Taxi1500

Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages

7.2 中文

集成性项目
1. 关于文本分类（情感分析）的中文数据集汇总_文本分类数据集_樱与刀的博客-CSDN博客

7.3 格式化

Multi-Domain Sentiment Dataset：

https://www.cs.jhu.edu/~mdredze/datasets/sentiment/

格式：
feature:<count> .... feature:<count> #label#:<label>

7.4 英语

情感分析
1. http://help.sentiment140.com/for-students/

8. 知识图谱

8.1 中文

8.2 集成性项目

开源知识图谱介绍 – JetHu – 博客园

9. 其他

用于数据清洗的停用词

脏话等词语（很多语言都有）：

https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words

还没整理完，先罗列在这里

收藏丨20个中文语料数据集，含数学考试、公务员考题、医患对话等_中文qa数据集_OpenDataLab的博客-CSDN博客

版权声明：本文为PolarisRisingWar原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/PolarisRisingWar/article/details/130349309