自然语言处理数据集集锦(持续更新ing…)

  • Post author:
  • Post category:其他



诸神缄默不语-个人CSDN博文目录

文本摘要主题的数据集见我之前写的另一篇博文:

文本摘要数据集的整理、总结及介绍(持续更新ing…)


序列标注/信息抽取主题的数据集见我之前写的另一篇博文:

序列标注/信息抽取任务(持续更新ing…)


智能司法主题的数据集见我写的另一篇博文:

LegalAI公开数据集的整理、总结及介绍(持续更新ing…)


推理(包括数值和常识推理)的数据集见我写的另一篇博文:

推理数据集(持续更新ing…)


(由于多种数据集之间存在耦合,所以主要是专项数据放在专项博文里。但是这也不一定毕竟很多数据集集合也是混分类的,而且分类之间的界限并不清晰)

其他NLP数据集见下:



1. 语料库



1.1 中文


  1. CLUEbenchmark/CLUECorpus2020: Large-scale Pre-training Corpus for Chinese 100G 中文预训练语料

  2. FudanNLPLAB/CBook-150K: 中文图书语料MD5链接

  3. Index of /zhwiki/latest/

  4. PCL-Platform.Intelligence/Chinese_WPLC: 中文长上下文词语预测(Chinese WPLC)数据集 – Chinese_WPLC – OpenI – 启智AI开源社区提供普惠算力!
  5. 诗歌和音韵:

    THUNLP-AIPoet/Datasets: Poetry-related datasets developed by THUAIPoet (Jiuge) group.

  6. WuDaoCorpora Text文本预训练数据集



1.2 英文


  1. HappyDB | Kaggle

    :这个数据是集成了各种生活中快乐时光(比如

    I was happy when my son got 90% marks in his examination


  2. DreamBank

  3. Spambase – UCI Machine Learning Repository

    :垃圾邮件

  4. Enron Email Dataset

    :安然高管的邮件(安然已经没了,但邮件还在)

  5. SNAP: Web data: Amazon reviews

  6. https://u.cs.biu.ac.il/~koppel/BlogCorpus.htm

    :博客



2. NLG / MRC



复述


  1. ParaNMT-50M: Pushing the Limits of Paraphrastic Sentence Embeddings with Millions of Machine Translations

    1. Para-nmt-50m

      https://drive.google.com/file/d/1rbF3daJjCsa1-fu2GANeJd2FBXos1ugD/view?usp=sharing
    2. Para-nmt-5m-processed

      https://drive.google.com/file/d/19NQ87gEFYu3zOIp_VNYQZgmnwRuSIyJd/view?usp=sharing



代码生成


  1. HumanEval Dataset | Papers With Code



QA

  1. SQuAD


    1. SQuAD数据集简介_coder1479的博客-CSDN博客



1. 英文

  1. QQP

    First Quora Dataset Release: Question Pairs – Data @ Quora – Quora



2. 中文

  1. (繁中)DRCD

    官方GitHub项目:

    DRCKnowledgeTeam/DRCD: A 30000+ Chinese MRC dataset – Delta Reading Comprehension Dataset



MRC

  1. 集成性项目


    1. sherlcok314159/ChineseMRC-Data: 收集了目前为止中文领域的MRC抽取式数据集



翻译

  1. 其他语言到英文:

    Translation Task – ACL 2016 First Conference on Machine Translation



其他集成性项目


  1. 中文文本生成数据集整理-NLG – 知乎



3. 对话系统



3.1 open-domain



3.1.1 中文


  1. https://huggingface.co/datasets/fnlp/moss-002-sft-data

  2. https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_with_plugins

  3. https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_without_plugins

  4. thu-coai/CDial-GPT: A Large-scale Chinese Short-Text Conversation Dataset and Chinese pre-training dialog models
  5. 中文对话指令集:

    OpenLabel-Chinese Conversations Dataset (OL-CC)



4. 多模态



4.1 图文匹配

  1. Flickr 30k

    From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions



4.2 对话


  1. silverriver/MMChat: [LREC] MMChat: Multi-Modal Chat Dataset on Social Media



5. 自然语言推理NLI / 自然语言理解NLU



集锦


  1. 赛尔笔记 | 自然语言推理数据集简述 – 知乎



英文

  1. SNLI

    https://nlp.stanford.edu/projects/snli/



中文



6. 其他集成性项目 / benchmark



6.1 中文


  1. CLUEbenchmark/CLUE: 中文语言理解测评基准 Chinese Language Understanding Evaluation Benchmark: datasets, baselines, pre-trained models, corpus and leaderboard

  2. 中文医疗信息处理评测基准CBLUE

  3. 千言(LUGE)| 全面的中文开源数据集合

  4. funNLP

  5. brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 Large Scale Chinese Corpus for NLP

  6. SophonPlus/ChineseNlpCorpus: 搜集、整理、发布 中文 自然语言处理 语料/数据集,与 有志之士 共同 促进 中文 自然语言处理 的 发展。

  7. smoothnlp/FinancialDatasets: SmoothNLP 金融文本数据集(公开) Public Financial Datasets for NLP Researches Only

  8. 情感分析资源大全(语料、词典、词嵌入、代码)_英文情感词典_qq280929090的博客-CSDN博客

  9. 请问哪里可以找到电力相关的文本数据集? – 知乎
  10. NLPCC



6.2 中文多模态


  1. MUGE(Multimodal Understanding and Generation Evaluation)



6.3 英文

  1. SemEval
  2. BIG-bench

    1. 官方GitHub项目:

      google/BIG-bench: Beyond the Imitation Game collaborative benchmark for measuring and extrapolating the capabilities of language models
    2. 论文:

      Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

  3. Multi-task Language Understanding on MMLU

  4. Yelp Dataset

    :比较著名的就是评论数据了
  5. GLUE


    1. GLUE Benchmark

    2. GLUE部分基准数据集介绍:RTE、MRPC、SST-2、QNLI、MNLI、QQP_真·skysys的博客-CSDN博客
  6. SuperGLUE

    原论文:(2019 NeurIPS)

    SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

  7. Learning From Instructions


    (TK的训练数据)



6.4 多语言


  1. GlobalBench: A Benchmark for Global Progress in Natural Language Processing

  2. NLP 常用模型和数据集高速下载 | 故事尾音



7. 文本分类



7.1 多语言

  1. Taxi1500

    Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages



7.2 中文

  1. 集成性项目


    1. 关于文本分类(情感分析)的中文数据集汇总_文本分类数据集_樱与刀的博客-CSDN博客



7.3 格式化

  1. Multi-Domain Sentiment Dataset:

    https://www.cs.jhu.edu/~mdredze/datasets/sentiment/


    格式:

    feature:<count> .... feature:<count> #label#:<label>



7.4 英语

  1. 情感分析


    1. http://help.sentiment140.com/for-students/



8. 知识图谱



8.1 中文


  1. ownthink/KnowledgeGraphData: 史上最大规模1.4亿中文知识图谱开源下载

  2. 知識工場



8.2 集成性项目


  1. 开源知识图谱介绍 – JetHu – 博客园



9. 其他



用于数据清洗的停用词

  1. 脏话等词语(很多语言都有):

    https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words



还没整理完,先罗列在这里


  1. 收藏丨20个中文语料数据集,含数学考试、公务员考题、医患对话等_中文qa数据集_OpenDataLab的博客-CSDN博客



版权声明:本文为PolarisRisingWar原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。