选自Analytics Vidhya
作者:Pranav Dar
设备之心编译
参与:陈韵竹、路
本文介绍了 25 个深度学习开放数据集,包含图像处理、自然语言处理、语音识别和实质问题数据集。
介绍
深度学习(或生活中大部分行业)的关键在于实践。你必须练习处理各样问题,包含图像处理、语音识别等。每一个问题都有其独特的细微差别和处理办法。
然则,从哪里得到数据呢?此刻许多论文都运用专有数据集,这些数据集一般并不对公众开放。倘若你想学习并应用技能,那样没法获取合适数据集是个问题。
倘若你面临着这个问题,本文能够为你供给处理方法。本文介绍了一系列公开可用的高质量数据集,每一个深度学习兴趣者都应该试试这些数据集从而提高自己的能力。在这些数据集上进行工作将让你作为一名更好的数据专家,你在其中学到的知识将作为你职业生涯中的无价之宝。咱们一样介绍了具备当前最优结果的论文,供读者阅读,改善自己的模型。
怎样运用这些数据集?
首要,你得明白这些数据集的规模非常大!因此呢,请保证你的网络连接顺畅,在下载时数据量无或几乎无限制。
运用这些数据集的办法多种多样,你能够应用各样深度学习技术。你能够用它们磨炼技能、认识怎样识别和构建各个问题、思考独特的运用案例,亦能够将你的发掘公开给大众!
数据集分为三类——图像处理、自然语言处理和音频/语音处理。
让咱们一块瞧瞧吧!
图像处理数据集
MNIST
链接:https://datahack.analyticsvidhya.com/contest/practice-problem-identify-the-digits/
MNIST 是最流行的深度学习数据集之一。这是一个手写数字数据集,包括一个有着 60000 样本的训练集和一个有着 10000 样本的测试集。针对在现实世界数据上尝试学习技术和深度识别模式而言,这是一个非常好的数据库,且无需花费太多时间和精力进行数据预处理。
体积:约 50 MB
数量:70000 张图像,共分为 10 个类别。
SOTA:《Dynamic Routing Between Capsules》
参考阅读:
最终,Geoffrey Hinton 那篇备受关注的 Capsule 论文公开了
浅析 Geoffrey Hinton 近期提出的 Capsule 计划
先读懂 CapsNet 架构而后用 TensorFlow 实现,这应该是最仔细的教程了
Capsule 官方代码开源之后,设备之心做了份核心代码诠释
MS-COCO
链接:http://cocodataset.org/#home
COCO 是一个大型数据集,用于目的检测、分割和标题生成。它有以下几个特征:
目的分割
在语境中识别
超像素物品分割
33 万张图像(其中超过 20 万张是标注图像)
150 万个目的实例
80 个目的类别
91 个物品归类
每张图像有 5 个标题
25 万张带相关键点的人像
体积:约 25 GB(压缩后)
数量:33 万张图像、80 个目的类别、每张图像 5 个标题、25 万张带相关键点的人像
SOTA:《Mask R-CNN》
参考阅读:
学界 | Facebook 新论文提出通用目的分割框架 Mask R-CNN:更简单更灵活表现更好
深度 | 用于图像分割的卷积神经网络:从 R-CNN 到 Mask R-CNN
资源 | Mask R-CNN 神应用:像英剧《黑镜》同样屏蔽人像
ImageNet
链接:http://www.image-net.org/
ImageNet 是按照 WordNet 层次来组织的图像数据集。WordNet 包括大约 10 万个短语,而 ImageNet 为每一个短语供给平均约 1000 张描述图像。
体积:约 150 GB
数量:图像的总数约为 1,500,000;每一张图像都具备多个边界框和各自的类别标签。
SOTA:《Aggregated Residual Transformations for Deep Neural Networks》(https://arxiv.org/pdf/1611.05431.pdf)
Open Images 数据集
链接:https://github.com/openimages/dataset
Open Images 是一个包括近 900 万个图像 URL 的数据集。这些图像运用包括数千个类别的图像级标签边界框进行了标注。该数据集的训练集包括 9,011,219 张图像,验证集包括 41,260 张图像,测试集包括 125,436 张图像。
体积:500GB(压缩后)
数量:9,011,219 张图像,带有超过 5000 个标签
SOTA:Resnet 101 image classification model (trained on V2 data):
模型检测点:https://storage.googleapis.com/openimages/2017_07/oidv2-resnet_v1_101.ckpt.tar.gz
Checkpoint readme:https://storage.googleapis.com/openimages/2017_07/oidv2-resnet_v1_101.readme.txt
推断代码:https://github.com/openimages/dataset/blob/master/tools/classify_oidv2.py
VisualQA
链接:http://www.visualqa.org/
VQA 是一个包括图像开放式问题的数据集。这些问题的解答必须视觉和语言的理解。该数据集持有下列有趣的特征:
265,016 张图像(COCO 和抽象场景)
每张图像最少包括 3 个问题(平均有 5.4 个问题)
每一个问题有 10 个正确答案
每一个问题有 3 个看似恰当(却不太正确)的答案
自动评定指标
体积:25GB(压缩后)
数量:265,016 张图像,每张图像最少 3 个问题,每一个问题 10 个正确答案
SOTA:《Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge》(https://arxiv.org/abs/1708.02711)
街景门牌号数据集(SVHN)
链接:http://ufldl.stanford.edu/housenumbers/
这是一个现实世界数据集,用于研发目的检测算法。它必须最少的数据预处理过程。它与 MNIST 数据集有些类似,然则有着更加多的标注数据(超过 600,000 张图像)。这些数据是从谷歌街景中的房屋门牌号中收集而来的。
体积:2.5GB
数量:6,30,420 张图像,共 10 类
SOTA:《Distributional Smoothing With Virtual Adversarial Training》(https://arxiv.org/pdf/1507.00677.pdf)
这篇论文中,日本京都大学提出了局部分布式平滑度(LDS),一个关于统计模型平滑度的新理念。它可被用作正则化从而提高模型分布的平滑度。该办法不仅在 MNIST 数据集上处理有监督和半监督学习任务时表现优异,况且在 SVHN 和 NORB 数据上,Test Error 分别取得了 24.63 和 9.88 的分值。以上证明了该办法在半监督学习任务上的表现显著优于当前最佳结果。
CIFAR-10
链接:http://www.cs.toronto.edu/~kriz/cifar.html
该数据集亦用于图像归类。它由 10 个类别共计 60,000 张图像构成(每一个类在上图中暗示为一行)。该数据集共有 50,000 张训练集图像和 10,000 个测试集图像。数据集分为 6 个部分——5 个训练批和 1 个测试批。每批含有 10,000 张图像。
体积:170MB
数量:60,000 张图像,共 10 类
SOTA:《ShakeDrop regularization》(https://openreview.net/pdf?id=S1NHaMW0b)
Fashion-MNIST
链接:https://github.com/zalandoresearch/fashion-mnist
Fashion-MNIST 包括 60,000 个训练集图像和 10,000 个测试集图像。它是一个类似 MNIST 的时尚制品数据库。研发人员认为 MNIST 的运用次数太多了,因此呢她们把这个数据集用作 MNIST 的直接替代品。每张图像都以灰度表示,并具备一个标签(10 个类别之一)。
体积:30MB
数量:70,000 张图像,共 10 类
SOTA:《Random Erasing Data Augmentation》(https://arxiv.org/abs/1708.04896)
自然语言处理
IMDB 电影评论数据集
链接:http://ai.stanford.edu/~amaas/data/sentiment/
该数据集针对电影兴趣者而言非常赞。它用于二元情感归类,日前所含数据超过该行业其他数据集。除了训练集评论样本和测试集评论样本之外,还有有些未标注数据可供运用。另外,该数据集还包含原始文本和预处理词袋格式。
体积:80 MB
数量:训练集和测试集各包括 25,000 个高度两极化的电影评论
SOTA:《Learning Structured Text Representations》(https://arxiv.org/abs/1705.09207)
Twenty Newsgroups 数据集
链接:https://archive.ics.uci.edu/ml/datasets/Twenty+Newsgroups
顾名思义,该数据集涵盖资讯组关联信息,包括从 20 个区别资讯组获取的 20000 篇资讯组文档汇编(每一个资讯组选择 1000 篇)。这些文案有着典型的特征,例如标题、导语。
体积:20MB
数量:来自 20 个资讯组的 20,000 篇报告
SOTA:《Very Deep Convolutional Networks for Text Classification》(https://arxiv.org/abs/1606.01781)
Sentiment140
链接:http://help.sentiment140.com/for-students/
Sentiment140 是一个用于情感分析的数据集。这个流行的数据集能让你完美地开启自然语言处理之旅。数据中的心情已经被预先清空。最后的数据集具备以下六个特征:
推文的心情极性
推文的 ID
推文的日期
查找
推特的用户名
推文的文本
体积:80MB(压缩后)
数量: 1,60,000 篇推文
SOTA:《Assessing State-of-the-Art Sentiment Models on State-of-the-Art Sentiment Datasets》(http://www.aclweb.org/anthology/W17-5202)
WordNet
链接:https://wordnet.princeton.edu/
上文介绍 ImageNet 数据集时说到,WordNet 是一个大型英语 synset 数据库。Synset 亦便是同义词组,每组描述的概念区别。WordNet 的结构让它作为 NLP 中非常有用的工具。
体积:10 MB
数量:117,000 个同义词集,它们经过少量的「概念关系」与其他同义词集相互相关
SOTA:《Wordnets: State of the Art and Perspectives》(https://aclanthology.info/pdf/R/R11/R11-1097.pdf)
Yelp 数据集
链接:https://www.yelp.com/dataset
这是 Yelp 出于学习目的而发布的开放数据集。它包括数百万个用户评论、商场属性(businesses attribute)和来自多个大都市地区的超过 20 万张照片。该数据集是全世界范围内非常常用的 NLP 挑战赛数据集。
体积:2.66 GB JSON、2.9 GB SQL 和 7.5 GB 的照片(所有压缩后)
数量:5,200,000 个评论、174,000 份商场属性、200,000 张照片和 11 个大都市地区
SOTA:《Attentive Convolution》(https://arxiv.org/pdf/1710.00519.pdf)
Wikipedia Corpus
链接:http://nlp.cs.nyu.edu/wikipedia-data/
该数据集是维基百科全文的集合,包括来自超过 400 万篇文案的将近 19 亿单词。你能逐单词、逐短语、逐段地对其进行检索,这使它作为强大的 NLP 数据集。
体积:20 MB
数量:4,400,000 篇文案,包括 19 亿单词
SOTA:《Breaking The Softmax Bottelneck: A High-Rank RNN language Model》(https://arxiv.org/pdf/1711.03953.pdf)
Blog Authorship Corpus
链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
该数据集包括从数千名博主那里收集到的博客文案,这些数据从 blogger.com 中收集而来。每篇博客都以一个单独的文件形式供给。每篇博客最少显现 200 个常用的英语单词。
体积:300 MB
数量:681,288 篇博文,共计超过 1.4 亿单词。
SOTA:《Character-level and Multi-channel Convolutional Neural Networks for Large-scale Authorship Attribution》(https://arxiv.org/pdf/1609.06686.pdf)
欧洲语言设备翻译数据集
链接:http://statmt.org/wmt18/index.html
该数据集包括四种欧洲语言的训练数据,旨在改进当前的翻译办法。你能够运用以下任意语言对:
法语 - 英语
西班牙语 - 英语
德语 - 英语
捷克语 - 英语
体积: 约 15 GB
数量:约 30,000,000 个句子及对应的译文
SOTA:《Attention Is All You Need》
参考阅读:
学界 | 设备翻译新突破:谷歌实现完全基于 attention 的翻译架构
资源 | 谷歌全 attention 设备翻译模型 Transformer 的 TensorFlow 实现
音频/语音数据集
Free Spoken Digit 数据集
链接:https://github.com/Jakobovski/free-spoken-digit-dataset
这是本文又一个受 MNIST 数据集启发而创建的数据集!该数据集旨在处理识别音频样本中口述数字的任务。这是一个公开数据集,因此期盼随着人们继续供给数据,它会持续发展。日前,它具备以下特点:
3 种人声
1500 段录音(每一个人口述 0- 9 各 50 次)
英语发音
体积: 10 MB
数量: 1500 个音频样本
SOTA:《Raw Waveform-based Audio Classification Using Sample-level CNN Architectures》(https://arxiv.org/pdf/1712.00866)
Free Music Archive (FMA)
链接:https://github.com/mdeff/fma
FMA 是音乐分析数据集,由整首 HQ 音频、预计算的特征,以及音轨和用户级元数据构成。它是一个公开数据集,用于评定 MIR 中的多项任务。以下是该数据集包括的 csv 文件及其内容:
tracks.csv:记录每首歌每一个音轨的元数据,例如 ID、歌名、演唱者、流派、标签和播放次数,共计 106,574 首歌。
genres.csv:记录所有 163 种流派的 ID 与名叫作及上层风格名(用于推断流派层次和上层流派)。
features.csv:记录用 librosa 提取的平常特征。
echonest.csv:由 Echonest(此刻的 Spotify)为 13,129 首音轨的子集供给的音频功能。
体积:约 1000 GB
数量:约 100,000 个音轨
SOTA:《Learning to Recognize Musical Genre from Audio》(https://arxiv.org/pdf/1803.05337.pdf)
Ballroom
链接:http://mtg.upf.edu/ismir2004/contest/tempoContest/node5.html
该数据集包括舞厅的舞曲音频文件。它以真实音频格式供给了许多舞蹈风格的有些特征片段。以下是该数据集的有些特点:
实例总数:698
单段时长:约 30 秒
总时长:约 20940 秒
体积:14 GB(压缩后)
数量:约 700 个音频样本
SOTA:《A Multi-Model Approach To Beat Tracking Considering Heterogeneous Music Styles》(https://pdfs.semanticscholar.org/0cc2/952bf70c84e0199fcf8e58a8680a7903521e.pdf)
Million Song 数据集
链接:https://labrosa.ee.columbia.edu/millionsong/
Million Song 数据集包括一百万首当代流行音乐的音频特征和元数据,可免费获取。其目的是:
鼓励科研商场规模的算法
为评定科研供给参考数据集
做为运用 API 创建大型数据集的捷径(例如 The Echo Nest API)
帮忙入门级科研人员在 MIR 行业展开工作
数据集的核心是一百万首歌曲的特征分析和元数据。该数据集不包括任何音频,只包括导出要素。示例音频可经过哥伦比亚大学供给的代码(https://github.com/tb2332/MSongsDB/tree/master/Tasks_Demos/Preview7digital)从 7digital 等服务中获取。
体积:280 GB
数量:一百万首歌曲!
SOTA:《Preliminary Study on a Recommender System for the Million Songs Dataset Challenge》(http://www.ke.tu-darmstadt.de/events/PL-12/papers/08-aiolli.pdf)
LibriSpeech
链接:http://www.openslr.org/12/
该数据集是一个包括约 1000 小时英语语音的大型语料库。数据源自为 LibriVox 项目的音频书籍。该数据集已然得到了恰当地分割和对齐。倘若你还在寻找初始点,那样点击 http://www.kaldi-asr.org/downloads/build/6/trunk/egs/查看在该数据集上训练好的声学模型,点击 http://www.openslr.org/11/查看适合评定的语言模型。
体积:约 60 GB
数量:1000 小时的语音
SOTA:《Letter-Based Speech Recognition with Gated ConvNets》(https://arxiv.org/abs/1712.09444)
VoxCeleb
链接:http://www.robots.ox.ac.uk/~vgg/data/voxceleb/
VoxCeleb 是一个大型人声识别数据集。它包括来自 YouTube 视频的 1251 位名人的约 10 万段语音。数据基本上是性别平衡的(男性占 55%)。这些名人有区别的口音、职业和年龄。研发集和测试集之间无重叠。对大明星所说的话进行归类并识别——这是一项有趣的工作。
体积:150 MB
数量:1251 位名人的 100,000 条语音
SOTA:《VoxCeleb: a large-scale speaker identification dataset》(https://www.robots.ox.ac.uk/~vgg/publications/2017/Nagrani17/nagrani17.pdf)
为了帮忙你练习,咱们还供给了有些真实生活问题和数据集,供读者上手操作。这一部分,咱们列举了 DataHack 平台上关于深度学习的问题。
推特情感分析数据集
链接:https://datahack.analyticsvidhya.com/contest/practice-problem-twitter-sentiment-analysis/
触及种族主义和性别卑视的偏激言论已作为 Twitter 的困难,因此呢将这类推文与其它推文掰开已非常重要。在这个实质问题中,咱们供给的 Twitter 数据包括普通言论和偏激言论。做为数据专家,你的任务是确定那些推文是偏激型推文,那些不是。
体积: 3 MB
数量: 31,962 篇推文
印度演员年龄检测数据集
链接:https://datahack.analyticsvidhya.com/contest/practice-problem-age-detection/
针对深度学习兴趣者来讲,这是一个令人着迷的挑战。该数据集包括数千名印度演员的图像,你的任务是确定她们的年龄。所有图像都由人工从视频帧中挑选和剪切而来,这引起规模、姿势、表情、亮度、年龄、分辨率、遮挡和妆容拥有高度可变性。
体积:48 MB(压缩后)
数量:训练集中有 19,906 幅图像,测试集中有 6636 幅图像
城市声音归类数据集
链接:https://datahack.analyticsvidhya.com/contest/practice-problem-urban-sound-classification/
该数据集包括超过 8000 个来自 10 个类别的城市声音片段。这个实质问题旨在向你介绍平常归类场景中的音频处理。
体积:训练集 - 3 GB(压缩后)、测试集 - 2 GB(压缩后)
数量:来自 10 个类别的 8732 个标注城市声音片段(单个片段音频时长 <= 4s)
原文链接:https://www.analyticsvidhya.com/blog/2018/03/comprehensive-collection-deep-learning-datasets/
本文为设备之心编译,转载请联系本公众号得到授权。
✄------------------------------------------------
加入设备之心(全职记者/实习生):hr@jiqizhixin.com
投稿或寻求报告:editor@jiqizhixin.com
宣传&商务合作:bd@jiqizhixin.com
|