想知道在哪里可以找到用于下一个数据项目的免费开放数据集?不用再找了……
如果您正在寻找数据分析方面的工作,那么您需要一个作品集来展示您的专业知识。当然,如果您是数据分析新手,那么您可能没有太多专业知识!不用担心。您可能还没有参与过付费项目,但这并不意味着您不能使用一些实践数据集来制作引人注目的作品集。
幸运的是,互联网上充斥着这样的数据,其中大部 为你的下一个项目寻找 分都是完全免费下载的(这要归功于开放数据计划)。在这篇文章中,我们将重点介绍一些一流的存储库,您可以在其中找到从商业到金融、行星科学和犯罪等各个领域的数据。
更喜欢观看这些信息而不是阅读?观看有关数据集资源的视频,由我们自己的内部数据科学家 Tom 提供!
准备好狂欢吧,我们开始吧:
1. Google 数据集搜索
数据类型:杂项
数据汇编者: Google
访问方式:免费搜索,但包含一些收费搜索结果
样本数据集: 1990 年至今的全球咖啡价格
如今,我们似乎什么都求助于谷歌,数据也不例外。谷歌 英国华侨华人数据 数据集搜索于 2018 年推出,就像谷歌的标准搜索引擎一样,但严格用于数据。
如果您喜欢浏览,它不是最好的工具,但如果您心中有特定的主题或关键字,它不会让您失望。Google 数据集搜索会汇总来自外部来源的数据,提供可用内容的清晰摘要、数据描述、数据提供者以及上次更新时间。这是一个很好的起点。
2. Kaggle
数据类型:杂项
数据汇编者: Kaggle
访问:免费,但需要注册
示例数据集: 主要城市的每日气温
与 Google 数据集搜索一样,Kaggle 提供聚 费者面临压力 合数据集,但它是一个社区中心,而不是搜索引擎。Kaggle 于 2010 年推出,举办了多项机器学习竞赛,随后为 NASA 和福特等公司解决了问题。
它现已发展成为一个著名的开放数据平台,为数据科学家提供基于云的协作,以及用于教授人工智能和数据分析技术的教育工具……当然,还有大量涵盖几乎所有您能想到的主题的优秀数据集。
3. Data.Gov
数据类型:政府
数据汇编者:美国联邦政府
访问方式:免费,无需注册
样本数据集: 转运和销售龙虾报告
2015 年,美国政府将所有数据公开。从气候变化 亚洲电子邮件列表 到犯罪,美国政府拥有超过 20 万个数据集,涵盖方方面面,您可以花上几个小时沉浸在数据库中。
对于一个政府网站来说,它的搜索功能出乎意料地好用,包括按地理区域、组织类型和文件格式进行深入搜索的功能。搜索结果还清晰地标明了联邦、州、县和市级。
如果您对美国人口的更多一般数据感兴趣,您还可以查看美国人口普查局的数据,它提供有关美国公民、他们的地理、教育和人口增长的丰富数据。
4.Datahub.io
数据类型:主要是商业和金融
数据汇编者: Datahub
访问方式:大部分免费,无需注册
样本数据集: 自 1945 年以来冰川的平均质量
许多数据分析师的目标是帮助做出明智的商业决策。因此,使用经济或商业数据集来构建你的投资组合项目可能是值得考虑的。
Datahub 涵盖了从气候变化到娱乐等各种主题,但它主要关注股市数据、房地产价格、通货膨胀和物流等领域。由于门户网站上的许多数据每月(甚至每天)更新一次,因此您总能找到新鲜事物,以及涵盖广泛时间范围的数据。
5. UCI机器学习库
数据类型:机器学习
数据汇编者:加州大学欧文分校
访问方式:免费,无需注册 样本
数据集: 巴西圣保罗城市交通行为
如果您喜欢浏览,通用存储库是不错的选择。但是,如果您正在寻找更小众的东西,为什么不专门研究一下呢?进入 UCI 机器学习存储库。
该存储库由加州大学欧文分校于三十年前推出,不要让九十年代的氛围误导您——UCI 存储库在学生、教师和研究人员中享有盛誉,是机器学习数据的首选之地。
数据集按任务(即分类、回归或聚类)、属性(即分类、数值)、数据类型和专业领域进行了明确分类。无论您从事什么机器学习项目,都可以轻松找到合适的数据集。
5.地球数据
数据类型:地球科学
数据汇编者: NASA
访问方式:免费,无需注册
样本数据集: 2000-2016 年阿拉斯加秋季驼鹿狩猎季节的环境条件
如果您认为太空很神奇(让我们面对现实吧,太空很神奇!),地球数据就是您的最佳选择。自 1994 年以来,该存储库一直向公众开放,可让您访问 NASA 针对我们这个蓝色小星球的所有卫星观测数据。
你可以想象,这里有大量的数据可供参考,从天气和气候测量到大气观测、海洋温度、植被测绘等等。如果你不喜欢基于地球的数据,NASA 的行星数据系统会更进一步,提供来自行星际任务的数据,例如卡西尼号探测器(2004 年至 2017 年绕土星运行)。谁知道呢,你甚至可能会发现科学……
对数据分析职业感兴趣吗?
6. CERN 开放数据门户
数据类型:粒子物理学
数据汇编者: CERN
访问方式:免费,无需注册
样本数据集: 2011 年和 2012 年希格斯候选碰撞事件
想要展示您处理高度复杂数据集的能力吗?前往 CERN 开放数据门户。它提供超过 2PB 的信息,包括来自大型强子对撞机粒子加速器的数据集。坦率地说,这些数据并不适合胆小的人,但如果您对粒子物理学感兴趣,它们值得一看。
虽然这些数据集的名称非常复杂,但每个条目都包含有用的细分信息,包括包含的内容、相关数据集以及如何分析它们。在许多情况下,它们甚至提供示例代码来帮助您入门(感谢 CERN!)
7.全球卫生观察站数据储存库
数据类型:健康
数据汇编者:联合国世界卫生组织
访问方式:免费,无需注册
样本数据集: 各地区脊髓灰质炎免疫覆盖率估计值
全球卫生观察数据库是联合国世界卫生组织获取全球卫生相关统计数据的门户。如果您希望进入医疗保健行业(这是许多数据科学家关注的重点,尤其是在机器学习领域),这些数据集是您的投资组合的不错选择。
该门户网站涵盖了从疟疾到艾滋病毒/艾滋病、抗菌素耐药性和疫苗接种率等所有内容,甚至还有一个不错的小功能,可让您在下载数据表之前预览它们。虽然不是绝对必要的,但绝对不错!
8. BFI 电影行业统计数据
数据类型:娱乐和电影
数据汇编者:英国电影协会
访问方式:免费,无需注册
样本数据集: 2001 年至今的周末票房数据
如果您正在寻找一些更容易理解的数据,接下来的几个数据应该很适合您。首先是英国电影协会行业统计数据。全年,英国电影协会收集并发布从英国票房数据到观众人口统计、家庭娱乐、电影制作成本等各方面的数据。
不过,最棒的是他们的年度统计年鉴。它通过一些出色的统计分析和视觉报告对年度数据进行了细分——如果你是数据分析新手,并且想将你的工作与真实情况进行对比,那么这本年鉴就非常有用。
9.纽约出租车行程数据
数据类型:运输
数据汇编者:纽约市出租车和豪华轿车委员会
访问方式:免费,无需注册
样本数据集:随意选择!
这是一个奇怪而又迷人的问题……自 2009 年以来,纽约市出租车和豪华轿车委员会一直在收集纽约市各地的交通数据。查找涵盖接送时间和地点、行程距离、票价、费率和付款类型、乘客人数等的数据集。
比较 2009 年和现在的数据差异非常有趣,尤其是在如此小的地理区域内。该网站还提供了一些额外的工具,包括用户指南、出租车区域地图、数据字典(用于解释电子表格标签)和年度行业报告。所有这些都非常直观,如果您是数据分析新手,这将是一本非常有用的指南。
10. FBI 犯罪数据探索器
数据类型:犯罪和毒品
数据汇编者:联邦调查局
访问方式:免费,无需注册
样本数据集: 2008 年至 2018 年 Point Pleasant 的凶杀案数量
如果您对犯罪感兴趣,FBI 犯罪数据浏览器就是您的不二之选。它提供了来自各种州组织(大学和地方执法机构)和政府(地方、地区和州级)的大量犯罪统计数据。提取有关仇恨犯罪、警官袭击、凶杀案等的数据。
与我们列表中的最后几项一样,它还包括一些有用的用户指南来支持数据导航。每个数据集还有一些非常不错的视觉细分和分析,因此您可以在下载之前查看它是否具有您想要的功能。
后续步骤Next steps
如果你和我们一样,光是浏览这些庞大的资料库就会浪费好几个小时。从古怪到毫无掩饰的极客,没有比这更好的证据来证明数据在我们生活中无处不在。
那么,找到数据集并进行分析后,你要做什么呢?如果你想将你的分析作为作品集的一个项目,你需要遵循一些步骤——你可以在本指南中了解如何构建数据分析作品集。
如果您对数据分析完全陌生,为什么不尝试一下免费的 5 天入门短期课程?您将获得该领域的实践介绍,并可以访问可操作的数据集。此外,如果您想了解有关在数据领域开创事业的更多信息,请查看以下内容:
- 我适合做数据分析师吗?
- 最佳在线数据分析课程
- 7 大顶级数据分析软件工具