10 Öffentliche Datensammlungen und wo sie zu finden sind

Öffentliche Datensätze sind sehr große Datenmengen, die zu jedem Download für Sie frei verfügbar sind oder eine Verbindung zu über die Cloud. Es gibt mehrere gut kuratierte Webseiten mit den neuesten Informationen über öffentliche Datensätze und wie sie verwendet werden, einschließlich der folgenden:

  • Amazon Web Services: Es gibt derzeit 56 öffentliche Datensätze mit Wohnsitz auf Amazon Web Services für die Öffentlichkeit zugänglich.

  • Open Science Data Cloud: Die Open Science Data Cloud ist ein Konsortium gefördert von der Gordon und Betty Moore Foundation, Yahoo !, CISCO und der National Science Foundation.

  • Große Daten-Anfang: BigData-Startup ist eine Online-Ressource für alle Dinge, große Datenmengen. Diese Liste enthält eine lange Liste von Organisationen, die öffentliche Datensätze hosten.

Es gibt alle Arten von Datensätzen aus Genomprojekten zu sortieren, um E-Mails von notorischen Unternehmen zu weblogs. Hier sind zehn öffentliche Datensätze und wo können Sie loslegen gehen zu:

  • 1000-Genom-Projekt (200 TB): Das 1000-Genom-Projekt wird von Amazon und dem National Center for Biotechnology Information gefördert. Dieser Datensatz enthält Datensätze von mehr als 2.600 Menschen aus 26 verschiedenen Populationen aus der ganzen Welt.

  • Gesamtgenomen Public Data (50 TB): Dies ist sequenzierten Genom-Daten von Complete Genomics, ein Unternehmen, das der Genomsequenzierung zur Verfügung stellt.

  • Earth Observing-1 Mission (80.5TB): Die NASA hat die Vogelperspektive der Erde eröffnet. Dies ist gesammelten Daten durch die Advanced Land Imager (ALI). Diese Daten können verwendet, besser zu verstehen, wie die Erde Ereignisse wie Vulkane, Waldbrände und Überschwemmungen im Laufe der Zeit entwickeln und beeinflussen unseren Planeten.

  • Gemeinsame Crawl Corpus (541TB): Haben Sie jemals Ihre Hände auf Crawl-Daten für Milliarden von Webseiten mit Billionen von Links zu erhalten wollte? Hier ist Ihre Chance. Das Common Crawl Corpus bietet eine breite Palette an Tools, Beispiele und Projekte, die Sie in heute springen können.

  • Marvel Universe Social Graph (1 GB): Dies ist ein Spaß Blick auf die soziale Verbundenheit der Marvel Welt der Zeichen. Die Gründer behaupten, dass die Analyse dieser sozialen Welt in unseren eigenen bemerkenswert nahe ist.

  • Enron E-Mails (210GB): Diese E-Mails - alle 1,2 Millionen mit fast 500.000 Anlagen - wurden als Teil der Federal Energy Regulatory Commission Untersuchung in die berüchtigte Firma veröffentlicht.

  • Million Song-Beispieldatensatz (500 GB): Suchen Sie Datensätze auf eine Million populäre Songs? Suchen Sie nicht weiter. The Million Song-Datensatz enthält einige Audio-Funktionen und Metadaten für eine Million populäre Lieder.

  • Project Gutenberg (742GB): Project Gutenberg macht mehr als 46.000 Bücher für die Analyse verfügbar. Diese Bücher sind jetzt auf der public domain, weil ihr Copyright abgelaufen sind.

  • US-Volkszählung Datensätze (1,8 TB): Alle zehn Jahre müssen die Vereinigten Staaten eine Zählung nehmen. Der Hauptzweck ist das angemessene Verteilung der Sitze im Kongress zu gewährleisten.

  • NOAA National Climatic Data Center (3,3 TB): Nicht in die globale Erwärmung oder Klimawandel glauben? Bestätigen Sie es (oder ungültig machen es) selbst. Dieser Datensatz enthält Daten über mehr als 150 Jahre Wetter aus vielen Quellen im Bereich von Wetterstationen zum Flughafen Lesungen Satellitendaten.

    Sie können Dinge wie Taupunkte aussehen, Windgeschwindigkeit und Temperatur. Es kann zwischen diesem Datensatz für Korrelationen zu suchen und die Million Song-Probe interessant sein. Gibt es einen Zusammenhang zwischen Wetter und Hits? Klingt wie eine große Daten Frage für jemanden zu beantworten. . . .

Menü