Schicht 3 des Big Data Stack: Organisieren Data Services und Werkzeuge

Organisieren von Daten-Services und Tools, Schicht 3 des großen Datenstapel, zu erfassen, validieren und verschiedenen großen Datenelemente in kontextuell relevante Sammlungen zusammenstellen. Da große Daten massiv, haben Techniken entwickelt, um die Daten effizient und nahtlos zu verarbeiten. MapReduce ist eine stark verbreitete Technik. Es genügt hier zu sagen, dass viele dieser Organisation Datendienste sind MapReduce-Motoren, speziell entwickelt, um die Organisation von großen Datenströme zu optimieren.

Organisieren Datendienste sind in Wirklichkeit ein Ökosystem von Werkzeugen und Technologien, die verwendet werden können, zu sammeln und zu montieren Daten in Vorbereitung für die weitere Verarbeitung. Als solche müssen die Werkzeuge Integration, Übersetzung, Normalisierung und Skalierung bieten. Technologies in dieser Schicht gehören die folgenden:

  • Ein verteiltes Dateisystem: Notwendig, um die Zersetzung von Datenströmen aufzunehmen und das Ausmaß und Speicherkapazität zur Verfügung zu stellen

  • Serialisierung Dienstleistungen: Notwendig für die dauerhafte Datenspeicherung und mehrsprachiger Remote Procedure Calls (RPCs)

  • Koordination Dienstleistungen: Notwendig für verteilte Anwendungen Aufbau (Verriegelung und so weiter)

  • Extrahieren, Transformieren und Laden (ETL) Werkzeuge: Notwendig für die Be- und Umsetzung von strukturierten und unstrukturierten Daten in Hadoop

  • Workflow-Dienste: Notwendig für Arbeitsplätze planen und eine Struktur für die Synchronisierung von Prozesselementen in Schichten Bereitstellen

Menü