10 Schwellen Hadoop Technologies Sie Ihr Auge auf zu halten

Computer & Software / Große Daten / Datenmanagement

Mit Hadoop Mainstream trifft IT mit aller Macht, Open-Source-Projekte zu Hadoop im Zusammenhang tauchen überall. Hier sind die Top-Ten interessantesten aufstrebenden Hadoop-Projekte für Sie im Auge zu behalten. Einige von ihnen könnten auch stagnieren und sterben leise, wenn ein überlegener Ersatz zu kommen waren, aber die meisten dieser evolutionären Proben werden wahrscheinlich Standardkomponenten in den meisten Hadoop-Distributionen werden.

Accumulo
Bohren
Falke
Giraph

Knox-gateway
Samza
Posten
Funke

Sturm
Tez

Diese Liste konzentriert sich auf die Community-Projekte Apache, weil dieses Ökosystem derjenige gewesen ist, wo die Mehrheit der bestehenden Mainstream-Hadoop-Projekte entwickelt und gewartet werden. Außerdem haben Apache-Projekte solide Governance-Kriterien, die eine offene Entwicklungsprozess, wenn die Beiträge von ihren Mitgliedern beurteilt werden auf ihre technische Qualität und nicht auf einer Unternehmensagenda fördern.

Accumulo

Apache Accumulo ist ein Datenspeicherprojekt für Hadoop, ursprünglich entwickelt von der National Security Agency (NSA) der Regierung der Vereinigten Staaten. Accumulo ist eine BigTable Implementierung für Hadoop. Insbesondere ist Accumulo ein multidimensionales sortiert Karte, wobei jede Zeile einen eindeutigen Schlüssel hat, werden die Zeilen in sortierter Reihenfolge auf diesem Schlüssel basiert gespeichert, und jede Zeile mehrere Versionen (mit anderen Worten, Abmessungen) haben kann.

Es gab viel Interesse an der NSA bei der Verwendung HBase als großen Datenspeicher, aber es hat nicht die internen Sicherheitsanforderungen der NSA erfüllen. NSA Ingenieuren gebaut Accumulo dann als ihre eigene BigTable Umsetzung und später trug es zur Gemeinschaft Apache. Das Accumulo Projekt hat seit eine aktive Entwickler-Community gewachsen, mit Beiträgen aus einer Reihe von verschiedenen Organisationen - nicht nur NSA-Typen, mit anderen Worten. Accumulo, nun durch eine Reihe von großen Hadoop-Anbieter unterstützt wird, sieht eine zunehmende Akzeptanz.

Das Hauptmerkmal Accumulo von anderen BigTable Implementierungen unterscheiden ist zellbasierte Sicherheit, dadurch wird gewährleistet, dass nur autorisierte Benutzer auf die in allen abgefragten Zeilen gespeicherten Daten sehen können. Dies wird durch die Art und Weise von Sicherheitsetiketten implementiert, die mit jeder Zeile gespeichert sind.

Bohren

Eine Reihe von Schwellen- und konkurrierenden Technologien sind da draußen versuchen, die SQL-on-Hadoop Problem zu lösen. Obwohl die meisten dieser Technologien Single-Unternehmen Lösungen sind, sind einige von ihnen Gemeinschaft angetrieben, mit Hive das prominenteste Beispiel. Apache Drill wird von der Google Dremel Papier inspiriert, die einen Entwurf für ein interaktives System präsentiert, die Daten, die in einem verteilten Dateisystem wie HDFS abfragen können und müssen nicht auf MapReduce verlassen. Das Konstruktionsziel für Bohrer ist in der Lage zu sein, um Tausende von Servern zu skalieren und subminute Ansprechzeiten für Abfragen, die gegen petabyte angelegten Daten.

Ab Frühjahr 2014 ist Drill noch ein Projekt Apache Inkubator, was bedeutet, dass es noch nicht als vollwertiger Apache-Projekt angenommen wurde und wird immer noch eine stabile Codebasis und Projektsteuerung zu etablieren. Aber es hat ein großes Potenzial, so seien Sie nicht überrascht, wenn es seinen Weg macht bald aus dem Inkubator.

Falke

Mit der zunehmenden Integration von Hadoop in Data-Warehousing-Umgebungen wird die Industrie einen erheblichen Bedarf für Datenintegration und Governance-Funktionen in Hadoop zu sehen. Aktuelle Ansätze für die Daten und die Erfüllung Governance-Kriterien Integration beinhalten diese zwei Möglichkeiten:

Kaufen Sie solche Werkzeuge von etablierten Anbietern wie IBM und Informatica.
Schreiben Sie umfangreiche Bibliotheken mit benutzerdefinierten Code.

Dies ist, was die Apache Falcon-Projekt mit einer Reihe von Datenmanagement-Services speziell für Hadoop gebaut ansprechen will. Wie Drill ist Falcon ein Apache-Inkubator-Projekt.

Die Datenmanagement-Services in Falcon sind in erster Linie konzentriert sich auf die Datenbewegung Verwaltung und Datentransformation. Wenn Sie nicht vertraut sind mit den Daten zwischen transaktionalen Datenbanken und Warehouse-Datenbanken verwalten, dieser Prozess der Datenbewegung und Transformation wird als Extrakt allgemein bekannt, Transformieren und Laden (ETL). Als Teil des Rahmens für die ETL-Prozesse Handhabungs umfasst Falcon die Fähigkeit Metadaten für die Daten zu speichern, wie es durch die verschiedenen ETL Stufen geleitet wird. Falcon kann dann bieten Dienstleistungen für Daten-Lifecycle-Management (zum Beispiel Aufbewahrungsrichtlinien ausgeführt wird), Datenreplikation, und Tracking-Daten Linie.

Giraph

Hadoop ist recht gut in die Speicherung und Verarbeitung von Daten in traditionellen Tabellen (Hive) und in der neueren, BigTable Stil (HBase und Accumulo), aber in vielen Fällen sind alternative Datenspeicherstrukturen besser geeignet für die Aufgabe in der Hand. Graph Daten sieht ganz anders aus Tabellendaten: Es hat keine Zeilen oder Spalten. Es ist einfach ein Diagramm, in dem einzelnen Knoten (auch bekannt als Eckpunkte) Sind miteinander durch Kanten verbunden.

Denken Sie daran: Eine große technische Herausforderungen, die Google zugewandt ist, herauszufinden, wie man am besten das Ranking der Suchergebnisse zu berechnen. Ein Faktor dabei ist die Bestimmung, wie beliebt einzelne Webseiten sind, je nachdem, wie viele eingehende Links von anderen Webseiten stammen. Bei weitem die meisten praktischen Weg, dies für alle Seiten zu berechnen, ist das gesamte World Wide Web als Diagramm darstellen, wo die Seiten sind die Knoten und die Verbindungen die Eckpunkte sind. Um die Graph-Datenbank Arbeit erfassen, veröffentlichte Google ein Papier auf seiner Graph-Datenbank, die Pregel gestattet.

Apache Giraph, ein Graph-Processing-Engine, die auf dem Pregel Papier basiert und wurde speziell für Hadoop gebaut, können die Daten aus einer Reihe von Standard-Hadoop Quellen lesen und zu schreiben, einschließlich Hive, HBase und Accumulo.

Die Giraph Gemeinde ist recht groß und vielfältig, mit Code-Committer aus einer Reihe von Organisationen, darunter Facebook, Twitter und LinkedIn. Giraph fest als führende Graph Processing Engine für Hadoop, befindet sich in Form von Code-Reife, Leistung und Annahme. Wichtige Hadoop-Anbieter unterstützen jetzt Giraph und schließt es wahrscheinlich. (Der Apache BigTop Projekt bereits tut.)

Knox-Gateway

Als verteiltes System mit Hunderten oder Tausenden von einzelnen Computern, sind Hadoop Cluster der Alptraum eines Sicherheitsadministrator. Erschwerend kommt hinzu, werden alle Rechenknoten in einem Hadoop-Cluster haben mehrere Dienste, die miteinander und in einigen Fällen zu sprechen, erfordern eine direkte Verbindung mit Client-Anwendungen. Addieren Sie alle diese Faktoren und Sie haben eine massive Oberfläche von Computern mit offenen Ports, die Sie schützen müssen. Um dieses Problem zu lösen, hat Hortonworks den Apache-Knox-Gateway-Projekt gestartet, das noch als Apache-Inkubator-Projekt in seinen frühen Tagen ist.

Das Hauptziel von Knox Gateway ist Perimeter-Sicherheit für Hadoop-Cluster zur Verfügung zu stellen. Dies wird durch einen zentralen Punkt für die Cluster-Authentifizierung auf dem Rand eines Hadoop Cluster bereitstellt. Außerhalb der Cluster selbst, Griffe Knox-Gateway alle eingehenden Client-Anfragen zu einem Cluster sie bewacht und leitet dann gültigen Anforderungen an den entsprechenden Dienst im Cluster Hadoop. In diesem Sinne ist Knox-Gateway wahrsten Sinne des Wortes ein sicheres Gateway für die gesamte Kommunikation zwischen dem Hadoop-Cluster und der Außenwelt. Knox Gateway ermöglicht Netzwerkadministratoren die Hadoop-Cluster von der Außenwelt zu isolieren, denn solange die Knox-Gateway-Server aktiv sind, Kunden eine sichere Verbindung zu ihren Hadoop Dienstleistungen.

Samza

Ein spannender Aspekt von GARN ist die Möglichkeit, verschiedene Arten von Workloads auf einem Hadoop Cluster ausgeführt wird. Mit MapReduce sind Sie auf Batch-Verarbeitung beschränkt, sondern mit neuen Technologien wie Funken und Tez (was wir über unten sprechen) und die zuvor genannte Drill, wird Hadoop der Lage sein, zu unterstützen, als auch interaktive Abfragen. Eine andere Klasse von Arbeitsbelastung ist Streaming-Daten, das ist, was die Apache Samza Projekt angehen will. (Streaming-Daten arbeitet Daten in Echtzeit zu verarbeiten, anstatt auf der zu verlassen, Stop-and-go-Aspekt der Batch-Verarbeitung.)

Das Samza Projekt wurde von den Ingenieuren von LinkedIn gestartet, die ein Streaming-Daten-Engine benötigt. Anstatt ihren Code halten in-house, LinkedIn Ingenieure Samza in der Open-Source-Apache-Community entwickeln. Zum Zeitpunkt des Schreibens dieses Artikels ist Samza noch in seinen frühen Tagen als Apache-Inkubator-Projekt. Obwohl andere Streaming-Daten-Motoren (wie Spark-Streaming und Sturm, siehe unten) bestehen, entschied sich das LinkedIn-Team seine eigene Maschine zu bauen, die seinen Anforderungen am besten passen würde.

Posten

Der Abschnitt über die Knox Gateway-Projekt oben verfügt über einige der Herausforderungen im Sicherheitsbereich mit Hadoop. Obwohl Knox Gateway-System Autorisierungsadressen (um sicherzustellen, dass Benutzer erlaubt sind, zum Hadoop Clusters Dienste anzuschließen), ist es nicht die dringende Notwendigkeit der Datenberechtigungs adressieren, wo es Geschäftsanforderungen für den Zugriff auf Teilmengen von Daten zu beschränken. Ein typisches Beispiel ist die Notwendigkeit, Tabellen zu verbergen, die sensible Daten wie Kreditkartennummern von Analysten für Verhaltensmustern suchen enthalten. Der Apache-Sentry Projekt wurde von Cloudera als eine Möglichkeit, begann diese Art der Zugriffskontrolle zur Verfügung zu stellen, um Daten, die in seinem Impala-Projekt und in Hive. Ab Frühjahr 2014 ist Sentry ein Apache-Inkubator-Projekt.

Sentry führt das Konzept der verschiedenen Klassen Benutzerrolle zu Hadoop, während die Klassifizierung der Datenbestände in Impala oder Hive ermöglicht. Je nach der Klassifizierung, die in der Datenbank, Tabelle oder Ansichtsebene angewendet wird, können nur Benutzer mit den entsprechenden Rollen der Lage wäre, auf Daten zuzugreifen.

Funke

Der Apache-Spark-Projekt wurde schnell ein bekannter Name (zumindest in Hadoop Haushalte) im Jahr 2014, wenn es sich um eine Top-Level-Apache-Projekt wurde (was bedeutet, dass es aus Inkubator Status abgestuft) und eine Reihe von Hadoop Vertriebsgesellschaften aufgereiht Unterstützung bekannt zu geben. Spark, als Cluster-Computing-Framework, ist ein weiteres Projekt, das das enorme Potenzial GARN ist die Realisierung bringt Frameworks bei der Unterstützung verschiedener Datenverarbeitung zu Hadoop.

Funke wurde ursprünglich von den Forschern von der UC Berkeley entwickelt, der das Unternehmen Databricks im Jahr 2013 zurück erstellt es zu vermarkten, schnell $ 14.000.000 in Venture-Capital-Finanzierung zu gewinnen.

Die Aufregung um Funken kommt von seiner relativen Einfachheit im Vergleich zu MapReduce und seine viel größere Flexibilität für das Streaming und interaktive Workloads. In weiteren Gegensatz zu MapReduce Spark hat seine Datenverarbeitung im Arbeitsspeicher, was erhebliche Leistungsvorteile ergibt. Zur gleichen Zeit kann es größere Datenmengen verarbeiten, die von der Festplatte nicht in den Speicher passen, aber es gibt immer noch Leistungsvorteile, da Funken müssen nicht auf MapReduce des starren Karte anhaften und reduzieren Zyklen, die oft nicht optimal sind für viele Algorithmen.

Als allgemeine Rahmen, hat Funke eine Reihe von Kinderprojekten für speziellere Datenverarbeitung: Spark-Streaming für das Streaming von Echtzeitdaten feeds- Hai, für interaktive SQL queries- Machine Learning Library (MLlibfür) Maschine lern- und GraphX für Graph Verarbeitung.

Sturm

Apache Storm ist die dritte Streaming-Daten-Analyse-Engine in diesem Artikel behandelt (mit Samza und Spark-Streaming wie die beiden anderen), das ist ein Beweis dafür, wie viel Aufmerksamkeit Echtzeit-Analysen in der Hadoop-Community zu bekommen. Aber diese unterschiedlichen Ansätze gibt auch Hinweise darauf, dass es noch zu früh in der Evolution der Datenanalyse-Streaming auf Hadoop, weil keines dieser drei hat als Marktführer entstanden. Sturm hat ein aktives Projekt der längste, der Open Source-Gemeinschaft gespendet worden, nachdem sie von Twitter im Jahr 2011 Sturm erworben wird nun ein Apache-Inkubator-Projekt.

Dank von Hortonworks Entwickler zu arbeiten, die es in die Apache-Community gebracht wurde Sturm nachgerüstet mit dem GARN Rahmen zu arbeiten. Dies brachte Sturm in den Hadoop-Ökosystem als Verarbeitungs alternative Echtzeit.

Tez

Ähnlich dem, was mit Streaming-Datenanalyse Motoren geschieht, wurden eine Reihe von Alternativen mit MapReduce entstanden für interaktive verteilte Verarbeitung. Spark ist ein prominentes Beispiel dieser Frameworks. Die andere führende Beispiel eines solchen Rahmens ist Apache Tez, die weitgehend von Hortonworks angetrieben wird.

Die Hortonworks Lösung für das SQL-on-Hadoop Herausforderung ist Hive zu verbessern. Um dieser Herausforderung zu begegnen, kündigte Hortonworks seine Stinger-Initiative, die eine Reihe von Änderungen an Hive beteiligt sind, eine bessere Unterstützung für die ANSI SQL-Standards und deutlich verbesserte Performance mit. Eine wichtige Einschränkung in Hive ist seine Abhängigkeit von MapReduce für die Verarbeitung von Abfragen. MapReduce ist in seiner Fähigkeit beschränkt, mit gemeinsamen SQL-Operationen wie Verknüpfungen und Gruppen bys zu beschäftigen, die in extrem schlechte Leistung führt im Vergleich zu den massiv parallelen relationalen Datenbank Alternativen zu einem vergleichbaren großen Maßstab ausgeführt wird. Hortonworks kündigte die Tez Projekt einen alternativen Rahmen zu MapReduce zu präsentieren, die für mehr optimal (und flexible) Datenverarbeitungsmöglichkeiten optimiert. Tez wird auch als das zugrunde liegende Framework für Schwein verwendet werden.