Vergleicht man Hadoop Verteilungen

Sie werden feststellen, dass die Hadoop Ökosystem viele Bestandteile aufweist, die alle als ihre eigenen Apache-Projekte existieren. Da Hadoop ist deutlich gewachsen und steht vor einige erhebliche weitere Änderungen, verschiedene Versionen dieser Open-Source-Community-Komponenten möglicherweise nicht vollständig mit anderen Komponenten kompatibel sein. Dies stellt erhebliche Schwierigkeiten für Menschen auf der Suche eine unabhängige Start mit Hadoop zu erhalten, indem das Herunterladen und Projekte, die direkt von Apache kompilieren.

Red Hat ist für viele Menschen, das Modell, wie man erfolgreich Geld in der Open-Source-Software-Markt zu machen. Welche Red Hat getan hat, ist zu ergreifen, Linux (ein Open-Source-Betriebssystem), bündeln alle ihre erforderlichen Komponenten, einen einfachen Installer bauen und bezahlte Unterstützung zu allen Kunden zur Verfügung stellen.

In der gleichen Weise, dass Red Hat eine praktische Verpackung für Linux zur Verfügung gestellt hat, haben eine Reihe von Unternehmen gebündelt Hadoop und einige verwandte Technologien in ihre eigene Hadoop-Distributionen. Diese Liste beschreibt die mehr Prominente:

  • Cloudera: Der bekannteste Spieler auf dem Gebiet Vielleicht Cloudera ist in der Lage Doug Cutting, Hadoop Mitbegründer, als Chefarchitekt Anspruch. Cloudera wird von vielen Menschen als Marktführer in der Hadoop Raum gesehen, weil es die erste kommerzielle Hadoop Distribution veröffentlicht und es ist ein sehr aktiver Beitrag von Code in das Hadoop Ökosystem.

    Cloudera Enterprise ein von Cloudera positioniert Produkt in der Mitte von dem, was es fordert die # 147-Enterprise Data Hub, # 148- umfasst die Cloudera Verteilung für Hadoop (CDH), eine Open-Source-basierte Distribution von Hadoop und die damit verbundenen Projekte sowie seine proprietäre Cloudera-Manager. Ebenfalls enthalten ist eine technische Support-Abonnement für die Kernkomponenten von CDH.

    Cloudera primäre hat Geschäftsmodell lange basiert auf seiner Fähigkeit, seine beliebte CDH Verteilung zu nutzen und bezahlten Dienstleistungen und Unterstützung. Im Herbst 2013 kündigte Cloudera offiziell, dass es über das Hinzufügen von proprietären Value-Added-Komponenten auf der Open-Source-Hadoop als Unterscheidungsmerkmal zu wirken konzentriert.

    Auch hat Cloudera es eine gängige Praxis machte die Annahme von Alpha- und Beta-Ebene Open-Source-Code zu beschleunigen für die neuere Hadoop freigibt. Sein Ansatz ist es, Komponenten zu nehmen sie reif zu sein erachtet und nachrüsten sie in die bestehenden produktionsfertige Open-Source-Bibliotheken, die in ihrer Verteilung enthalten sind.

  • EMC: Pivotal HD die Apache Hadoop Distribution von EMC, integriert nativ Massively Parallel Processing (MPP) Datenbank-Technologie von EMC (früher als Greenplum bekannt, und jetzt als HAWQ bekannt) mit Apache Hadoop. Das Ergebnis ist eine hochleistungsfähige Hadoop Distribution mit echten SQL-Verarbeitung für Hadoop. SQL-basierte Abfragen und andere Business-Intelligence-Tools können verwendet werden, um Daten zu analysieren, die in HDFS gespeichert ist.

  • Hortonworks: Ein weiterer wichtiger Akteur in der Hadoop-Markt, hat Hortonworks die größte Anzahl von Committer und Code-Beiträgen für die Hadoop-Ökosystem-Komponenten. (Committer sind die Torwächter von Apache-Projekten und die Macht haben, Code-Änderungen zu genehmigen.)

    Hortonworks ist ein Spin-off von Yahoo !, die die ursprüngliche Unternehmens Fahrer des Hadoop-Projekt war, weil es eine groß angelegte Plattform benötigt, um seine Suchmaschine Geschäft zu unterstützen. Von allen Anbietern Verteilung Hadoop ist Hortonworks die am meisten für die Open-Source-Bewegung, bezogen auf das schiere Volumen der Entwicklungsarbeit für die Gemeinschaft beiträgt, und weil alle seine Entwicklungsanstrengungen sind (schließlich) in die Open-Source-Code-Basis gefaltet.

    Das Hortonworks Geschäftsmodell basiert auf seiner Fähigkeit, seine beliebte HDP Verteilung zu nutzen und bezahlten Dienstleistungen und Unterstützung. Allerdings ist es verkaufen keine proprietäre Software. Vielmehr unterstützt das Unternehmen mit Begeisterung die Idee der Gemeinschaft innerhalb der Open-Source-Arbeitslösungen zu entwickeln, die Unternehmen Feature Anforderungen adressieren (zB schnellere Abfrageverarbeitung mit Hive).

    Hortonworks hat mit etablierten Unternehmen in der Datenmanagement-Industrie eine Reihe von Beziehungen geschmiedet: Teradata, Microsoft, Informatica und SAS, zum Beispiel. Obwohl diese Unternehmen in-house Hadoop-Angebote nicht ihre eigenen, wirken sie zusammen mit Hortonworks integrierten Hadoop-Lösungen bieten mit ihrem eigenen Produkt-Sets.

    Die Hortonworks Hadoop-Angebot ist die Hortonworks Data Platform (HDP), die Hadoop sowie alle Werkzeuge und Projekte umfasst. Auch im Gegensatz zu Cloudera, gibt Hortonworks nur HDP-Versionen mit Produktionsebene Code aus dem Open-Source-Community.

  • IBM: Big Blue bietet eine Reihe von Hadoop-Angebote, mit dem Schwerpunkt um Wert auf dem Open-Source-Hadoop-Stack hinzugefügt.

  • Intel: Der Intel-Verteilung für Apache Hadoop (Intel Distribution) bietet Verarbeitung und Datenmanagement für Enterprise-Anwendungen verteilt, die große Datenmengen analysieren.

    Die wichtigsten Merkmale sind eine ausgezeichnete Leistung mit Optimierungen für Intel-Xeon-Prozessoren, Intel SSD-Speicher und Intel 10-GbE-Networking- Datensicherheit durch Verschlüsselung und Entschlüsselung in HDFS und rollenbasierte Zugriffskontrolle mit zell Ebene Granularität in HBase- Hive Abfrage leistungs- verbesserte Unterstützung für die statistische Analyse mit einem Anschluss für R, die populäre Open-Source-statistischen Paket- und analytischen Grafiken durch Intel Graph Builder.

  • MapR: Für eine komplette Distribution für Apache Hadoop und verwandten Projekten, die von der Apache Software Foundation, suchen Sie nicht weiter als MapR unabhängig ist. , Keine einzelne Fehlerquellen und erhebliche Einfachheit der Nutzung Vorteile keine Java-Abhängigkeiten oder das Vertrauen auf das Dateisystem Linux bestechende MapR wird als einzige Hadoop Distribution gefördert, die vollständige Datensicherheit bietet.

    Drei MapR Ausgaben sind erhältlich: M3, M5 und M7. Die M3 Edition ist kostenlos und für unbegrenzte Produktion Nutzungs- MapR M5 ist eine Zwischenebene Abonnement-Software-Offering und MapR M7 ist eine Komplett-Distribution für Apache Hadoop und HBase, der folgendes beinhaltet Schwein, Hive, Sqoop, und vieles mehr.

Menü