Wie ein Hadoop Distribution wählen

Kommerzielle Hadoop-Distributionen verschiedene Kombinationen von Open-Source-Komponenten von der Apache Software Foundation bieten und anderswo - die Idee ist, dass die verschiedenen Komponenten in einem einzigen Produkt integriert wurden, können Sie sich die Mühe zu sparen, die Ihren eigenen Satz von integrierten Komponenten zu montieren. Zusätzlich zu Open Source Software bieten Anbieter typischerweise proprietäre Software, Support, Beratung und Schulung.

Wie gehen Sie über eine Hadoop Distribution von den zahlreichen Optionen wählen, die verfügbar sind? Wenn es um die Einrichtung Ihrer eigenen Umgebung kommt, bist du derjenige, der entscheiden muss, und diese Wahl sollten Sie die beste Entscheidung möglich machen entworfen, um auf eine Reihe von Kriterien beruhen, zu helfen.

Nicht alle Hadoop-Distributionen haben die gleichen Komponenten (obwohl sie alle Hadoop Kernfähigkeiten haben), und nicht alle Komponenten in einer bestimmten Verteilung sind kompatibel mit anderen Distributionen.

Die Kriterien für die am besten geeignete Verteilung der Auswahl kann als dieser Reihe wichtiger Fragen artikuliert werden:

  • Was wollen Sie mit Hadoop zu erreichen?

  • Wie können Sie Hadoop nutzen Unternehmen Einblick zu gewinnen?

  • Welche Business-Probleme wollen Sie lösen?

  • Welche Daten werden analysiert?

  • Sind Sie bereit, proprietären Komponenten zu verwenden, oder bevorzugen Sie Open-Source-Angeboten?

  • Ist die Hadoop-Infrastruktur, die Sie erwägen, flexibel genug für alle Anwendungsfälle?

  • Welche vorhandenen Tools werden Sie mit Hadoop zu integrieren?

  • Sie Ihre Administratoren Management-Tools benötigen? (Hadoop Kern Distribution enthält keine Verwaltungstools.)

  • Wird das Angebot Sie sich entscheiden können Sie ein anderes Produkt ohne Hindernisse wie Vendor Lock-in zu bewegen? (Anwendungscode, gespeichert zu anderen Distributionen oder Daten in proprietären Formaten nicht übertragbar ist repräsentieren gute Beispiele für Lock-in).

  • Wird die Verteilung Sie erwägen, Ihre zukünftigen Anforderungen gerecht zu werden, soweit Sie diese Bedürfnisse frühzeitig zu erkennen sind in der Lage zu?

Ein Ansatz zum Vergleich Verteilungen ist eine zu erstellen Feature-Matrix - eine Tabelle, die die Spezifikationen und Funktionen der einzelnen Vertriebsinformationen Sie erwägen. Ihre Wahl kann dann abhängig von der Menge von Features und Spezifikationen, die die Anforderungen rund um Ihre spezifischen Geschäfts Probleme am besten anspricht.

Auf der anderen Seite, wenn Ihre Anforderungen umfassen das Prototyping und Experimentieren, um die neuesten offiziellen Apache-Hadoop-Distribution auszuwählen könnte sich als der beste Ansatz zu sein. Die jüngsten Veröffentlichungen haben sicherlich die neuesten spannendsten Features, aber wenn man die Stabilität wollen Sie nicht wollen, Aufregung. Für Stabilität, suchen Sie nach einem älteren Release-Zweig, der einige inkrementelle Releases zur Verfügung zu haben lange genug gewesen ist (diese enthalten in der Regel Fehlerkorrekturen und kleinere Features).

Jedes Mal, wenn Sie denken über Open-Source-Hadoop-Distributionen, geben einem Moment des Nachdenkens (oder vielleicht viele Momente 'Gedanken) auf das Konzept der Open-Source-Treue - das Ausmaß, in dem eine bestimmte Verteilung ist kompatibel mit den Open-Source-Komponenten, auf denen es abhängt. High Fidelity erleichtert die Integration mit anderen Produkten, die mit diesen Open-Source-Komponenten kompatibel sein sollen. Low Treue? Nicht so viel.

Die Open-Source-Ansatz für die Software-Entwicklung selbst ist ein wichtiger Teil Ihrer Hadoop plant, weil es die Kompatibilität mit einer Vielzahl von Tools von Drittanbietern fördert, die Sie in Ihrem eigenen Hadoop Einsatz nutzen können. Die Open-Source-Ansatz ermöglicht es auch einen Eingriff mit dem Community Apache Hadoop, die Sie, wiederum gibt die Möglichkeit, in einen tieferen Pool von Fähigkeiten zu erschließen und Innovation Ihre Hadoop Erfahrung zu bereichern.

Da Hadoop ein schnell wachsendes Ökosystem ist, weiterhin einige Teile, um zu reifen, wie die Community Werkzeugindustrie Anforderungen gerecht zu werden entwickelt. Ein Aspekt dieser Entwicklung ist bekannt als Backporting, wo Sie sich bewerben eine neue Software-Modifikation oder Patch auf eine Version der Software, die als die Version älter ist, auf die der Patch angewendet werden kann.

Ein Beispiel dafür ist NameNode Failover: Diese Fähigkeit ist ein Teil von Hadoop 2, wurde aber zurückportiert (in der Beta-Form) durch eine Anzahl von Verteilungen in ihre Hadoop-1-basierte Angebote für so viel wie ein Jahr vor Hadoop 2 allgemein verfügbar wurde.

Nicht greift jede Distribution aktiv an neuen Inhalten in gleichem Maße zurückportiert werden, obwohl die meisten tun es für Elemente wie Fehlerkorrekturen. Wenn Sie eine Produktionslizenz für bleeding-edge-Technologie wollen, ist dies sicherlich ein optional für Stabilität, aber es ist keine gute Idee.

Die Mehrheit der Hadoop-Distributionen enthalten proprietären Code von einer Art, die in Form von Installateuren und eine Reihe von Management-Tools häufig kommt. Diese Verteilungen ergeben sich in der Regel aus verschiedenen Geschäftsmodellen.

Zum Beispiel kann ein Geschäftsmodell auf diese Weise zusammengefasst werden: # 147-Stellen Sie sich als Open-Source-Pionier und Marktführer, Markt Ihr Unternehmen als das beste Know-how hat, und zu verkaufen, dass Know-how als Dienstleistung an. # 148- Red Hat, Inc. ist ein Beispiel für einen Anbieter, der dieses Modell verwendet.

Im Gegensatz zu diesem Ansatz, die Umarmung-und-verlängern Geschäftsmodell-Anbieter den Aufbau der Kapazitäten, die die Funktionen von Open-Source-Software erweitern. MapR und IBM, die sowohl alternative Dateisysteme auf die Hadoop Distributed File System bieten (HDFS), sind gute Beispiele.

Die Menschen werfen manchmal fälschlicherweise die # 147-Gabel # 148- Label an diesen Innovationen, die Verwendung von Jargon von Software-Programmierern verwendet machen Situationen zu beschreiben, wo jemand eine Kopie eines Open-Source-Programm als Ausgangspunkt für ihre eigenen (unabhängigen) Entwicklung nimmt.

Die alternativen Dateisysteme von MapR und IBM sind ganz andere Dateisysteme, nicht eine Gabel des Open-Source-HDFS. Beide Unternehmen ermöglichen, ihre Kunden entweder ihre proprietären verteilte Dateisystem oder HDFS zu wählen. Dennoch ist in diesem Ansatz Kompatibilität ist von entscheidender Bedeutung, und der Verkäufer muss sich entwickelnden Schnittstellen auf dem Laufenden bleiben. Kunden müssen wissen, dass die Hersteller geltend gemacht werden können, ihre Erweiterungen zu unterstützen.

Menü