Verwalten von Big Data Technologies in einer Hybrid Cloud

Der Begriff Große Daten

oft in der Welt hybrider Cloud-Technologie ist aufgrund der anhaltenden Bedarf verwendet, um zunehmende Datenmengen verarbeiten. Der Schlüssel Tatsache über große Daten ist, dass es an der Wendepunkt der Abhilfen gibt, die Organisationen historisch in Kraft gesetzt haben, große Mengen komplexer Daten zu verwalten. Große Datentechnologien ermöglichen es Menschen, um tatsächlich zu analysieren und diese Daten effektiv zu nutzen.

Große Datenmerkmale

Große Daten hat in der Regel drei Eigenschaften - Volumen, Vielfalt und Geschwindigkeit:

  • Volumen: Big Data ist in Volumen groß. Er bezieht sich im Allgemeinen auf mindestens mehrere Terabyte an Daten. Viele große Daten Implementierungen suchen Petabyte Informationen zu analysieren.

    NameWert
    Byte100
    Gigabyte109 Bytes
    Terabyte1012 Bytes
    Petabyte1015 Bytes
    Exabyte1018 Bytes
  • Vielfalt: Big Daten gibt es in verschiedenen Formen und Größen. Es umfasst die folgenden Arten von Daten:

  • Strukturierte Daten ist die typische Art von Daten, die Analysten auf den Umgang mit verwendet werden. Es enthält Umsatz und Anzahl der Verkäufe - die Art der Daten, die Sie darüber nachdenken, in einer Datenbank einschließlich. Strukturierte Daten werden auch auf neue Weise in Produkten wie Sensoren und RFID-Etiketten erzeugt wird.

  • Semistrukturierte Daten es hat eine gewisse Struktur, aber nicht in der Art und Weise denken Sie über Tabellen in einer Datenbank. Es enthält EDI-Formate und XML.

  • Unstrukturierte Daten enthält Text, Bild und Ton, einschließlich der Dokumente, E-Mail-Nachricht, tweeten sie, oder an ein Unternehmen oder im Internet internen Blog. Unstrukturierte Daten entfallen rund 80 Prozent aller Daten für.

  • Geschwindigkeit: Dies ist die Geschwindigkeit, mit der die Daten bewegt. Denken Sie über Sensoren Daten jede Millisekunde oder Datenströme Ausgabe von medizinischen Geräten zu erfassen. Big Daten kommt in einem Strom bei Ihnen oft, so hat es eine Echtzeit-Natur mit ihm verbunden ist.

  • Die Wolke ist ein idealer Ort für große Daten aufgrund seiner skalierbaren Speicher, Rechenleistung und elastische Ressourcen. Das Cloud-Modell ist großmaßstabs Distributed Computing und eine Reihe von Frameworks und Technologien entstanden sind, dieses Modell zu unterstützen, einschließlich

    • Apache Hadoop: Ein Open-Source verteilte Computing-Plattform in Java geschrieben. Es ist eine Software-Bibliothek, die Verarbeitung über Cluster von Computern verteilt werden können. Es ist wirklich ein verteiltes Dateisystem. Es schafft ein Rechnerpool, die jeweils mit einem Hadoop Dateisystem. Hadoop wurde mit großen Mengen an komplexen Daten zu beschäftigen ausgelegt. Die Daten können strukturiert, unstrukturierte oder semistrukturierte werden. Hadoop kann auf eine Vielzahl von Servern ausgeführt werden, die Speicher oder Datenträger nicht teilen. Sehen Hadoop für mehr Informationen.

    • Karte verkleinern: Ein Software-Framework von Google eingeführt zu unterstützen Computing auf große Datenmengen verteilt. Es ist das Herzstück dessen, was Hadoop ist Analytik mit großen Daten und Big Data zu tun. Es nutzt die Möglichkeiten von Cloud-Ressourcen zu nehmen. Diese Rechen wird in zahlreichen Computern durchgeführt, die so genannte Cluster, und jeder Cluster bezeichnet als Knoten. MapReduce können sowohl strukturierte als auch unstrukturierte Daten beschäftigen. Benutzer geben Sie eine Map-Funktion, die einen Schlüssel / Wert-Paar verarbeitet eine Reihe von Zwischenpaaren und eine Reduktionsfunktion zu erzeugen, die diese Paare geht.

    Große Daten Datenbanken

    Ein wichtiger Appell von Hadoop ist, dass es verschiedene Arten von Daten verarbeiten kann. Parallel Datenbank-Management-Systeme sind seit Jahrzehnten auf dem Markt. Sie können parallele Ausführung zu unterstützen, weil die meisten Tabellen über die Knoten in einem Cluster partitioniert sind, und sie können SQL-Befehle in einen Plan umzusetzen, die über die Knoten in dem Cluster unterteilt. Sie sind jedoch meist mit strukturierten Daten befassen, weil es schwer ist, unstrukturierte, Freiform-Daten in den Spalten und Zeilen in einer relationalen Modell passen.

    Hadoop ist eine Bewegung in gestartet, was genannt wurde NoSQL, nicht nur SQL bedeutet. Der Begriff bezieht sich auf eine Reihe von Technologien, die von relationalen Datenbanksystemen unterscheidet. Ein wichtiger Unterschied ist, dass sie nicht verwenden SQL. Sie sind auch für verteilte Datenspeicher ausgelegt.

    NoSQL bedeutet nicht, dass die Menschen sollten nicht SQL werden. Vielmehr ist die Idee, dass, je nachdem, was Ihr Problem ist, relationale Datenbanken und NoSQL-Datenbanken in einer Organisation koexistieren können. Es gibt zahlreiche Beispiele für diese Arten von Datenbanken, einschließlich der folgenden:

    • Apache Cassandra: Ein Open-Source verteilte Datenmanagement-System ursprünglich von Facebook entwickelt. Es hat keine strenge Strukturanforderungen, so kann es alle verschiedenen Arten von Daten verarbeiten. Experten behaupten, es zeichnet sich bei hoher Lautstärke, Echtzeit-Transaktionsverarbeitung. Andere Open-Source-Datenbanken umfassen MongoDB, Apache CouchDB und Apache HBase.

    • Amazon Simple DB: Amazon vergleicht diese Datenbank in eine Tabelle, dass es in jeder gespeicherten Spalten und Zeilen mit Attributen und Elementen hat. Im Gegensatz zu einer Tabelle, jedoch kann jede Zelle mehrere Werte haben, und jedes Element kann seinen eigenen Satz von zugeordneten Attribute. Amazon die Daten dann automatisch Indizes. Vor kurzem kündigte Amazon Amazon Dynamo DB als eine Möglichkeit, große Datenmengen NoSQL in die Cloud zu bringen.

    • Google BigTable: Dieser Hybrid ist so etwas wie ein großer Tisch. Da Tabellen groß sein können, sind sie an der Reihe Grenzen in Tabellen aufgeteilt, die Hunderte von Megabytes oder so sein könnte. MapReduce wird häufig zum Erzeugen und Ändern von Daten in BigTable gespeichert verwendet.

    Menü