Ändern Business Intelligence-Produkte zu Big Data Griff

Traditionelle Business Intelligence-Produkte wurden nicht wirklich entworfen großen Daten zu handhaben, so dass sie einige Änderungen erforderlich. Sie wurden entwickelt, um mit stark strukturierten, gut verstandene Daten zu arbeiten, oft in einer relationalen Daten-Repository gespeichert und auf Ihrem Desktop oder Laptop-Computer angezeigt. Dieses traditionelle Business-Intelligence-Analyse ist in der Regel auf Schnappschüsse von Daten angewendet und nicht die gesamte Datenmenge zur Verfügung. Was ist anders mit großen Datenanalyse?

Große Daten Daten

Big-Daten bestehen aus strukturierten, semi-strukturierten und unstrukturierten Daten. Sie haben oft eine Menge davon, und es kann sehr komplex sein. Wenn Sie denken, es zu analysieren, müssen Sie sich der möglichen Eigenschaften Ihrer Daten zu sein:

  • Es kann aus nicht vertrauenswürdigen Quellen stammen. Große Datenanalyse beinhaltet oft Daten aus verschiedenen Quellen aggregiert werden. Diese können sowohl interne als auch externe Datenquellen umfassen. Wie vertrauenswürdig sind diese externen Informationsquellen? Zum Beispiel, wie vertrauenswürdig ist Social-Media-Daten wie einem Tweet? Die Informationen können von einer nicht bestätigten Quelle kommen werden. Die Integrität dieser Daten müssen in der Analyse berücksichtigt werden.

  • Es kann schmutzig sein. Schmutzige Daten beziehen sich auf ungenaue, unvollständige oder fehlerhafte Daten. Dies kann die falsche Schreibweise von Wörter-Sensor umfassen, der gebrochen ist, nicht richtig kalibriert ist, oder in einem Weg- oder sogar duplizierten Daten beschädigt. Daten Wissenschaftler Debatte darüber, wo die Daten zu reinigen - entweder in der Nähe der Quelle oder in Echtzeit.

    Natürlich, sagt eine Schule des Denkens, dass die schmutzigen Daten sollten nicht gereinigt werden, da es interessante Ausreißer enthalten. Die Strategie der Reinigung wird wahrscheinlich abhängig von der Quelle und Art der Daten und das Ziel der Analyse. Zum Beispiel, wenn Sie einen Spam-Filter sind zu entwickeln, das Ziel ist, die schlechten Elemente in den Daten zu erkennen, so dass Sie nicht um es zu reinigen wollen.

  • Das Signal-Rausch-Verhältnis gering sein. Mit anderen Worten, das Signal (verwertbare Informationen) kann nur ein winziger Prozent der Daten- das Rauschen der Rest ist. Die Möglichkeit, ein winziges Signal von verrauschten Daten zu extrahieren, ist ein Teil des Nutzens von Big Data Analytics, aber Sie müssen sich bewusst sein, dass das Signal in der Tat klein sein kann.

  • Es kann in Echtzeit sein. In vielen Fällen werden versuchen, Sie in Echtzeit-Datenströme zu analysieren.

Big Data Governance wird ein wichtiger Teil der Analytik Gleichung zu sein. Unter Business Analytics, müssen Verbesserungen Governance-Lösungen gemacht werden, um die Richtigkeit zu gewährleisten, von den neuen Datenquellen kommen, vor allem, da es in einem Lager aufbewahrt mit vorhandenen vertrauenswürdigen Daten kombiniert wird. Datensicherheit und Datenschutzlösungen müssen auch in neue Technologien gespeichert große Datenmengen zu unterstützen, die Verwaltung / regeln verbessert werden.

Analytische große Daten Algorithmen

Wenn Sie große Datenanalyse schätzen, müssen Sie sich bewusst sein, dass, wenn Sie über den Desktop hinaus zu erweitern, müssen die Algorithmen Sie häufig verwenden, um sein Refactoring, den internen Code zu ändern, ohne seine externe Funktion zu beeinträchtigen. Die Schönheit einer großen Dateninfrastruktur ist, dass Sie ein Modell ausführen können, die Stunden oder Tage in Minuten früher.

Auf diese Weise können Sie auf den Modell hunderte Male über laufen. Wenn Sie jedoch sind eine Regression auf eine Milliarde Zeilen von Daten in einer verteilten Umgebung ausgeführt wird, müssen Sie die Ressourcenanforderungen an die Datenmenge und die Lage im Cluster im Zusammenhang zu betrachten. Ihre Algorithmen müssen Daten bewusst sein.

Darüber hinaus beginnen Anbietern neue Analysen zu bieten entworfen nahe Quellen zu den großen Daten platziert werden Daten an Ort und Stelle zu analysieren. Dieser Ansatz der Analytik näher an den Datenquellen minimiert die Menge an gespeicherten Daten ausgeführt wird, indem nur die hochwertigen Daten erhalten bleiben. Es ist hier können Sie auch früher um die Daten zu analysieren, die für Echtzeit-Entscheidungsfindung kritisch ist.

Natürlich wird Analytik weiterentwickeln. Zum Beispiel können Sie in Echtzeit Visualisierungsfunktionen benötigen Echtzeitdaten angezeigt werden, die sich ständig verändert. Wie zeichnen Sie praktisch eine Milliarde Punkte auf einem Graphen Grundstück? Oder wie wollen Sie mit den prädiktiven Algorithmen arbeiten, so dass sie durchführen schnell genug und tief genug Analyse einer ständig wachsenden, komplexen Datensatz zu nutzen? Dies ist ein Bereich aktiver Forschung.

Große Dateninfrastruktur Unterstützung

Es genügt zu sagen, dass, wenn Sie sich für eine Plattform suchen, um es zu erreichen muss die folgende:

  • Integrieren Technologien: Die Infrastruktur muss neue große Datentechnologien mit herkömmlichen Technologien integrieren zu können, alle Arten von großen Datenmengen zu verarbeiten und sie durch traditionelle Analytik machen konsumierbar.

  • Speichern große Mengen an unterschiedlichen Daten: Ein Unternehmen gehärteten Hadoop-System werden benötigt, die / Speicher verarbeiten kann / Verwaltung von großen Datenmengen in Ruhe, ob es strukturiert, semi-strukturiert oder unstrukturiert.

  • Prozessdaten in Bewegung: Ein Stream-Computing-Fähigkeit kann benötigt werden, um Daten in Bewegung zu verarbeiten, die durch Sensoren, intelligente Geräte kontinuierlich erzeugt wird, Video-, Audio- und Protokolle in Echtzeit die Entscheidungsfindung zu unterstützen.

  • Lagerdaten: Sie können eine Lösung für die betriebliche oder tiefen analytischen Workloads optimiert müssen die wachsenden Mengen von vertrauenswürdigen Daten zu speichern und zu verwalten.

Und natürlich müssen Sie die Möglichkeit, die Daten zu integrieren Sie bereits an Ort und Stelle haben zusammen mit den Ergebnissen der großen Datenanalyse.

Menü