Die Grundlagen des Big Data Integration

Die grundlegenden Elemente der großen Datenplattform verwalten Daten auf neue Weise in Bezug auf die traditionellen relationalen Datenbank verglichen. Dies ist wegen der Notwendigkeit, die Skalierbarkeit und hohe Leistung aufweisen müssen sowohl strukturierte als auch unstrukturierte Daten zu verwalten.

Komponenten des Ökosystems großen Daten im Bereich von Hadoop zu NoSQL DB, MongoDB, Cassandra und HBase alle haben ihre eigenen Ansatz zum Extrahieren und Laden von Daten. Als Ergebnis können Sie Ihre Teams benötigen neue Fähigkeiten zu entwickeln, um den Integrationsprozess auf diesen Plattformen zu verwalten. Allerdings werden viele Ihrer Unternehmensdaten-Management Best Practices noch wichtiger, wie Sie in die Welt der großen Daten bewegen.

Während die großen Daten eine neue Ebene der Komplexität der Integration führt, gelten die grundlegenden fundamentalen Prinzipien noch. Ihr Geschäftsziel muss fokussiert werden auf Qualität und vertrauenswürdige Daten an die Organisation zur richtigen Zeit und im richtigen Kontext zu liefern.

Um dieses Vertrauen zu gewährleisten, müssen Sie mit gemeinsamen Regeln für Datenqualität mit Schwerpunkt auf Genauigkeit und Vollständigkeit der Daten zu schaffen. Darüber hinaus müssen Sie einen umfassenden Ansatz Unternehmen Metadaten zu entwickeln, die Verfolgung der Datenherkunft und Governance Integration Ihrer Daten zu unterstützen.

Zur gleichen Zeit, traditionelle Werkzeuge für die Datenintegration entwickeln sich die zunehmende Vielfalt an unstrukturierten Daten und die wachsende Volumen und die Geschwindigkeit von großen Datenmengen zu handhaben. Während die traditionellen Formen der Integration auf eine neue Bedeutung in einer großen Datenwelt nehmen, müssen Sie Ihre Integrationstechnologien eine gemeinsame Plattform, die Datenqualität und die Profilierung unterstützt.

Um Entscheidungen solide Geschäfts basierend auf großen Datenanalyse, müssen diese Informationen vertraut zu werden und auf allen Ebenen der Organisation verstanden. Während es wird wahrscheinlich nicht kosten werden, oder die Zeit in der Sondierungsphase eines großen Datenanalyse mit Datenqualität übermäßig besorgt um wirksam zu sein, schließlich Qualität und Vertrauen muss eine Rolle spielen, wenn die Ergebnisse in den Geschäftsprozess eingebaut werden sollen.

Der Informationsbedarf im gesamten Unternehmen in einem vertrauenswürdigen, kontrollierte, konsistente und flexible Art und Weise an das Unternehmen geliefert werden, unabhängig von den spezifischen Anforderungen für einzelne Systeme oder Anwendungen. Um das zu erreichen dieses Ziel, drei Grundprinzipien gelten:

  • Sie müssen ein gemeinsames Verständnis von Datendefinitionen erstellen. In der Anfangsphase Ihres großen Datenanalyse, werden Sie wahrscheinlich nicht das gleiche Maß an Kontrolle über die Datendefinitionen haben, wie Sie mit Ihren Betriebsdaten zu tun. Allerdings, wenn Sie die Muster identifiziert, die am meisten für Ihr Unternehmen relevant sind, müssen Sie die Fähigkeit, Datenelemente zu einer gemeinsamen Definition abzubilden.

  • Sie müssen aus einer Reihe von Datendienste entwickeln, um die Daten zu qualifizieren und sie konsistent und letztlich vertrauenswürdig zu machen. Wenn Ihre unstrukturierten und große Datenquellen mit strukturierten Betriebsdaten integriert sind, müssen Sie sich darauf verlassen können, dass die Ergebnisse von Bedeutung sein wird.

  • Sie benötigen eine optimierte Weise, Ihren großen Datenquellen und Systeme von Rekord zu integrieren. Um gute Entscheidungen über die Ergebnisse Ihrer großen Datenanalyse zu machen, müssen Sie Informationen zur richtigen Zeit und mit den richtigen Kontext zu liefern. Ihr großer Datenintegrationsprozess sollte die Konsistenz und Zuverlässigkeit zu gewährleisten.

Um Daten in heterogenen Anwendungsumgebungen zu integrieren, erhalten Daten von einer Datenumgebung (Quelle) zu einem anderen Datenumgebung (Ziel). Extrahieren, Transformieren und Laden (ETL) Technologien verwendet wurden diese in Umgebungen traditionelle Data-Warehouse zu erreichen. Die Rolle der ETL entwickelt sich neuere Daten-Management-Umgebungen wie Hadoop zu handhaben.

In einer großen Datenumgebung, müssen Sie Werkzeuge zu kombinieren, die Batch-Integrationsprozesse (mit ETL) unterstützen mit Echtzeit-Integration und Föderation über mehrere Quellen. Zum Beispiel müssen ein pharmazeutisches Unternehmen, Daten in seinem Master Data Management (MDM) System mit großen Datenquellen auf medizinische Ergebnisse von Kundendrogenkonsum gespeichert zu mischen.

Unternehmen nutzen MDM das Sammeln zu erleichtern, Aggregation, Konsolidierung und Bereitstellung von konsistenten und zuverlässigen Daten in einer kontrollierten Art und Weise im gesamten Unternehmen. Darüber hinaus werden neue Tools wie Sqoop und Scribe werden verwendet, Integration von großen Datenumgebungen zu unterstützen. Sie finden auch immer mehr Wert auf die Verwendung Extrakt, Last und Transformation (ELT) Technologien. Diese Technologien werden im Folgenden beschrieben.

Menü