Wie Extrahieren, Transformieren und Laden von Daten für Predictive Analysis

Nachdem es zunächst gesammelt hat, Daten in der Regel in einem dispergierten staatlich es in mehrere Systeme oder Datenbanken befindet, und müssen vor der Vorhersage etwas analysiert werden. Bevor Sie es für einen Predictive Analytics-Modell verwenden können, müssen Sie es an einem Ort zu konsolidieren. Außerdem möchten Sie nicht auf Daten zu arbeiten, die in operativen Systemen befindet - die für eine störungs fragt.

Stattdessen legen einen Teil davon irgendwo, wo man auf sie frei und ohne Auswirkungen auf Operationen arbeiten können. ETL (Extrahieren, Transformieren und Laden) der Prozess ist, dass wünschenswerter Zustand erreicht.

Viele Organisationen haben mehrere Datenbanken- Ihre prädiktive Modelldaten wahrscheinlich aus allen von ihnen nutzen werden. ETL ist der Prozess, der alle Informationen sammelt benötigt und legt sie in einer separaten Umgebung, wo Sie Ihre Analyse ausführen können.

ETL ist jedoch nicht ein einmal und für alles funktionssicher in der Regel es ist ein kontinuierlicher Prozess, der die Daten aktualisiert und hält sie auf dem Laufenden. Seien Sie sicher, dass Sie Ihre ETL-Prozesse in der Nacht oder zu anderen Zeiten ausgeführt werden, wenn die Last auf dem das Betriebssystem niedrig ist.

  • Der Extraktionsschritt sammelt die gewünschten Daten in seiner rohen Form aus operativen Systemen.

  • Der Transformationsschritt bereit macht die gesammelten Daten in Ihrem Vorhersagemodell verwendet werden - Verschmelzung es, die gewünschten abgeleiteten Attribute zu erzeugen, und die transformierten Daten in das entsprechende Format setzen Geschäftsanforderungen anzupassen.

  • Der Ladeschritt legt die Daten in seiner vorgesehenen Stelle, wo Sie Ihre Analyse darauf ausgeführt werden können - zum Beispiel in einem Data-Mart, Data Warehouse, oder einer anderen Datenbank.

Sie sollten nach einem systematischen Ansatz Ihre ETL-Prozesse aufzubauen, um die geschäftlichen Anforderungen zu erfüllen. Es ist eine gute Praxis, eine Kopie der Originaldaten in einem separaten Bereich zu halten, so dass Sie immer zurück, um es im Falle gehen kann stört einen Fehler bei der Transformation oder die Ladeschritte der Prozesse.

Ihre ETL-Prozess sollte integrieren Modularität - die Aufgaben zu trennen und die Arbeit in Stufen erreicht wird. Dieser Ansatz hat Vorteile, wenn Sie möchten, die Daten erneut zu bearbeiten oder neu zu laden, oder wenn Sie wollen, dass einige der Daten für eine andere Analyse zu verwenden oder verschiedene Vorhersagemodelle zu bauen. Das Design Ihrer ETL sollten wichtige Geschäftsanforderungen Änderungen aufnehmen können - mit minimalen Änderungen an der ETL-Prozess.

Menü