Wie man Abgeleitete Daten generieren und reduzieren Ihre Dimensionalität für Predictive Analytics

In dieser Explorationsphase der prädiktiven Analyse, werden Sie intime Kenntnis Ihrer Daten erhalten - was wiederum hilft Ihnen, die relevanten Variablen wählen zu analysieren. Dieses Verständnis wird Ihnen auch helfen, die Ergebnisse des Modells zu bewerten. Aber zuerst müssen Sie identifizieren und reinigen Sie die Daten für die Analyse.

Menu

So generieren abgeleiteten Daten

abgeleitete Attribute sind ganz neu von einem oder mehreren vorhandenen Attribute aufgebaut Aufzeichnungen. Ein Beispiel wäre die Erstellung von Datensätzen zu identifizieren Bücher, die Bestseller auf Buchmessen sind. Die Rohdaten können nicht solche Aufzeichnungen erfassen - aber für die Modellierung Zwecke können diese abgeleiteten Aufzeichnungen wichtig sein. Preis-pro-Gewinn-Verhältnis und 200-Tage gleitenden Durchschnitt sind zwei Beispiele für abgeleitete Daten, die in Finanzanwendungen stark genutzt werden.

Abgeleitete Attribute können von der einfachen Berechnung erhalten werden, wie Alter von Geburtsdatum herzuleiten. Abgeleitete Attribute können auch durch eine Zusammenfassung von Informationen aus mehreren Datensätzen berechnet werden.

Zum Beispiel kann eine Tabelle von Kunden und ihre gekauften Bücher in eine Tabelle konvertieren können Sie die Anzahl der Bücher über ein Empfehlungssystem, durch gezieltes Marketing und bei einer Buchmesse verkauft zu verfolgen - und zu identifizieren, die demografische von Kunden, die diese Bücher gekauft .

Die Erzeugung solcher zusätzlichen Attribute bringen zusätzliche Vorhersagekraft für die Analyse. In der Tat sind viele solche Attribute erstellt, um ihre potentielle Vorhersagekraft zu untersuchen. Einige Vorhersagemodelle können mehr abgeleitete Attribute als die Attribute in ihrem Rohzustand verwendet werden. Wenn einige abgeleitete Attribute beweisen vor allem prädiktive und ihre Macht bewiesen ist, relevant zu sein, dann ist es sinnvoll, den Prozess zu automatisieren, die sie erzeugt.

Abgeleitet Aufzeichnungen sind neue Datensätze, die in neue Informationen bringen und bieten neue Möglichkeiten der rohen Daten- präsentieren sie von unschätzbarem Wert für prädiktive Modellierung sein kann.

Wie die Dimensionalität der Daten zu reduzieren,

Die Daten in Vorhersagemodelle verwendet, wird in der Regel aus mehreren Quellen gepoolt. Ihre Analyse kann aus Daten verstreut über mehrere Datenformate, Dateien und Datenbanken oder mehrere Tabellen innerhalb derselben Datenbank ziehen. die Daten zusammen Pooling und in einem integrierten Format für die Daten-Modellierer kombiniert zu verwenden, ist von wesentlicher Bedeutung.

Wenn Ihre Daten jede hierarchische Inhalt enthält, kann es sein müssen abgeflacht. Einige Daten hat einige hierarchische Eigenschaften wie Eltern-Kind-Beziehungen, oder eine Aufzeichnung, die aus anderen Datensätzen erfolgt. Zum Beispiel kann ein Produkt, wie beispielsweise einem Auto mehrere makers- Abflachen Daten haben, in diesem Fall bedeutet, einschließlich jeder maker als zusätzliches Merkmal des Datensatzes Sie analysieren.

Das Abflachen Daten ist von wesentlicher Bedeutung, wenn es aus mehreren Bezugsdatensätzen zusammengefügt ein besseres Bild zu bilden.

Zum Beispiel die Analyse unerwünschter Ereignisse für mehrere Medikamente, die von mehreren Unternehmen vorgenommen können verlangen, dass die Daten auf der Stoffebene abgeflacht werden. Auf diese Weise beenden Sie entfernen sich die Eins-zu-Viele-Beziehungen (In diesem Fall viele Hersteller und viele Substanzen, für ein Produkt), die zu viel Duplizierung von Daten durch Wiederholen mehrerer Stoffeinträge verursachen, die Produkt- und maker Informationen zu jedem Eintrag wiederholen.

Abflachen reduziert die Dimensionalität der Daten, die durch die Anzahl der Funktionen einen Datensatz oder eine Beobachtung hat vertreten ist.

Zum Beispiel kann ein Kunde die folgenden Eigenschaften haben: Name, Alter, Adresse, gekaufte Artikel. Wenn Sie Ihre Analyse zu starten, können Sie sich die Bewertung Datensätze mit vielen Funktionen zu finden, sind wichtig, von denen einige nur auf die Analyse. So sollten Sie alle, aber die wenigen Funktionen zu beseitigen, die die meisten Vorhersagekraft für Ihr spezielles Projekt.

Reduzieren der Dimensionalität der Daten kann, indem alle Daten in einer einzigen Tabelle erreicht werden, die mehrere Spalten verwendet Attribute von Interesse darzustellen. Zu Beginn der Analyse, hat natürlich die Analyse einer großen Anzahl von Spalten zu bewerten - aber diese Zahl kann sich wie die Analyse fort verengt werden.

Dieser Prozess kann durch Rekonstitution die Felder unterstützt werden - beispielsweise, indem die Daten in Kategorien gruppieren, die ähnliche Eigenschaften haben.

Die resultierende Datensatzes - das gereinigte Dataset - wird in der Regel in einer separaten Datenbank für die Analysten setzen zu verwenden. Während des Modellierungsprozesses, sollte diese Daten leicht zugänglich, verwaltet und aktuell gehalten.

Menü