Data Mining für Big Data

Data Mining beinhaltet die Erforschung und große Datenmengen zu analysieren für große Datenmuster zu finden. Die Techniken kamen aus den Bereichen Statistik und der künstlichen Intelligenz (KI), mit ein bisschen Datenbank-Management in den Mix geworfen.

Im Allgemeinen ist das Ziel des Data Mining entweder Klassifikation oder Vorhersage. In Klassifizierung ist die Idee, Daten in Gruppen zu sortieren. Zum Beispiel könnte ein Vermarkter in den Eigenschaften der Interessenten sein, die im Vergleich geantwortet, die haben auf eine Förderung nicht reagieren.

Dies sind zwei Klassen. In Vorhersage ist die Idee, den Wert einer kontinuierlichen Variablen vorherzusagen. Zum Beispiel könnte ein Vermarkter bei der Vorhersage diejenigen interessieren, die werden auf eine Förderung reagieren.

Typische Algorithmen in Data-Mining verwendet werden, umfassen die folgenden:

  • Klassifikationsbäume: Ein beliebtes Data-Mining-Technik, die verwendet wird, eine abhängige kategoriale Variable auf Messungen von einem oder mehreren Einflussvariablen zu klassifizieren. Das Ergebnis ist ein Baum mit Knoten und Verbindungen zwischen den Knoten, die gelesen werden kann, wenn-dann-Regeln zu bilden.

  • Logistische Regression: Eine statistische Technik, die eine Variante des Standard-Regression ist aber erweitert das Konzept mit der Klassifizierung zu beschäftigen. Es erzeugt eine Formel, die die Wahrscheinlichkeit des Auftretens als Funktion der unabhängigen Variablen vorhersagt.

  • Neuronale Netze: Ein Softwarealgorithmus, der nach der parallelen Architektur tierischen Gehirnen modelliert wird. Das Netzwerk besteht aus Eingangsknoten, verborgenen Schichten und Ausgabeknoten. Jede Einheit ist mit einem Gewicht zugeordnet. Daten werden an den Eingangsknoten gegeben und durch ein System von Versuch und Irrtum, stellt der Algorithmus die Gewichte, bis er eine bestimmte Anhalte Kriterien erfüllt. Einige Leute haben verglich diese mit einem Black-Box-Ansatz.

  • Clustering-Techniken wie K-nächsten Nachbarn: Eine Technik, die Gruppen von ähnlichen Aufzeichnungen identifiziert. Die K-Nächster-Nachbar-Technik berechnet die Abstände zwischen dem Datensatz und Punkte in der historischen (Ausbildung) Daten. Er ordnet dann diesen Datensatz zu der Klasse von seinen nächsten Nachbarn in einem Datensatz.

Hier ist ein Klassifikationsbaum-Beispiel. Betrachten wir die Situation, wo eine Telefongesellschaft will sind die Privatkunden zu bestimmen, wahrscheinlich ihren Dienst zu trennen.

Die Telefongesellschaft hat Informationen, bestehend aus den folgenden Attributen: wie lange die Person, die den Service hatte, wie sehr er sich auf den Dienst verbringt, ob der Dienst problematisch war, ob er die beste Anrufplan hat er braucht, wo er lebt, wie alt er ist, ob er andere Dienstleistungen gebündelt, Wettbewerbsinformationen über andere Träger Pläne hat, und ob er noch den Dienst.

Natürlich können Sie viele weitere Attribute als dieses. Das letzte Attribut ist das Ergebnis nicht fest das ist, was die Software verwenden, um die Kunden in einer der beiden Gruppen einzuteilen - vielleicht genannt Steher und Flugrisiken.

Der Datensatz wird in Trainingsdaten gebrochen und einen Testdatensatz. Die Trainingsdaten besteht aus Beobachtungen (so genannte Attribute) und eine Ergebnisvariable (binär im Falle eines Klassifikationsmodells) - in diesem Fall die Steher oder die Flugrisiken.

Der Algorithmus wird über den Trainingsdaten ausgeführt, und kommt mit einem Baum, wie eine Reihe von Regeln, gelesen werden kann. Zum Beispiel, wenn die Kunden seit mehr als zehn Jahren im Unternehmen gewesen, und sie sind über 55 Jahre alt, sind sie wahrscheinlich als treue Kunden zu bleiben.

Diese Regeln werden dann über den Testdatensatz ausgeführt werden, um zu bestimmen, wie gut dieses Modell eingeschaltet ist # 147 neue Daten. # 148- Genauigkeit Maßnahmen sind für das Modell zur Verfügung gestellt. Zum Beispiel ist eine populäre Technik die Konfusionsmatrix. Diese Matrix ist eine Tabelle, die im Vergleich zu falsch klassifiziert Informationen darüber, wie viele Fälle wurden korrekt zur Verfügung stellt.

Wenn das Modell gut aussieht, kann es auf andere Daten bereitgestellt werden, sobald sie verfügbar ist (das heißt, es mit neuen Fälle von Fluchtgefahr vorherzusagen). Basierend auf dem Modell, könnte das Unternehmen entscheiden, zum Beispiel, auf Sonderangebote zu schicken jenen Kunden, denen es Flug Risiken denkt sind.

Menü