Wie durch Nächste Nachbarn in Predictive Analysis Cluster

Nächste Nachbarn ist ein einfacher Algorithmus weit verbreitet in der prädiktiven Analyse verwendet, um Daten zu gruppieren, indem ein Element in einem Cluster zuweisen, indem bestimmt wird, was andere Elemente sind die meisten ähnlich. Eine typische Anwendung der nächsten Nachbarn Algorithmus folgt vor:

  1. Leiten Sie eine Ähnlichkeitsmatrix aus den Positionen im Datensatz.

    Diese Matrix, bezeichnet als Distanzmatrix, wird die Ähnlichkeitswerte für jeden Punkt in dem Datensatz zu halten. (Diese Werte werden im Detail im folgenden Beispiel erarbeitet.)

  2. Mit der Matrix an Ort und Stelle, zu vergleichen, jedes Element in dem Datensatz zu jedem anderen Punkt und den Ähnlichkeitswert berechnen.

  3. Mit Hilfe der Distanzmatrix, untersuchen jedes Element, um zu sehen, ob der Abstand zu seinen Nachbarn ist kleiner als ein Wert, den Sie festgelegt haben.

    Dieser Wert wird aufgerufen, die Schwelle.

  4. Der Algorithmus legt jedes Element in einem separaten Cluster, analysiert die Elemente und entscheidet, welche Elemente sind ähnlich, und fügt ähnliche Artikel zu demselben Cluster.

  5. Der Algorithmus stoppt, wenn alle Elemente untersucht wurden.

Betrachten wir einen Datensatz von acht geographischen Orten, an denen Menschen leben. Der Zweck ist es, diese Individuen in Gruppen auf ihrer geografischen Lage basierend zu unterteilen, wie durch das Global Positioning System bestimmt.

Diese Grafik zeigt einen einfachen Datensatz von Individuen geografischen Daten. Es sei angenommen, daß alle Daten über diese acht Individuen gesammelt wurde zu einem bestimmten Zeitpunkt gesammelt.

Einzelne IDGPS - Geographische LängeGPS - Geographische Breite
1210
225
384
458
575
664
712
849

Wie bei den K-means, ist der erste Schritt für Schritt die Ähnlichkeitswerte für jedes Paar von Individuen zu berechnen. Eine Möglichkeit, eine Ähnlichkeit zwischen beiden Positionen zu berechnen, ist die euklidische Distanz zu bestimmen. Der Ähnlichkeitswert zwischen zwei Punkten wird als zuvor gezeigt berechnet.

Ähnlichkeit zwischen Punkt A und Punkt B =

# 8730- (fa, 1 - fb, 1)2 + (fa, 2 - fb, 2) 2+ # 133- + (fein - fb, n) 2

Hier fa, 1 ist das erste Merkmal von Punkt A, fa, 2 ist das zweite Merkmal von Punkt A, und entsprechende Werte gekennzeichnet b repräsentieren die Merkmale des Artikel B. Die Variable n ist die Anzahl der Funktionen. In diesem Beispiel n ist 2. Zum Beispiel ist die Ähnlichkeit zwischen Punkt 1 und Punkt 2 wie folgt berechnet:

Ähnlichkeit zwischen Punkt 1 und Punkt 2 = # 8730- (2-2)2 +(05.10) 2 = 5

Auf der Basis dieser Messung der Ähnlichkeit zwischen den Elementen, können Sie den Nächster-Nachbar-Algorithmus zu extrahieren Cluster aus dem Datensatz von geografischen Orten.

Der erste Schritt ist es, die einzelnen zu platzieren, dessen ID gleich 1, Längengrad 2 ist, und die Breite ist 10 in Cluster C1. Dann gehen Sie durch den restlichen Individuen Berechnung, wie ähnlich jeder zu den einzelnen in C1 ist.

Wenn die Ähnlichkeit zwischen Einzel 1 und einer anderen Person x weniger als 4,5, dann Einzel x beitreten C1- sonst erstellen Sie einen neuen Cluster Einzelne aufnehmen x.

Im Folgenden werden die Ähnlichkeiten und numerische Beziehungen zwischen Individuen 1 bis 8. Die Ähnlichkeit dieser Datenelemente als euklidische Abstand berechnet.

Personen mit dem Ähnlichkeitswerten näher bei 0 haben eine größere Ähnlichkeit. Halb die Matrix nicht gefüllt ist, weil die Matrix symmetrisch.

Einzelne # 1Einzelne # 2Einzelne # 3Einzelne # 4Einzelne # 5Einzelne # 6Einzelne # 7Einzelne # 8
Einzelne # 10563.67,077.218,0622.23
Einzelne # 2 06.84.2454.123.164.47
Einzelne # 3 051,411,417,286.40
Einzelne # 4 03.314.127.211,41
Einzelne # 5 01,416.705
Einzelne # 6 05,385,38
Einzelne # 7 07,61
Einzelne # 8 0

Sie haben nun Individual 1 zur ersten Gruppe (C1) zugeordnet ist. Die Ähnlichkeit zwischen Einzel 1 und Individual 2 gleich 5, die 4,5 größer ist als der Schwellenwert. Ein neues Cluster erzeugt - und Individual 2 gehört zu ihm. Zu diesem Zeitpunkt haben Sie zwei Cluster eines Elements jeweils: C1 = {1} Einzelne und C2 = {2} Einzelne.

Verschieben des Fokus auf einzelne 3, finden Sie, dass die Ähnlichkeit zwischen Einzel 3 und Einzel 2 1 größer als der Schwellenwert 4,5. Damit Sie Individual 3 zu einem neuen Cluster zuordnen ein Objekt vorkommt: C3 = {3} Einzelne.

Der Umzug in Einzel 4, Sie berechnen, wie ähnlich Einzelne 4 Personen ist 1, 2 und 3. Der nächste (am ähnlichsten) bis Individuell 4 geschieht Einzelne sein 1. Die Ähnlichkeit zwischen 4 und 1 beträgt etwa 3,6, was weniger ist als der Schwellenwert 4,5.

Individuell 4 verbindet Individuell 1 in Cluster C1.

Als nächstes ist Individual 5 und berechnen zu untersuchen, wie ähnlich es Einzelpersonen 1, 2, 3 und 4. Der Punkt am nächsten in Abstand (am ähnlichsten) zu einzelnen 5 Einzel 3. Die Ähnlichkeit ist # 8730-2, der kleiner als der Grenzwert von 4,5 ist. So Individual 5 verbindet C3.

Wenn Sie einzelne 6 untersuchen und berechnen, wie ähnlich es Einzelpersonen 1, 2, 3, 4 und 5, entdecken Sie, dass Einzelne 3 am nächsten ist (am ähnlichsten) zu einzelnen 6. So Einzel 6 verbindet C3.

Wenn Sie einzelne 7 untersuchen und berechnen, wie ähnlich es Einzelpersonen 1, 2, 3, 4, 5 und 6 finden Sie, dass der nächste (am ähnlichsten) Artikel zu einzelnen 7 Einzelne ist 2. So Individual 7 C2 verbindet.

Wenn Sie einzelne 8 untersuchen und berechnen die Ähnlichkeit mit Personen 1, 2, 3, 4 und 5 finden Sie, dass der nächste (am ähnlichsten) Artikel zu einzelnen 8 Einzelne ist 4. So individuell 8 C1 verbindet.

Die Cluster so weit aufgebaut, Gegenstände am ähnlichsten zueinander enthalten, sind

C1 = {Einzel 1, Einzel 4, Einzel 8}
C2 = {Einzel 2, Einzel 7}
C3 = {Einzel 3, Individual 5, Individual 6}

Menü