Wie ein nicht überwachtes Lernen Modell mit K-Means zur Bewertung

Computer & Software / Große Daten / Daten Wissenschaft

Nachdem Sie Ihre Anzahl der Cluster für Predictive Analytics und eingerichtet haben, um den Algorithmus ausgewählt haben, die die Cluster zu füllen, haben Sie ein Vorhersagemodell. Sie können Prognosen auf neu eingehende Daten basieren, indem der Aufruf vorhersagen Funktion der K-Means-Instanz und in einer Reihe von Beobachtungen geben. Es sieht wie folgt aus:

>>> # Auf die Funktion mit einer einzigen Beobachtung vorhersagen rufen >>> kmeans.predict ([5.1, 3.5, 1.4, 0.2]) Array ([1])

Wenn das vorhersagen Funktion findet das Clusterzentrum, das die Beobachtung am nächsten ist, es gibt den Index des Arrays des Clusterzentrum. Python-Arrays werden bei 0 indiziert (das heißt, der erste Punkt beginnt bei 0). Beobachtungen zu einem Cluster Zentrum am nächsten wird in diesem Cluster gruppiert werden.

In diesem Beispiel bedeutet K-Algorithmus sagt voraus, dass die Beobachtung 1 (Setosa in diesem Fall) zu Cluster gehört - eine einfache Vorhersage, weil die Setosa Klasse linear trennbar ist und weit weg von den anderen beiden Klassen.

Außerdem enthält dieses Beispiel nur die erste Beobachtung aus dem Datensatz der Vorhersage überprüfbar und leicht zu erklären, zu machen. Sie können sehen, dass die Attribute der Beobachtung versuchen wir sind sehr nah an dem zweiten Clusterzentrum zur Vorhersage (kmeans.cluster_centers_ [1]).

Um die Clusterzentren zu sehen, geben Sie den folgenden Code:

>>> Kmeans.cluster_centers_array ([[5,9016129, 2,7483871, 4,39354839, 1,43387097], [5,006, 3,418, 1,464, 0,244], [6.85, 3,07368421, 5,74210526, 2,07105263]])

Um die Cluster Etiketten zu sehen, dass die K-Mittel-Algorithmus erzeugt, geben Sie den folgenden Code:

>>> Kmeans.labels_array ([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0,0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0,0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0,2, 2, 2, 2, 0, 2, 2, 2, 2, 2, 2, 0, 0, 2, 2, 2, 2,0, 2, 0, 2, 0, 2, 2, 0, 0, 2, 2, 2, 2, 2, 0, 2, 2,2, 2, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 0])

Sie können auch die Tasten vorhersagen Funktion, um eine Reihe von Beobachtungen zu bewerten, wie hier gezeigt:

>>> # Nennen das Verfahren mit einem Satz von Datenpunkten vorhersagen >>> kmeans.predict ([[5.1, 3.5, 1.4, 0.2], [5.9, 3.0, 5.1, 1.8]]) Array ([1,0 ])

Auch wenn Sie wissen, dass die Drei-Cluster-Lösung ist technisch korrekt, nicht überrascht sein, wenn intuitiv die Zwei-Cluster-Lösung, um die besten aussehen scheint. Wenn Sie die Anzahl der Cluster über drei erhöhen, Ihre Prognosen 'Erfolgsquote beginnt zu brechen. Mit ein wenig Glück (und etwas gebildeter Erraten), erhalten Sie die beste Anzahl der Cluster auswählen.

Betrachten wir den Prozess als ein wenig von Kunst mit der Wissenschaft zu vermischen. Selbst der Algorithmus selbst verwendet Zufälligkeit in der Auswahl der Ausgangsdatenpunkte verwendet es jeden Cluster zu starten. Also selbst wenn Sie erraten, sind Sie in guter Gesellschaft.

die Leistung eines Algorithmus Auswertung erfordert ein Label, das darstellt, erwartet Wert und ein vorhergesagt Wert, den es mit zu vergleichen. Denken Sie daran, dass, wenn Sie einen Cluster-Algorithmus zu einer unüberwachten Lernmodell anwenden, Sie wissen nicht, was die erwarteten Werte sind - und Sie nicht geben Etiketten an den Cluster-Algorithmus.

Der Algorithmus legt Datenpunkte in Clustern auf der Grundlage Datenpunkte ähnlich sind, eine another- verschiedenen Datenpunkten in anderen Clustern enden. Für die Iris-Datensatz, hat K-Mittel kein Konzept von Setosa, versicolor oder Virginica classes- nur sie weiß, es soll die Daten in drei Cluster zu gruppieren und sie von 0 bis 2 zufällig nennen.

Der Zweck des unüberwachten Lernen mit Clustering ist sinnvolle Beziehungen in den Daten zu finden, vorzugsweise dort, wo man sie nicht anders gesehen haben könnte. Es liegt an Ihnen zu entscheiden, ob diese Beziehungen eine gute Grundlage für eine umsetzbare Erkenntnisse sind.

Wie ein nicht überwachtes Lernen Modell mit K-Means zur Bewertung

Ähnliche

Menü