Fehlende Werte in Ihre Daten

Eine der häufigsten und messiest Datenprobleme mit fehlen Daten zu beschäftigen. Die Dateien können unvollständig sein, weil Aufzeichnungen gelöscht wurden oder ein Speichergerät gefüllt. Oder bestimmte Datenfelder können keine Daten für einige Datensätze enthalten. Das erste dieser Probleme kann durch einfaches Verifizieren Datensatz Zählungen für Dateien diagnostiziert werden. Das zweite Problem ist schwieriger zu behandeln.

Um es in einfachen Worten ausgedrückt, wenn Sie ein Feld mit fehlenden Werte zu finden, haben Sie zwei Möglichkeiten:

  • Ignoriere es.

  • Halten Sie etwas auf dem Feld.

Das Ignorieren des Problems

In einigen Fällen können Sie einfach ein einzelnes Feld mit einer großen Anzahl von fehlenden Werten zu finden. Wenn ja, ist die einfachste Sache zu tun, ignorieren Sie das Feld. Sie nicht, es in Ihrer Analyse.

Eine andere Möglichkeit, das Problem zu ignorieren ist, den Datensatz zu ignorieren. Löschen Sie einfach den Datensatz die fehlenden Daten enthält. Dies kann sinnvoll sein, wenn es nur ein paar Gauner Aufzeichnungen sind. Aber wenn es mehrere Datenfelder enthält, eine signifikante Anzahl von fehlenden Werten, kann dieser Ansatz schrumpfen Ihre Aufzeichnung auf ein inakzeptables Niveau zählen.

Eine andere Sache, wo sie nach, bevor einfach Löschen von Datensätzen ist kein Zeichen eines Musters. Zum Beispiel: Angenommen, Sie einen Datensatz analysieren bundesweit, um Kreditkarten-Salden. Sie können auch eine ganze Reihe von Aufzeichnungen zeigen, $ 0,00 Salden (vielleicht etwa die Hälfte der Aufzeichnungen) zu finden. Dies ist an sich nicht ein Hinweis auf fehlende Daten. Wenn jedoch alle Datensätze aus, sagen wir, Kalifornien sind $ 0,00 Salden zeigt, dass zeigt eine mögliche fehlende Werte Problem. Und es ist nicht eine, die durch das Löschen alle Datensätze aus dem größten Staat in dem Land sinnvoll gelöst werden würde. In diesem Fall ist es wahrscheinlich ein System Problem und zeigt an, dass eine neue Datei erstellt werden soll.

Im Allgemeinen Löschen von Datensätzen ist eine einfache, aber nicht ideal, Lösung fehlende Wertprobleme. Wenn das Problem ist relativ klein und es gibt kein erkennbares Muster auf die Auslassungen, dann kann es in Ordnung sein, die betreffenden Aufzeichnungen über Bord zu werfen und zu bewegen. Aber häufig ein mehr highbrow Ansatz gerechtfertigt ist.

Das Ausfüllen des fehlenden Daten

in der fehlenden Daten Füllmengen eine Vermutung über das, was in diesem Bereich zu machen gewesen wäre. Es gibt gute und schlechte Wege, dies zu tun. Eine einfache (aber schlecht) Ansatz ist es, die fehlenden Werte mit dem Durchschnitt der nicht fehlenden zu ersetzen. In nicht-numerischen Felder, könnten Sie die fehlenden Datensätze mit den häufigsten Wert in den anderen Aufzeichnungen (der Modus) zu füllen versucht.

Diese Ansätze sind leider immer noch häufig in einigen Geschäftsanwendungen eingesetzt. Aber sie sind weit von den Statistikern als schlechte Ideen angesehen. Für eine Sache, ist der ganze Sinn der statistischen Analyse von Daten zu tun zu finden, die ein Ergebnis von einem anderen unterscheidet. Durch das Ersetzen alle fehlenden Aufzeichnungen mit dem gleichen Wert, haben Sie nichts zu unterscheiden.

Je mehr highbrow Ansatz ist, zu versuchen, einen Weg zu finden, in einer sinnvollen Art und Weise zu bestimmen, welche Wert auf jeden Datensatz ausgefüllt werden sollte, die einen Wert fehlt. Dabei geht es um die vollständige Aufzeichnungen suchen und zu versuchen, um Hinweise zu finden, was die fehlenden Wert sein könnte.

Angenommen, Sie eine demografische Datei analysieren wahrscheinlich Käufer eines Ihrer Produkte zu prognostizieren. In dieser Datei können Sie unter anderen Bereichen, Informationen über den Familienstand, Anzahl der Kinder und Anzahl der Automobile. Aus irgendeinem Grund wird die Anzahl von Autos Feld in einem Drittel der Datensätze fehlt.

Durch die Analyse der beiden anderen Bereiche - Familienstand und Anzahl der Kinder - Sie können einige Muster entdecken. Einzelne Menschen neigen dazu, ein Auto zu haben. Verheiratete ohne Kinder neigen dazu, zwei Autos zu haben. Verheiratete Menschen mit mehr als einem Kind könnte wahrscheinlicher sein, drei Autos zu haben. Auf diese Weise können Sie sich die fehlenden Werte in einer Weise erraten, die die Datensätze tatsächlich unterscheidet. Mehr zu diesem Ansatz zu kommen.

Es ist ein allgemeiner Begriff für Statistik und Datenverarbeitung, die auf fragwürdige Daten bezieht. Der Begriff laut zu beschreiben, Daten, die unzuverlässig, korrupt ist oder auf andere Weise weniger als ursprünglich verwendet. Fehlende Daten ist nur ein Beispiel dafür. Eine detaillierte Beschreibung der Techniken für verrauschten Daten im allgemeinen Reinigung sprengt den Rahmen dieses Buches. In der Tat ist dies ein aktiver Forschungsbereich in statistischen Theorie. Die Tatsache, dass alle Lärm nicht so einfach, wie fehlende Werte zu erkennen, macht es schwierig zu behandeln.

Menü