8 Best Practices in Datenaufbereitung

Statistische Software-Pakete sind extrem leistungsfähig in diesen Tagen, aber sie können nicht schlechte Qualität Daten überwinden. Nachfolgend finden Sie eine Checkliste der Dinge, die Sie tun müssen, bevor Sie statistische Modelle bauen gehen.

Überprüfen Sie Datenformate

Ihre Analyse beginnt immer mit einer Rohdatendatei. Rohdaten-Dateien kommen in vielen verschiedenen Formen und Größen. Mainframe-Daten unterscheidet sich von PC-Daten wird von Tabellendaten formatiert anders als Web-Daten, und so weiter. Und im Zeitalter der großen Datenmengen, werden Sie sicherlich mit Daten aus einer Vielzahl von Quellen konfrontiert werden. Ihr erster Schritt, um Ihre Daten bei der Analyse ist dafür, dass Sie die Dateien, die Sie gegeben sind zu lesen.

Sie müssen schauen tatsächlich auf das, was jedes Feld enthält. Zum Beispiel ist es nicht klug, zu vertrauen, dass nur weil ein Feld als ein Zeichenfeld aufgeführt ist, es Zeichendaten tatsächlich enthält.

Stellen Sie sicher, Datentypen

Alle Daten fällt in eine von vier Kategorien, die beeinflussen, welche Art von Statistiken, die Sie in geeigneter Weise darauf anwenden können:

  • Nenndaten ist im Wesentlichen nur ein Name oder eine Kennung.

  • Ordinal Daten stellt Datensätze in Reihenfolge vom niedrigsten zum höchsten.

  • Intervalldaten repräsentiert Werte, bei denen die Unterschiede zwischen ihnen vergleichbar sind.

  • Verhältnisdaten ist wie Intervalldaten, außer dass es ermöglicht auch einen Wert von 0.

Es ist wichtig, welche Kategorien Ihre Daten fällt in zu verstehen, bevor Sie sie in die Statistik-Software füttern. Andernfalls besteht die Gefahr, endet man mit absolut vernünftig aussehende Kauderwelsch auf.

Diagramm mit Ihren Daten

Erste ein Gefühl dafür, wie Ihre Daten verteilt wird, ist wichtig. Sie können statistische Verfahren ausgeführt, bis Sie blau im Gesicht sind, aber keiner von ihnen wird Ihnen so viel Einblick in das, was Ihre Daten sieht aus wie ein einfaches Diagramm.

Überprüfen Sie die Datengenauigkeit

Sobald Sie bequem sind, dass die Daten, die die Art und Weise formatiert Sie es wollen, müssen Sie noch sicherstellen, dass es korrekt sind und dass es Sinn macht. Dieser Schritt erfordert, dass Sie einige Kenntnisse über den Themenbereich haben Sie gerade arbeiten.

Es ist nicht wirklich ein Cut-and-getrocknet Ansatz die Genauigkeit der Daten zu verifizieren. Die Grundidee ist es, einige Eigenschaften zu formulieren, dass Sie die Daten denken, sollten die Daten zeigen und testen, um zu sehen, ob diese Eigenschaften halten. Sind die Aktienkurse immer positiv? Sie alle Produktcodes die Liste der gültigen Angaben überein? Im Grunde versucht man, um herauszufinden, ob die Daten wirklich ist, was Sie gesagt wurde, es ist.

Identifizieren von Ausreißern

Ausreißer sind Datenpunkte, die mit dem Rest der Daten aus dem Gleichgewicht geraten sind. Sie sind entweder sehr große oder sehr kleine Werte im Vergleich mit dem Rest des Datensatzes.

Ausreißer sind problematisch, weil sie ernsthaft Statistiken und statistische Verfahren gefährden können. Ein einziger Ausreißer kann einen großen Einfluss auf den Wert des mittleren haben. Da die mittlere soll das Zentrum der Daten darstellen, in einem Sinn, diese einen Ausreißer rendert die mittlere nutzlos.

Wenn mit Ausreißern konfrontiert sind, ist die häufigste Strategie, sie zu löschen. In einigen Fällen jedoch können Sie wollen, dass sie zu berücksichtigen. In diesen Fällen ist es in der Regel wünschenswert, Ihre Analyse zweimal zu tun - einmal mit Ausreißern enthalten und einmal mit den ausgeschlossenen Ausreißer. Auf diese Weise können Sie zu bewerten, welche Methode nützlichere Ergebnisse liefert.

Deal mit fehlenden Werten

Fehlende Werte sind eine der häufigsten (und lästig) Daten Probleme auftreten. Ihr erster Impuls sein könnte Aufzeichnungen fallen mit Werten aus Ihrer Analyse fehlt. Das Problem dabei ist, dass fehlende Werte sind häufig nicht nur zufällige wenig Daten Glitches.

Überprüfen Sie Ihre Annahmen darüber, wie die Daten verteilt werden

Viele statistische Verfahren hängen von der Annahme, dass die Daten in einer bestimmten Weise verteilt wird. Wenn diese Annahme der Fall sein ausfällt, leidet die Genauigkeit der Vorhersagen.

Die häufigste Annahme für die Modellierungstechniken in diesem Buch diskutiert wird, ist, dass die Daten normalverteilt sind.

Oder nicht. In Fällen, in denen die Daten nicht verteilt ist, wie Sie es brauchen, ist nicht alles unbedingt verloren. Es gibt eine Vielzahl von Arten von Daten, Transformieren der Verteilung in die Form Sie brauchen.

Eine der besten Möglichkeiten, um die Genauigkeit eines statistischen Modells zu überprüfen, ist es tatsächlich gegen die Daten zu prüfen, sobald es gebaut ist. Eine Möglichkeit, das zu tun ist, um zufällig Ihre Datenmenge in zwei Dateien aufgeteilt. Sie können diese Dateien Analyse und Testanruf auf.

Sie müssen die Daten aufteilen zufällig wirksam zu sein. Sie können nicht einfach den Datensatz in die obere Hälfte geteilt und der unteren Hälfte, zum Beispiel. Fast alle Datendateien irgendwie sortiert - nach Datum, wenn sonst nichts. Dies führt zu systematischen Muster, die verschiedene Teile der Datei unterschiedliche statistische Eigenschaften geben. Wenn Sie die Datei zufällig aufgeteilt, geben Sie jedem Datensatz die gleiche Chance in jeder Datei zu sein. Bildlich gesprochen sind Spiegeln Sie eine Münze für jeden Datensatz, um zu entscheiden, welche Datei es in geht. Zufälligkeit gibt beide Dateien die gleichen statistischen Eigenschaften wie die Originaldaten.

Sobald Sie den Datensatz geteilt haben, setzen Sie die Testdatei zur Seite. Gehen Sie dann Ihre Vorhersagemodell mit Hilfe der Analyse-Datei zu erstellen. Sobald das Modell gebaut wird, es auf die Testdatei und sehen, wie es funktioniert.

Testen Modelle auf diese Weise hilft Schutz gegen ein Phänomen bekannt als Überanpassung. Im Grunde ist es möglich, statistische Verfahren, die Datendatei zu speichern, anstatt sinnvolle Beziehungen zwischen den Variablen zu entdecken. Wenn Überanpassung auftritt, testen das Modell ziemlich schlecht gegen die Testdatei.

Sichern und dokumentieren alles, was Sie tun

Da statistische Software ist immer so einfach zu bedienen, ist es ein Stück Kuchen zu beginnen Berichte und Diagramme zu erzeugen, keine Daten-Dateien zu erwähnen. Sie können Prozeduren buchstäblich an der Knopfdruck ausgeführt werden. Sie kann innerhalb von einigen Minuten auf der Grundlage verschiedener Datentransformationen mehrere Dutzend Graphen erzeugen. Das macht es recht einfach, den Überblick zu verlieren, was Sie getan haben, und warum.

Es ist wichtig, dass Sie sicherstellen, dass eine schriftliche Aufzeichnung halten, was Sie vorhaben. Graphen sollte mit dem Namen (und Version) der Daten markiert werden, die verwendet wurde, um sie zu erstellen. Statistische Verfahren, die Sie bauen müssen gespeichert und dokumentiert werden.

Es ist auch wichtig, um Ihre Dateien zu sichern. Im Zuge der Analyse, werden Sie wahrscheinlich mehrere Versionen Ihrer Daten zu erstellen, die verschiedene Korrekturen und Transformation von Variablen widerspiegeln. Sie sollten die Verfahren speichern, die diese Versionen erstellt. Sie sollten auch in einer Art und Weise dokumentiert werden, die beschreibt, was Sie gemacht haben Transformationen und warum.

Die Dokumentation ist Lieblingsaufgabe der niemandem, aber wir sprechen aus Erfahrung, wenn wir empfehlen Ihnen dringend, nicht auf Ihrem Gedächtnis verlassen, wenn es um Ihre Analyseprojekte geht.

Durch die Arbeit gerade beschrieben durch die einzelnen Schritte, die Zuverlässigkeit Ihrer statistischen Modellen zu maximieren. In vielen Fällen ist die Vorbereitungsarbeit tatsächlich mehr Zeit in Anspruch als die eigentliche Modellbildung. Aber es ist notwendig. Und Sie werden sich am Ende danken für methodisch daran zu arbeiten.

Menü