Wie zu sammeln kategorialen Daten in Biostatistik

Einrichten Ihrer Datenerfassungsformulare und Datenbank-Tabellen für kategoriale Daten erfordert mehr Gedanken, als Sie erwarten. Jeder übernimmt er weiß, wie kategoriale Daten zu erfassen und zu geben - man muss nur geben, was, dass die Daten (zum Beispiel, Männlich, Weiss, Diabetes,

Menu

oder Kopfschmerzen), Recht? Bad Annahme!

Sorgfältig Codierung Kategorien

Das erste Problem ist, wie man "Code" die Kategorien (wie sie in der Datenbank zu repräsentieren). Wollen Sie eingeben Geschlecht wie Männlich oder Weiblich, M oder F, 1 (Wenn männlich) oder 2 (Bei Frauen), oder auf andere Art und Weise? Die meisten modernen statistischen Software kann kategorische Daten mit jeder dieser Darstellungen zu analysieren, aber einige ältere Software benötigt, die als aufeinanderfolgende Zahlen codiert Kategorien: 1, 2, 3, und so weiter.

Einige Software können Sie eine Übereinstimmung zwischen Nummer und Text angeben (1 = männlich, 2 = weiblich, zum Beispiel) - dann kann man es in jeder Art und Weise geben, und Sie können es wählen, entweder in der numerischen oder Textform angezeigt werden soll.

Nichts ist schlimmer, als mit einem Datensatz zu beschäftigen, in denen Geschlecht wurde codiert 1 oder 2, ohne Angabe von denen ist, die, wenn die Person, die die Datei erstellt hat, sind lange vorbei. So ist es wahrscheinlich am besten, um die Kategoriewerte als kurze, aussagekräftige Textabkürzungen zu geben, wie M oder F, oder Männlich oder Weiblich, davon sind selbstverständlich und daher selbsterklärend.

Excel ist es egal, was Sie eingeben, und diese Eigenschaft ist einer der größten Nachteile, wenn sie als Daten-Repository verwendet wird. Sie können eingeben Geschlecht wie M für das erste Thema, Männlich für die zweite, männlich zum dritten, 2 für das vierte und m zum fünften und konnte Excel nicht weniger interessieren. Aber die meisten Statistik-Programme betrachten jede dieser eine ganz andere Kategorie zu sein!

Noch schlimmer ist, kann geben Sie versehentlich eine oder mehrere Leerstellen vor und / oder nach dem Text. Sie können es nicht bemerken, aber einige Statistikprogramme betrachten M ~ anders sein als ~ M, ~ M ~, und M ~~ (Wo ~ zeigt ein Leerzeichen). In Excel, dann ist es eine gute Idee, Auto-Vervollständigen für Zellwerte (im erweiterten Bereich des Dialogfeld Optionen im Menü Datei befindet) zu ermöglichen. Dann, wenn Sie etwas in einer Zelle eingeben beginnen, schlägt es etwas, das in dieser Spalte bereits vorhanden ist und beginnt mit dem gleichen Buchstaben oder Buchstaben, die Sie eingegeben haben. Dies hilft Ihnen mehrere leicht unterschiedliche Darstellungen für die gleiche Kategorie mit vermeiden.

Wenn Sie Ihre Daten auf Fehler überprüft, ist es hilfreich, wenn Sie die Software eine Strichliste für jede kategoriale Variable erzeugen haben kann, das zeigt, wie viele Vorkommen jedes eigene Kategorie in den Daten gefunden. Dies wird Ihnen zeigen, wenn alle falsch geschriebenen Kategorien eingegeben wurden (darunter auch solche, mit denen nervtötende vorderen oder hinteren Leerzeichen).

Der Umgang mit mehr als zwei Ebenen in einer Kategorie

Wenn eine kategorische Variable mehr als zwei Ebenen hat, werden die Dinge noch interessanter. Zuerst muss man sich fragen: "Ist diese Variable ein wählen Sie only ein (Single-Wahl) oder Wähle alle, die zutreffen (Multiple-Choice) Variable? "Die erforderliche Codierung in Ihrer EDV-Datendatei ist völlig anders für diese beiden Arten von Variablen. Beispiel: Angenommen, Sie die Ergebnisse eines Mikrobiologie-Labor-Test einer Blutprobe aufnehmen wollen. Und wenn, der Einfachheit halber, dass diese Laboranalysen auf das Vorhandensein von nur fünf Klassen von Bakterien: Kokken, Bazillen, Rickettsien, mycoplasma, und spirillum. Um die Wahrscheinlichkeit von Fehlbuchstabierungen reduzieren, könnten Sie kurze Abkürzungen zu verwenden, wie zum Beispiel entscheiden: COC, bac, ric, mein C, und spi.

Angenommen, Sie möchten (oder an), dass keine Blutprobe wird jemals mehr als eine Art von Infektion vorhanden sind. Dies wäre ein Single-Choice-Situation. Dann könnte das Laborergebnis in einer einzigen Variablen (eine einzelne Spalte in der Datendatei) gehalten werden, die man nennen könnte BacteriaType (oder BT wenn Sie wollten Ihre Variablennamen kurz) zu halten. Die Ergebnisse für jede Probe (in jeder Zelle der Tabelle) würde als Einzelwert codiert werden: COC, oder bac, oder ric, oder mein C, oder spi. Sie würden auch für eine andere Kategorie zu ermöglichen, haben (vielleicht genannt keiner), Wenn überhaupt keine Infektion gefunden wurde.

Aber Sie können feststellen, dass Ihre Annahme von höchstens einer Infektion pro Probe unrealistisch war. Eine Person könnte zwei (oder mehr) Infektionen gleichzeitig vorhanden. Wie würden Sie das in Ihrer Datenbank umgehen? Wenn das Labor berichtet, dass beide Kokken und Bazillen Infektionen waren anwesend, würden Sie versuchen, beide Abkürzungen zu stopfen (COC und bac) in die Zelle zur gleichen Zeit? Die meisten statistischen Software würde nur eine Kategorie erlauben, in einer Zelle einer kategorialen Variablen angegeben werden. Leider würde Excel glücklich können Sie so viel stopfen, wie Sie in die Zelle gefallen hat, obwohl dies der falsche Weg, es zu tun wäre.

Wenn mehrere-Entscheidungen möglich sind (auch wenn Sie denken, dass sie wahrscheinlich nicht in Ihrer Studie geschehen), müssen Sie Ihre Datenbank anders einzurichten. Sie sollten definieren getrennte Variablen in der Datenbank (getrennte Spalten in Excel) - eine für jeden möglichen Kategoriewert. In diesem Fall, da es fünf mögliche Arten von Bakterien sind, würden Sie fünf separate definieren müssen Variablen, vielleicht genannt BTcoc, BTBAC, BTric, BTmyc, und BTspi (bei dem die BT steht für Bakterien-Typ). Jede Variable würde als Zweiwert Kategorie dargestellt werden (vielleicht mit Werten Pres/Abs steht für Geschenk und abwesend, oder ja/Nein, oder 1 oder 0).

So wurde, wenn Subject 101 der Probe Kokken enthalten gefunden, Subject 102 der Probe Bazillus und Mykoplasmen vorhanden war, und Gegenstand 103 der Probe hat keine Bakterien überhaupt, könnten die Informationen codiert werden, wie in der folgenden Tabelle dargestellt.

FachBTcocBTBACBTricBTmycBTspi
101jaNeinNeinNeinNein
102NeinjaNeinjaNein
103NeinNeinNeinNeinNein

Unabhängig davon, ob Sie Code, um eine kategorische Variable als Single-Choice oder Multiple Choice, die Sie benötigen für die Möglichkeit der fehlenden Werte zu ermöglichen. Sie können durch das Verlassen des Zelle leer fehlende Werte behandeln, aber eine noch bessere Möglichkeit ist es, eine Kategorie hinzuzufügen genannt fehlt zu den regulären Kategorien dieser Variablen. Wenn Sie mehrere unterschiedliche Aromen von fehlt (mögen noch nicht gesammelt werden, Don't wissen, andere, Antwort verweigert, oder nicht applichKabel), Fügen Sie sie nur auf die Menge der zulässigen Kategorien für diese Variable. Das Wichtigste ist, um sicherzustellen, dass Sie immer eingeben etwas für diese Variable.

Nie versuchen, mehrere Optionen in einer Spalte stopfen - nicht geben "COC, bac" in eine Zelle, in der BacType Spalte. Wenn Sie das tun, wird die resultierende Spalte fast unmöglich sein, statistisch zu analysieren, und Sie werden die Zeit später zu nehmen, um Ihre einzige mehrwertige Spalte in separate ja mühsam aufgespalten / ohne Spalten. Also, warum es nicht gleich beim ersten Mal?

Menü