Wie Entfernen von Zeilen mit fehlenden Daten in R

Eine weitere nützliche Anwendung von Datenrahmen subsetting ist zu Zeilen mit fehlenden Daten finden und zu entfernen. Die R-Funktion zu überprüfen hierfür ist complete.cases (). Sie können versuchen, diese auf dem integrierten in Dataset Luftqualität, ein Datenrahmen mit einem fairen Betrag von fehlenden Daten:

> Str (Luftgüte)> complete.cases (Luftgüte)

Die ergebnisse von complete.cases () ist ein logischer Vektor mit dem Wert WAHR für Zeilen, die abgeschlossen sind, und FALSCH für Zeilen, die einige haben N / A Werte. So entfernen Sie die Zeilen mit fehlenden Daten aus Luftqualität, versuchen Sie folgendes:

> x lt; - Luftgüte [complete.cases (Luftgüte),]> str (x)

Ihr Ergebnis sollte ein Datenrahmen mit 111 Zeilen sein, anstatt die 153 Zeilen des ursprünglichen Luftqualität Datenrahmen.

Wie immer mit R, ist es mehr als einen Weg, um Ihr Ziel zu erreichen. In diesem Fall können Sie Gebrauch machen na.omit () um alle Zeilen auslassen, die NA-Werte enthalten:

> x lt; - na.omit (Luftgüte)

Wenn Sie sicher sind, dass Ihre Daten sauber ist, können Sie beginnen, es zu analysieren, indem Sie berechnete Felder hinzufügen.

Wenn Sie eine dieser Methoden verwenden, um Ihre Datenteilmenge oder reinigen, fehlende Werte, denken Sie daran das Ergebnis in einem neuen Objekt zu speichern. R nicht alles in der ursprünglichen Datenrahmen ändern, wenn Sie es explizit überschreiben. Das ist eine gute Sache, denn man kann nicht versehentlich mess up Ihrer Daten.

Menü