Wie man die Zusammenführung () Funktion Verwendung mit Daten in R-Sets

In R verwenden Sie die verschmelzen()

funktionieren, um Datenrahmen zu kombinieren. Diese leistungsstarke Funktion versucht, Spalten oder Zeilen zu identifizieren, die zwischen den beiden unterschiedlichen Datenrahmen üblich sind.

Wie merge verwenden, um die Kreuzung von Daten zu finden

Die einfachste Form der verschmelzen() findet den Schnittpunkt zwischen zwei verschiedenen Datensätzen. Mit anderen Worten, einen Datenrahmen zu schaffen, die von diesen Staaten besteht, die Kälte als auch groß sind, verwenden Sie die Standardversion verschmelzen():

> Merge (cold.states, large.states) Name Frost Area1 Alaska 152 5664322 Colorado 166 1037663 Montana 155 1455874 Nevada 188 109889

Wenn Sie mit einer Datenbanksprache wie SQL vertraut sind, haben Sie gedacht, dass verschmelzen() sehr ähnlich ist eine Datenbank. Dies ist in der Tat der Fall, und die verschiedenen Argumente verschmelzen() können Sie natürlich beitritt, sowie links, rechts, und vollständige Outer-Joins auszuführen.

Das verschmelzen() Funktion nimmt eine recht große Anzahl von Argumenten. Diese Argumente können sehr einschüchternd aussehen, bis Sie erkennen, dass sie eine geringere Anzahl von verwandten Argumente bilden:

  • x: Ein Datenrahmen.

  • y: Ein Datenrahmen.

  • durch, by.x, by.y: Die Namen der Spalten, die beiden gemeinsam sind, x und y. Die Standardeinstellung ist die Spalten mit gemeinsamen Namen zwischen den beiden Datenrahmen zu verwenden.

  • alle, all.x, all.y: Logische Werte, die die Art der Zusammenführung festlegen. Der Standardwert ist all = FALSE (Was bedeutet, dass nur die passenden Zeilen zurückgegeben werden).

Die letzte Gruppe der Argumente - alle, all.x und Verbündete - verdient eine Erklärung. Diese Argumente bestimmen die Art der Zusammenführung, was geschehen wird.

Wie die verschiedenen Arten von merge zu verstehen

Das verschmelzen() Funktion ermöglicht es vier Arten von Daten kombinieren:

  • Natürlich kommen: Damit werden nur die Zeilen, die von den Datenrahmen entsprechen, geben Sie das Argument all = FALSE.

  • Full Outer Join: Damit alle Zeilen aus beiden Datenrahmen angeben all = TRUE.

  • LEFT OUTER JOIN: Um alle Zeilen Ihrer Datenrahmen x und nur die von y dass Spiel, angeben all.x = TRUE.

  • Rechts außen kommen: Um alle Zeilen Ihrer Datenrahmen y und nur die von x dass Spiel, angeben all.y = TRUE.

    bild0.jpg

So finden Sie die Vereinigung (vollständige äußere Verknüpfung)

Rückkehr zu den Beispielen von US-Staaten, eine vollständige Zusammenführung von Kälte und großen Staaten auszuführen, verwenden verschmelzen und geben Sie all = TRUE:

> Merge (cold.states, large.states, alle = TRUE) Name Frost Area1 Alaska 152 5664322Arizona NA 1.134.173 Kalifornien NA 156361 .... 13 Texas NA 26213414Vermont 168 NA15Wyoming 173 NA

Beide Datenrahmen eine variable Name, so passt der R die auf die Namen der Staaten basieren Fälle. die Variable Frost kommt aus dem Datenrahmen cold.states, und die Variable Bereich kommt aus dem Datenrahmen large.states.

Beachten Sie, dass dies die vollständige Zusammenführung führt und füllt die Spalten mit N / A Werte, bei denen es keine passenden Daten.

Menü