Erfahren Sie, wie Sie Datenrahmen in Python zusammenführen

Erfahren Sie, wie Sie Datenrahmen in Python zusammenführen

Wenn Sie Python selbst für die einfachsten Aufgaben verwenden, sind Sie sich wahrscheinlich der Bedeutung seiner Bibliotheken von Drittanbietern bewusst. Die Pandas-Bibliothek mit ihrer hervorragenden Unterstützung für DataFrames ist eine solche Bibliothek.





Sie können mehrere Dateitypen in Python DataFrames importieren und verschiedene Versionen erstellen, um verschiedene Datensätze zu speichern. Sobald Sie Ihre Daten mit DataFrames importiert haben, können Sie sie zusammenführen, um eine detaillierte Analyse durchzuführen.





Die Grundlagen angehen

Bevor Sie mit dem Zusammenführen beginnen, benötigen Sie DataFrames zum Zusammenführen. Zu Entwicklungszwecken können Sie einige Dummy-Daten zum Experimentieren erstellen.





Wie macht man den Porträtmodus auf dem iPhone 7?

Erstellen Sie die DataFrames in Python

Importieren Sie als ersten Schritt die Pandas-Bibliothek in Ihre Python-Datei. Pandas ist eine Bibliothek eines Drittanbieters, die DataFrames in Python verarbeitet. Du kannst den ... benutzen importieren Anweisung zur Verwendung der Bibliothek wie folgt:

import pandas as pd

Sie können dem Bibliotheksnamen einen Alias ​​zuweisen, um Ihre Codereferenzen zu verkürzen.



Sie müssen Wörterbücher erstellen, die Sie in DataFrames konvertieren können. Erstellen Sie für beste Ergebnisse zwei Wörterbuchvariablen: dict1 und dict2— um bestimmte Informationen zu speichern:

dict1 = {"user_id": ["001", "002", "003", "004", "005"], 
"FName": ["John", "Brad", "Ron", "Roald", "Chris"],
"LName": ["Harley", "Cohen", "Dahl", "Harrington", "Kerr-Hislop"]}

dict2 = {"user_id": ["001", "002", "003", "004"], "Age": [15, 28, 34, 24]}

Denken Sie daran, dass Sie in beiden Wörterbuchwerten ein gemeinsames Element haben müssen, das später als Primärschlüssel für die Kombination Ihrer DataFrames dient.





Konvertieren Sie Ihre Wörterbücher in DataFrames

Um Ihre Wörterbuchwerte in DataFrames zu konvertieren, können Sie die folgende Methode verwenden:

df1 = pd.DataFrame(dict1) 
df2 = pd.DataFrame(dict2)

Bei einigen IDEs können Sie die Werte innerhalb des DataFrame überprüfen, indem Sie auf die DataFrame-Funktion verweisen und drücken Ausführen/Ausführen . Es gibt viele Python-kompatible IDEs , so dass Sie diejenige auswählen können, die für Sie am einfachsten zu lernen ist.





  Jupyter Notebook-Codeausschnitt

Sobald Sie mit dem Inhalt Ihrer DataFrames zufrieden sind, können Sie mit dem Zusammenführungsschritt fortfahren.

Kombinieren von Frames mit der Merge-Funktion

Die Zusammenführungsfunktion ist die erste Python-Funktion, mit der Sie zwei DataFrames kombinieren können. Diese Funktion akzeptiert die folgenden Standardargumente:

pd.merge(DataFrame1, DataFrame2, how= type of merge)

Wo:

  • pd ist ein Alias ​​für die Pandas-Bibliothek.
  • verschmelzen ist die Funktion, die DataFrames zusammenführt.
  • DataFrame1 und DataFrame2 sind die beiden DataFrames, die zusammengeführt werden sollen.
  • wie definiert den Zusammenführungstyp.

Einige zusätzliche optionale Argumente sind verfügbar, die Sie verwenden können, wenn Sie eine komplexe Datenstruktur haben.

Sie können verschiedene Werte für den how-Parameter verwenden, um die Art der durchzuführenden Zusammenführung zu definieren. Diese Arten von Zusammenführungen werden Ihnen vertraut sein, wenn Sie sie kennen verwendete SQL, um Datenbanktabellen zu verbinden .

Warum Social Media gut für die Gesellschaft ist

Linke Zusammenführung

Der linke Zusammenführungstyp behält die Werte des ersten DataFrame bei und ruft die übereinstimmenden Werte aus dem zweiten DataFrame ab.

  Jupyter Notebook-Codeausschnitt

Rechts zusammenführen

Der richtige Zusammenführungstyp behält die Werte des zweiten DataFrame bei und ruft die übereinstimmenden Werte aus dem ersten DataFrame ab.

  Jupyter Notebook-Codeausschnitt

Innere Verschmelzung

Der innere Zusammenführungstyp behält die übereinstimmenden Werte aus beiden DataFrames bei und entfernt nicht übereinstimmende Werte.

  Jupyter Notebook-Codeausschnitt

Äußere Verschmelzung

Der äußere Zusammenführungstyp behält alle übereinstimmenden und nicht übereinstimmenden Werte bei und konsolidiert die DataFrames zusammen.

  Jupyter Notebook-Codeausschnitt

So verwenden Sie die Concat-Funktion

Das konkat Die Funktion ist eine flexible Option im Vergleich zu einigen anderen Merge-Funktionen von Python. Mit der concat-Funktion können Sie DataFrames vertikal und horizontal kombinieren.

Der Nachteil bei der Verwendung dieser Funktion besteht jedoch darin, dass alle nicht übereinstimmenden Werte standardmäßig verworfen werden. Wie einige andere verwandte Funktionen hat diese Funktion einige Argumente, von denen nur wenige für eine erfolgreiche Verkettung wesentlich sind.

concat(dataframes, axis=0, join='outer'/inner)

Wo:

  • konkat ist die Funktion, die DataFrames verbindet.
  • Datenrahmen ist eine Folge von zu verkettenden DataFrames.
  • Achse stellt die Richtung der Verkettung dar, wobei 0 horizontal und 1 vertikal ist.
  • beitreten gibt entweder einen äußeren oder einen inneren Join an.

Mit den beiden oben genannten DataFrames können Sie die concat-Funktion wie folgt ausprobieren:

# define the dataframes in a list format 
df_merged_concat = pd.concat([df1, df2])

# print the results of the Concat function
print(df_merged_concat)

Das Fehlen der Achsen- und Join-Argumente im obigen Code kombiniert die beiden Datensätze. Die resultierende Ausgabe enthält alle Einträge, unabhängig vom Übereinstimmungsstatus.

Ebenso können Sie zusätzliche Argumente verwenden, um die Richtung und die Ausgabe der concat-Funktion zu steuern.

So steuern Sie die Ausgabe mit allen übereinstimmenden Einträgen:

# Concatenating all matching values between the two dataframes based on their columns 
df_merged_concat = pd.concat([df1, df2], axis=1, join = 'inner')

print(df_merged_concat)

Das Ergebnis enthält nur alle übereinstimmenden Werte zwischen den beiden DataFrames.

  Jupyter Notebook-Codeausschnitt

DataFrames mit Python zusammenführen

DataFrames sind aufgrund ihrer Flexibilität und Funktionalität ein wesentlicher Bestandteil von Python. Aufgrund ihrer vielseitigen Einsatzmöglichkeiten können Sie sie ausgiebig einsetzen, um eine Vielzahl von Aufgaben mit größter Leichtigkeit zu erledigen.

So sehen Sie gelöschte Nachrichten im Messenger

Wenn Sie noch etwas über Python DataFrames lernen, versuchen Sie, einige Excel-Dateien zu importieren, und kombinieren Sie sie dann mit verschiedenen Ansätzen.