Wir werden Pandas in Python diskutieren, einer Open-Source-Bibliothek, die Hochleistungsdatenstrukturen und Datenanalyse-Tools liefert, die verwendet werden können. Wir werden auch über den DataFrame, die Vorteile von Pandas und darüber erfahren, wie Sie Pandas verwenden können, um mehrere Spalten eines Datenrahmens auszuwählen . Lass uns anfangen!
Was ist Pandas in Python??
Pandas ist eine Python Open-Source-Bibliothek. Es liefert effiziente Strukturen und Tools für die Datenanalyse, die verwendet werden können. Pandas ist ein Python -Modul, das über Numpy operiert und für Data Science und Analytics häufig verwendet wird. Numpy ist ein weiterer Satz von Datenstrukturen auf niedriger Ebene, die mehrdimensionale Arrays und eine Vielzahl von mathematischen Arrayoperationen verarbeiten können. Pandas verfügt über eine fortgeschrittenere Benutzeroberfläche. Es verfügt auch über eine robuste Zeitreihen-Fähigkeit und eine effiziente tabellarische Datenausrichtung. Die primäre Datenstruktur von Pandas ist der Datenrahmen. Eine 2-D-Datenstruktur ermöglicht es uns, tabellarische Daten zu speichern und zu ändern. Pandas liefern den Datenrahmen wie Datenmanipulation, Verkettung, Zusammenführung, Gruppierung usw. jede Funktionalität wie Datenmanipulation, Verkettung, Verschmelzung, Gruppierung usw.
Was ist ein Datenrahmen?
Die wesentlichste und ausführlichste Datenstruktur ist der Datenrahmen. Es ist eine gemeinsame Methode zur Datenspeicherung. DataFrame speichert Daten in Zeilen und Spalten, genau wie eine SQL -Tabelle oder eine Tabellenkalkulationsdatenbank.
Vorteile von Pandas
Viele Benutzer wünschen sich, dass die SQL Funktionen wie die Gaußsche Zufallszahlerzeugung oder Quantile aufgenommen hat, da sie Schwierigkeiten haben, einen prozeduralen Begriff in eine SQL -Abfrage aufzunehmen. Benutzer können sagen: "Wenn ich dies nur in Python schreiben und schnell zu SQL umstellen könnte", bietet Pandas einen tabellarischen Datentyp mit gut gestalteten Schnittstellen, die es ihnen ermöglichen, genau das zu tun. Es gibt mehr ausführliche Optionen, z. Pandas hat eine Ein-Liner-SQL-Leseschnittstelle (PD.Lesen Sie SQL) und eine Ein-Liner-SQL-Schnittstelle (PD.zu SQL), vergleichbar mit R -Datenrahmen.
Ein weiterer bedeutender Vorteil besteht darin, dass die Diagrammbibliotheken wie SEABORBE die Datenrahmensäulen als Diagrammattribute auf hoher Ebene behandeln können. Pandas bieten also eine angemessene Möglichkeit, die tabellarischen Daten in Python und einige sehr wundervolle Speicher- und Diagramm -APIs zu verwalten.
Option 1: Verwenden des Basisschlüsselindex
1 2 3 4 5 6 7 8 9 10 | Pandas als PD importieren Data = 'Name': ['A', 'B', 'C', 'D'], 'Alter': [27, 24, 22, 32] df = pd.DataFrame (Daten) DF ['Name', 'Alter']]] |
Ausgang:
1 2 3 4 5 6 7 8 9 | Name Alter 0 a 27 1 B 24 2 C 22 3 D 32 |
Option 2: Verwenden .loc []
1 2 3 4 5 6 7 8 9 10 11 12 13 14 | Pandas als PD importieren Data = 'Frucht': ['Apfel', 'Banane', 'Grapes', 'Orange'], 'Preis': [160, 100, 60, 80] df = pd.DataFrame (Daten) df.loc [0: 2, ['Frucht', 'Preis']]] |
Ausgang:
1 2 3 4 5 6 7 8 9 | Obstpreis 0 Apple 160 1 Banane 100 2 Trauben 60 3 Orange 80 |
Option 3: Verwenden .Iloc []
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 | Pandas als PD importieren Data = 'Hund': ['A', 'B', 'C', 'D'], 'Alter': [2, 4, 3, 1] df = pd.DataFrame (Daten) df.Iloc [: 0: 2] |
Ausgang:
1 2 3 4 5 6 7 8 9 | Hundealter 0 a 2 1 B 4 2 C 3 3 d 1 |
Optionen 4: Verwenden .ix []
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 | Pandas als PD importieren Data = 'Name': ['A', 'B', 'C', 'D'], 'Rollnummer': [21, 25, 19, 49] df = pd.DataFrame (Daten) drucken (df.ix [:, 0: 2]) |
Ausgang:
1 2 3 4 5 6 7 8 9 | Name Rollnummer 0 A 21 1 B 25 2 C 19 3 D 49 |
Abschluss
Wir haben über Pandas in Python, den DataFrame, die Vorteile von Pandas und die Verwendung von Pandas zur Auswahl mehrerer Spalten eines Datenframe. Es gibt vier Optionen, die wir in der Auswahl mehrerer Spalten besprochen haben: Verwenden der grundlegenden Schlüsselindexierung “,“.ix ”,“.loc ”und“.iloc ”.