Alamin Kung Paano Pagsamahin ang Mga Dataframe sa Python

Alamin Kung Paano Pagsamahin ang Mga Dataframe sa Python

Kung gumagamit ka ng Python, kahit para sa mga pinakasimpleng gawain, malamang na alam mo ang kahalagahan ng mga aklatan ng third-party nito. Ang library ng Pandas, na may mahusay na suporta para sa DataFrames, ay isa sa gayong library.





Maaari kang mag-import ng maraming uri ng file sa Python DataFrames at lumikha ng iba't ibang bersyon upang mag-imbak ng iba't ibang set ng data. Kapag na-import mo na ang iyong data gamit ang DataFrames, maaari mong pagsamahin ang mga ito upang magsagawa ng detalyadong pagsusuri.





Pagharap sa Mga Pangunahing Kaalaman

Bago ka magsimulang mag-merge, kailangan mong magkaroon ng DataFrames para pagsamahin. Para sa mga layunin ng pag-unlad, maaari kang lumikha ng ilang dummy data upang mag-eksperimento.





Lumikha ng DataFrames sa Python

Bilang unang hakbang, i-import ang library ng Pandas sa iyong Python file. Ang Pandas ay isang third-party na library na humahawak ng DataFrames sa Python. Maaari mong gamitin ang angkat pahayag upang gamitin ang aklatan, tulad ng sumusunod:

import pandas as pd

Maaari kang magtalaga ng alias sa pangalan ng library upang paikliin ang iyong mga reference sa code.



Kailangan mong lumikha ng mga diksyunaryo, na maaari mong i-convert sa DataFrames. Para sa pinakamahusay na mga resulta, lumikha ng dalawang variable ng diksyunaryo— dict1 at dict2— upang mag-imbak ng mga partikular na piraso ng impormasyon:

dict1 = {"user_id": ["001", "002", "003", "004", "005"], 
"FName": ["John", "Brad", "Ron", "Roald", "Chris"],
"LName": ["Harley", "Cohen", "Dahl", "Harrington", "Kerr-Hislop"]}

dict2 = {"user_id": ["001", "002", "003", "004"], "Age": [15, 28, 34, 24]}

Tandaan, kailangan mong magkaroon ng isang karaniwang elemento sa parehong mga halaga ng diksyunaryo, upang kumilos bilang pangunahing key para sa pagsasama-sama ng iyong DataFrames sa ibang pagkakataon.





I-convert ang Iyong Mga Diksyonaryo sa DataFrames

Upang i-convert ang iyong mga halaga ng diksyunaryo sa DataFrames, maaari mong gamitin ang sumusunod na paraan:

df1 = pd.DataFrame(dict1) 
df2 = pd.DataFrame(dict2)

Hinahayaan ka ng ilang IDE na suriin ang mga halaga sa loob ng DataFrame sa pamamagitan ng pagtukoy sa function na DataFrame at pagpindot Patakbuhin/Ipatupad . marami naman Mga IDE na katugma sa Python , para mapili mo ang isa na pinakamadaling matutunan mo.





  snippet ng code ng Jupyter Notebook

Kapag nasiyahan ka na sa mga nilalaman ng iyong DataFrames, maaari kang magpatuloy sa hakbang ng pagsasama.

Pagsasama-sama ng Mga Frame Sa Pagsamahin ang Function

Ang merge function ay ang unang Python function na magagamit mo para pagsamahin ang dalawang DataFrame. Kinukuha ng function na ito ang mga sumusunod na default na argumento:

pd.merge(DataFrame1, DataFrame2, how= type of merge)

saan:

  • pd ay isang alias para sa library ng Pandas.
  • pagsamahin ay ang function na pinagsasama ang DataFrames.
  • DataFrame1 at DataFrame2 ay ang dalawang DataFrame na pagsasamahin.
  • paano tumutukoy sa uri ng pagsasanib.

Available ang ilang karagdagang opsyonal na argumento, na magagamit mo kapag mayroon kang kumplikadong istruktura ng data.

Maaari kang gumamit ng iba't ibang mga halaga para sa kung paano tukuyin ng parameter ang uri ng pagsasanib na isasagawa. Magiging pamilyar ang mga ganitong uri ng pagsasanib kung nagawa mo na ginamit ang SQL upang sumali sa mga talahanayan ng database .

Kaliwang Pagsamahin

Ang kaliwang uri ng pagsasanib ay nagpapanatili sa mga halaga ng unang DataFrame na buo at kinukuha ang mga tumutugmang halaga mula sa pangalawang DataFrame.

  snippet ng code ng Jupyter Notebook

Tamang Pagsamahin

Ang tamang uri ng pagsasanib ay nagpapanatili sa mga halaga ng pangalawang DataFrame na buo at kinukuha ang mga tumutugmang halaga mula sa unang DataFrame.

  snippet ng code ng Jupyter Notebook

Inner Merge

Ang panloob na uri ng pagsasanib ay nagpapanatili ng mga tumutugmang halaga mula sa parehong DataFrames at nag-aalis ng mga hindi tumutugmang halaga.

  snippet ng code ng Jupyter Notebook

Outer Merge

Ang panlabas na uri ng pagsasanib ay nagpapanatili ng lahat ng tumutugma at hindi tumutugmang mga halaga at pinagsama-sama ang DataFrames.

  snippet ng code ng Jupyter Notebook

Paano Gamitin ang Concat Function

Ang concat Ang function ay isang flexible na opsyon kumpara sa ilan sa iba pang merge function ng Python. Gamit ang concat function, maaari mong pagsamahin ang DataFrames patayo at pahalang.

Gayunpaman, ang disbentaha ng paggamit ng function na ito ay ang pagtatapon ng anumang hindi tumutugmang mga halaga bilang default. Tulad ng ilang iba pang nauugnay na function, ang function na ito ay may ilang mga argumento, kung saan iilan lamang ang mahalaga para sa isang matagumpay na pagsasama-sama.

concat(dataframes, axis=0, join='outer'/inner)

saan:

  • concat ay ang function na sumali sa DataFrames.
  • mga dataframe ay isang sequence ng DataFrames na pagsasamahin.
  • aksis kumakatawan sa direksyon ng pagsasama-sama, ang 0 ay pahalang, ang 1 ay patayo.
  • sumali tumutukoy sa alinman sa panlabas o panloob na pagdugtong.

Gamit ang dalawang DataFrames sa itaas, maaari mong subukan ang concat function tulad ng sumusunod:

kung paano mag-tweak ng windows 10 para sa gaming
# define the dataframes in a list format 
df_merged_concat = pd.concat([df1, df2])

# print the results of the Concat function
print(df_merged_concat)

Ang kawalan ng axis at pagsali sa mga argumento sa code sa itaas ay pinagsasama ang dalawang dataset. Ang resultang output ay mayroong lahat ng mga entry, anuman ang status ng tugma.

Katulad nito, maaari kang gumamit ng mga karagdagang argumento upang kontrolin ang direksyon at output ng concat function.

Upang kontrolin ang output sa lahat ng tumutugmang mga entry:

73CF12478840FDAAAAB6993ABE1316D356231DDC

Ang resulta ay naglalaman ng lahat ng tumutugmang halaga sa pagitan ng dalawang DataFrame lamang.

  snippet ng code ng Jupyter Notebook

Pinagsasama ang DataFrames Sa Python

Ang DataFrames ay isang mahalagang bahagi ng Python, isinasaalang-alang ang kanilang flexibility at functionality. Dahil sa kanilang mga multi-faceted na paggamit, maaari mong gamitin ang mga ito nang husto upang magsagawa ng iba't ibang mga gawain nang lubos na madali.

Kung natututo ka pa rin tungkol sa Python DataFrames, subukang mag-import ng ilang Excel file, pagkatapos ay pagsamahin ang mga ito sa iba't ibang diskarte.