如何将 for 循环拆分为 3 个单独的数据框？

Question

Asked: 2024-05-08 15:19:13 +0800 CST2024-05-08 15:19:13 +0800 CST 2024-05-08 15:19:13 +0800 CST

基于Python中的列合并两个不重复的CSV文件的正确方法

772

我想将 2 个 CSV 文件合并到一个 CSV 中，并根据一列（第二列）删除所有重复的行。

这是我的第一个 CSV 文件：

    Skufnoo,748702985,-6026769894509215039,Ð’ÑƒÐ¿ÑÐµÐ½ÑŒ Ð¿ÑƒÐ¿ÑÐµÐ½ÑŒ â¤ï¸â€ðŸ©¹ðŸ’—,AA2888 áž…áž¶áž€áŸ‹áž”áž¶áž›áŸ‹áž“áž·áž„áž€áž¶ážŸáž»áž¸ážŽáž¼áž¢áž“áž¡áž¶áž‰ (070645555),1746008070,False,False,4,True,False,0
    mAtkmb,5213786988,4161254730445748607,Ð”Ð°Ð½Ð¸ÑÐ»ÑŒ Ð‘Ð»Ð¸Ð½Ð¾Ð²,AA2888 áž…áž¶áž€áŸ‹áž”áž¶áž›áŸ‹áž“áž·áž„áž€áž¶ážŸáž»áž¸ážŽáž¼áž¢áž“áž¡áž¶áž‰ (070645555),1746008070,False,False,False,False,False,0
    sheluvjoseph,1421438213,8544915453690665435,áž¢áž“ ážŸáŸ†áž¢áž»áž›,AA2888 áž…áž¶áž€áŸ‹áž”áž¶áž›áŸ‹áž“áž·áž„áž€áž¶ážŸáž»áž¸ážŽáž¼áž¢áž“áž¡áž¶áž‰ (070645555),1746008070,False,False,5,True,False,0

第二个 CSV 文件：

    cchamnap,748702985,-7259273529368744780,Chim,AA2888 áž…áž¶áž€áŸ‹áž”áž¶áž›áŸ‹áž“áž·áž„áž€áž¶ážŸáž»áž¸ážŽáž¼áž¢áž“áž¡áž¶áž‰ (070645555),1746008070,False,False,5,True,False,0
    chhounkha,765670208,3636141294788837002,Chhuon Sokha,AA2888 áž…áž¶áž€áŸ‹áž”áž¶áž›áŸ‹áž“áž·áž„áž€áž¶ážŸáž»áž¸ážŽáž¼áž¢áž“áž¡áž¶áž‰ (070645555),1746008070,False,False,False,False,False,0
    CHHORMNIMOL8,5213786988,5104468652588260401,ážŒáž¸ ážŽáž¶.,AA2888 áž…áž¶áž€áŸ‹áž”áž¶áž›áŸ‹áž“áž·áž„áž€áž¶ážŸáž»áž¸ážŽáž¼áž¢áž“áž¡áž¶áž‰ (070645555),1746008070,False,False,5,True,False,0
    Chhailin17,1133044248,6931066845789435875,Chhai Lin,AA2888 áž…áž¶áž€áŸ‹áž”áž¶áž›áŸ‹áž“áž·áž„áž€áž¶ážŸáž»áž¸ážŽáž¼áž¢áž“áž¡áž¶áž‰ (070645555),1746008070,False,False,5,True,False,0

输出文件（own_updated2.csv）应该是：

    Skufnoo,748702985,-6026769894509215039,Ð’ÑƒÐ¿ÑÐµÐ½ÑŒ Ð¿ÑƒÐ¿ÑÐµÐ½ÑŒ â¤ï¸â€ðŸ©¹ðŸ’—,AA2888 áž…áž¶áž€áŸ‹áž”áž¶áž›áŸ‹áž“áž·áž„áž€áž¶ážŸáž»áž¸ážŽáž¼áž¢áž“áž¡áž¶áž‰ (070645555),1746008070,False,False,4,True,False,0
    mAtkmb,5213786988,4161254730445748607,Ð”Ð°Ð½Ð¸ÑÐ»ÑŒ Ð‘Ð»Ð¸Ð½Ð¾Ð²,AA2888 áž…áž¶áž€áŸ‹áž”áž¶áž›áŸ‹áž“áž·áž„áž€áž¶ážŸáž»áž¸ážŽáž¼áž¢áž“áž¡áž¶áž‰ (070645555),1746008070,False,False,False,False,False,0
    sheluvjoseph,1421438213,8544915453690665435,áž¢áž“ ážŸáŸ†áž¢áž»áž›,AA2888 áž…áž¶áž€áŸ‹áž”áž¶áž›áŸ‹áž“áž·áž„áž€áž¶ážŸáž»áž¸ážŽáž¼áž¢áž“áž¡áž¶áž‰ (070645555),1746008070,False,False,5,True,False,0
    chhounkha,765670208,3636141294788837002,Chhuon Sokha,AA2888 áž…áž¶áž€áŸ‹áž”áž¶áž›áŸ‹áž“áž·áž„áž€áž¶ážŸáž»áž¸ážŽáž¼áž¢áž“áž¡áž¶áž‰ (070645555),1746008070,False,False,False,False,False,0
    Chhailin17,1133044248,6931066845789435875,Chhai Lin,AA2888 áž…áž¶áž€áŸ‹áž”áž¶áž›áŸ‹áž“áž·áž„áž€áž¶ážŸáž»áž¸ážŽáž¼áž¢áž“áž¡áž¶áž‰ (070645555),1746008070,False,False,5,True,False,0

我尝试过以下代码：

    import pandas as pd
    import csv


    df1 = pd.read_csv("own1.csv")
    df2 = pd.read_csv("own2.csv")
    merged = pd.concat([df1,df2])

    with open('own_updated.csv', 'w', newline="", encoding='utf-8') as nf:
        merged.to_csv(nf, index=False)

    with open('own_updated.csv', 'r', encoding="utf8") as in_file, open('own_updated2.csv', 'w', newline="", encoding="utf8") as out_file:
        in_data = csv.reader(in_file, delimiter=',')
        writer=csv.writer(out_file)
        tracks = set()          # Tracking duplicates of the second column's cell

        for row in in_data:
            key = row[1]
            if key not in tracks:
                writer.writerow(row)
                tracks.add(key)

效果很好。但问题是有一个不需要的额外文件 own_updated.csv。如何存储合并两个 CSV 文件的所有数据而不创建 own_updated.csv 文件，即将它们存储在内存中，然后根据第二列处理删除重复项？

3 个回答

Voted

Guy · Answer 1 · 2024-05-08T15:44:52+08:00

您不需要使用额外的文件，只需从合并的数据框中删除重复项即可

import pandas as pd

df1 = pd.read_csv('own1.csv', header=None)
df2 = pd.read_csv('own2.csv', header=None)
merged = pd.concat([df1, df2]).drop_duplicates([1], keep='first').reset_index(drop=True)

with open('own_updated.csv', 'w', newline='', encoding='utf-8') as nf:
    merged.to_csv(nf, index=False, header=False)

zhrist · Answer 2 · 2024-05-08T15:47:51+08:00

您应该使用 pandas 中的构建方法 drop_duplicates。这是代码：

import pandas as pd
import csv

df1 = pd.read_csv("own1.csv")
df2 = pd.read_csv("own2.csv")
merged = pd.concat([df1, df2])

# As from example '1' and '2' are the indices of the columns based on which you want to remove duplicates
column_names = merged.columns[[1, 2]]

df_no_duplicates = merged.drop_duplicates(subset=column_names)

with open('own_updated.csv', 'w', newline="", encoding='utf-8') as nf:
    df_no_duplicates.to_csv(nf, index=False)

SIGHUP · Answer 3 · 2024-05-08T15:55:46+08:00

把事情简单化...：

import csv

results = dict()

files = ["own1.csv", "own2.csv"]

for file in files:
    with open(file, newline="") as fd:
        for row in csv.reader(fd):
            results[row[1]] = row

此时，结果字典的value()中已包含合并的数据。根据定义，基于 row[1] 的字典键不能有重复项

基于Python中的列合并两个不重复的CSV文件的正确方法

为什么双破折号 (--) 会导致此 MariaDB 子句评估为 true？

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

ELF 重定位的应用顺序在哪里指定？

为什么 GCC 生成有条件执行 SIMD 实现的代码？

Selenium urllib.error.HTTPError：HTTP 错误 404：未找到

Box::new() 会从堆栈复制到堆吗？

sizeof("string") 的正确输出是什么？

使用 <font color="#xxx"> 突出显示 html 中的代码

我正在尝试仅使用海龟随机和数学模块来制作吃豆人游戏

C++17 中 std::byte 只能按位运算？

基于Python中的列合并两个不重复的CSV文件的正确方法

3 个回答

相关问题