如何将 for 循环拆分为 3 个单独的数据框？

Question

Andrew Alsberge

Asked: 2025-04-30 23:40:29 +0800 CST2025-04-30 23:40:29 +0800 CST 2025-04-30 23:40:29 +0800 CST

python 中是否有更干净的字符串清理工具

772

我正在尝试从我的示例字符串中创建一个字典，但我得到的样本源非常脏

我的工作python代码片段：

    dict(item.split(':', 1) for item in re.sub(' ', '', re.sub('"', '', ','.join(
            list(filter(None, re.sub('\r', '', text_subsection.split('text')[1]).split('\n')))))).split(',')
             )

text_subsection 中的内容示例如下：

\r\n; Count of Something: 3\r\ntext\r\n"Key1: 9999999, Key2: mnkhkljh213, Key3: 593, Key4: 66666"\r\n"Key5 something: sample, Desc: , Date: 4/28/2025, Time: 4:15 PM"\r\n"ANOTHERKEY: 622523, KEY1: 9999999, KEY6: 160305, KEY7: 0, KEY8: 10, KEY11: 1, DATE: 4/28/2025, TIME: 16:15:50"\r\n

笔记：

是的，key1 的形式为“Key1”和“KEY1”

是的，日期以“Date”和“DATE”的形式出现

是的，时间以“时间”和“时间”以及多个“：”的形式出现

是的，key5 名称中有一个空格

我同意稍后使用这个字典的逻辑中这些关键的重复

3 个回答

Voted

jabaa · Answer 1 · 2025-05-01T00:32:51+08:00

Best Answer

jabaa

2025-05-01T00:32:51+08:002025-05-01T00:32:51+08:00

您可以合并两个外部的re.sub，删除list并将内部的re.sub与合并split：

dict(item.split(':', 1) for item in re.sub(' |"', '', ','.join(filter(None, text_subsection.split('text')[1].split('\r\n')))).split(','))

re.sub(' |"', '', ...)删除所有空格和双引号。

join需要一个可迭代对象。它不一定是列表。

如果\n总是带有\r，则删除\r并按拆分\n与按拆分相同\r\n。

1

JonSG · Answer 2 · 2025-05-01T00:37:47+08:00

我不确定您是否觉得这更干净（我碰巧这么认为）因为这有点主观，但这似乎给了您想要的结果。

text_subsection ="""\r\n; Count of Something: 3\r\ntext\r\n"Key1: 9999999, Key2: mnkhkljh213, Key3: 593, Key4: 66666"\r\n"Key5 something: sample, Desc: , Date: 4/28/2025, Time: 4:15 PM"\r\n"ANOTHERKEY: 622523, KEY1: 9999999, KEY6: 160305, KEY7: 0, KEY8: 10, KEY11: 1, DATE: 4/28/2025, TIME: 16:15:50"\r\n"""
result = {
    z[0]: z[1]
    for x in text_subsection.split("\r\n")
    for y in x.split(", ") if not y.startswith(";")
    for z in [y.strip('"').split(": ")] if len(z) == 2
}
print(json.dumps(result, indent=4))

为您提供：

{
    "Key1": "9999999",
    "Key2": "mnkhkljh213",
    "Key3": "593",
    "Key4": "66666",
    "Key5 something": "sample",
    "Desc": "",
    "Date": "4/28/2025",
    "Time": "4:15 PM",
    "ANOTHERKEY": "622523",
    "KEY1": "9999999",
    "KEY6": "160305",
    "KEY7": "0",
    "KEY8": "10",
    "KEY11": "1",
    "DATE": "4/28/2025",
    "TIME": "16:15:50"
}

如果您确实想删除键中的空格，您可以执行以下操作：

z[0].replace(" ", ""): z[1]

Ben A. · Answer 3 · 2025-05-01T00:41:45+08:00

Ben A.

2025-05-01T00:41:45+08:002025-05-01T00:41:45+08:00

鉴于您在评论中提到的减少对正则表达式的依赖，我在 regex101 中尝试了一下您的示例字符串。我认为您只需要这个：([A-Za-z0-9 ]+?):\s*([^,\r\n"]+)。匹配 n 是键和值的字符串。对于匹配 n，组 1 是键，组 2 是值。

需要注意的是，你对某些事情的处理方式留下了一些模糊性。\r\ntext\r\n大概不是计数的一部分（不是数字），也不是键。它自成一行。这就是为什么我使用modified_text，因为我假设如果事物自成一行，那么如果没有合并，它们就会被预先擦除。

因此你可以使用：

matches = re.findall(
    r'([A-Za-z0-9 ]+?):\s*([^,\r\n"]+)', modified_text) 
#This extracts the match, which is what we first care about
)

result = {} # This creates the dictionary
for key, value in matches:
    key = key.strip()
    value = value.strip()
    if key not in result:
        result[key] = value

0

python 中是否有更干净的字符串清理工具

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

python 中是否有更干净的字符串清理工具

3 个回答

相关问题