Como divido o loop for em 3 quadros de dados individuais?

Question

Umar

Asked: 2023-11-05 20:34:18 +0800 CST2023-11-05 20:34:18 +0800 CST 2023-11-05 20:34:18 +0800 CST

Como analisar dados hierárquicos e formatá-los em um arquivo TSV em Python?

772

Tenho um conjunto de dados com informações hierárquicas e números KO, e estou procurando formatar esses dados em um arquivo TSV (Tab-Separated Values) em Python, onde a primeira coluna contém números KO, a segunda coluna contém descrições, e a terceira coluna contém coluna contém uma hierarquia baseada na seção 'A' mais próxima nos dados de entrada. A hierarquia deve incluir elementos começando com 'A', 'B' e 'C' até a seção 'C' mais próxima. Além disso, se o mesmo número KO estiver presente em uma hierarquia diferente, essa hierarquia deverá ser separada por | na mesma linha, os dados de entrada estão no formato file.keg. Dados de entrada:

A09100 Metabolism
B
B  09101 Carbohydrate metabolism
C    00010 Glycolysis / Gluconeogenesis [PATH:ko00010]
D      K00844  HK; hexokinase [EC:2.7.1.1]
D      K12407  GCK; glucokinase [EC:2.7.1.2]
D      K00001  E1.1.1.1, adh; alcohol dehydrogenase [EC:1.1.1.1]
B  09103 Lipid metabolism
C    00071 Fatty acid degradation [PATH:ko00071]
D      K00001  E1.1.1.1, adh; alcohol dehydrogenase [EC:1.1.1.1]
A09120 Genetic Information Processing
B
B  09121 Transcription
C    03020 RNA polymerase [PATH:ko03020]
D      K03043  rpoB; DNA-directed RNA polymerase subunit beta [EC:2.7.7.6]
D      K13797  rpoBC; DNA-directed RNA polymerase subunit beta-beta' [EC:2.7.7.6]

Resultado esperado:

    KO      metadata_KEGG_Description        metadata_KEGG_Pathways
K00844  HK; hexokinase [EC:2.7.1.1]     Metabolism, Carbohydrate metabolism, Glycolysis / Gluconeogenesis
K12407  GCK; glucokinase [EC:2.7.1.2]   Metabolism, Carbohydrate metabolism, Glycolysis / Gluconeogenesis
K00001  E1.1.1.1, adh; alcohol dehydrogenase [EC:1.1.1.1]    Metabolism, Carbohydrate metabolism, Glycolysis / Gluconeogenesis|Metabolism, Lipid metabolism, Fatty acid degradation
K03043  rpoB; DNA-directed RNA polymerase subunit beta [EC:2.7.7.6]  Genetic Information Processing, Transcription, RNA polymerase
K13797  rpoBC; DNA-directed RNA polymerase subunit beta-beta' [EC:2.7.7.6]  Genetic Information Processing, Transcription, RNA polymerase

Eu apreciaria qualquer ajuda ou orientação sobre como processar corretamente esses dados em um arquivo TSV desejado com base nas informações hierárquicas fornecidas. Obrigado pela sua ajuda!

este é o meu código

data = """A09100 Metabolism
B
B  09101 Carbohydrate metabolism
C    00010 Glycolysis / Gluconeogenesis [PATH:ko00010]
D      K00844  HK; hexokinase [EC:2.7.1.1]
D      K12407  GCK; glucokinase [EC:2.7.1.2]
D      K00001  E1.1.1.1, adh; alcohol dehydrogenase [EC:1.1.1.1]
B  09103 Lipid metabolism
C    00071 Fatty acid degradation [PATH:ko00071]
D      K00001  E1.1.1.1, adh; alcohol dehydrogenase [EC:1.1.1.1]
A09120 Genetic Information Processing
B
B  09121 Transcription
C    03020 RNA polymerase [PATH:ko03020]
D      K03043  rpoB; DNA-directed RNA polymerase subunit beta [EC:2.7.7.6]
D      K13797  rpoBC; DNA-directed RNA polymerase subunit beta-beta' [EC:2.7.7.6]"""


lines = data.split('\n')

result = []

ko = None
description = None
hierarchy_names = []

for line in lines:
    parts = line.strip().split()
    if parts:
        if parts[0].startswith('A'):
            # Reset hierarchy for a new 'A' section
            hierarchy_names = [" ".join(parts[1:])]
        elif parts[0] == 'K':
            ko = parts[0]
            description = " ".join(parts[1:])
        elif parts[0] == 'D' and len(parts) >= 3:
            ko = parts[1]
            description = " ".join(parts[2:])
        else:
            hierarchy_names.append(" ".join(parts[1:]))

    if ko and description:
        hierarchy_str = ", ".join(hierarchy_names)
        result.append([ko, description, hierarchy_str])

# Add the header row
result.insert(0, ["KO", "metadata_KEGG_Description", "metadata_KEGG_Pathways"])

# Specify the filename for the TSV file
tsv_filename = "output_data.tsv"

with open(tsv_filename, 'w') as tsv_file:
    for row in result:
        tsv_file.write("\t".join(row) + "\n")

print(f"Data saved to {tsv_filename}")

2 respostas

Voted

Timeless · Answer 1 · 2023-11-06T00:24:35+08:00

Sugiro que você verifique o DBGETEntryParsersite da Orange Bioinformatics que lida com arquivos KEGG. Caso contrário, se você estiver tentado a usar pandas com alguma ajuda de regex, você pode tentar isto:

import re

with open("file.keg") as f:
    pat = r"^([A-D]) *(\S+)\s*(.+?)\s*(\[.+\])?(?=$)"
    data = re.findall(pat, f.read(), flags=re.MULTILINE)  ^{regex101-demo}

import pandas as pd

tmp = pd.DataFrame(data, columns=["section", "name", "attribute", "path"])
mA = tmp["section"].eq("A"); mD = tmp["section"].eq("D")
df = tmp.assign(entry= tmp["attribute"].where(mA).ffill()).loc[~mA]

parents = (df["entry"].str.cat(df["attribute"].groupby(
        mD.ne(mD.shift()).cumsum(), sort=False)
            .transform(", ".join).where(~mD).ffill(), sep=", ")
            .rename("parents"))

edges = df[["name"]].join(parents).loc[mD, ["parents", "name"]]

out = (df.join(parents).loc[mD].assign(metadata_KEGG_Pathways=
        lambda x: x["attribute"].str.cat(x["path"], sep=" "))
           .groupby("name", sort=False, as_index=False).agg(
               metadata_KEGG_Description=("metadata_KEGG_Pathways", "first"),
               metadata_KEGG_Pathways=("parents", "|".join)))

# out.to_csv("file.tsv", sep="\t", index=False) # uncomment to make a `.tsv`

Saída ( em formato tabular ):

nome	metadata_KEGG_Descrição	metadata_KEGG_Pathways
K00844	Hong Kong; hexoquinase [EC:2.7.1.1]	Metabolismo, Metabolismo de carboidratos, Glicólise / Gliconeogênese
K12407	GCC; glucoquinase [EC:2.7.1.2]	Metabolismo, Metabolismo de carboidratos, Glicólise / Gliconeogênese
K00001	E1.1.1.1, adh; álcool desidrogenase [EC:1.1.1.1]	Metabolismo, Metabolismo de carboidratos, Glicólise / Gliconeogênese \| Metabolismo, Metabolismo lipídico, Degradação de ácidos graxos
K03043	rpoB; Subunidade beta da RNA polimerase dirigida por DNA [EC:2.7.7.6]	Processamento de informação genética, transcrição, RNA polimerase
K13797	rpoBC; Subunidade beta-beta' da RNA polimerase dirigida por DNA [EC:2.7.7.6]	Processamento de informação genética, transcrição, RNA polimerase

Uma visualização gráfica com networkx :

import networkx as nx
from itertools import chain, pairwise

G = nx.from_edgelist(
    chain.from_iterable(
        [pairwise(vals) for vals in edges.agg(
            ",".join, axis=1).str.split(",").to_numpy()]),
    create_using=nx.DiGraph
)

Umar · Answer 2 · 2023-11-05T21:44:42+08:00

consegui esse código obrigado

data = """A09100 Metabolism
B
B  09101 Carbohydrate metabolism
C    00010 Glycolysis / Gluconeogenesis [PATH:ko00010]
D      K00844  HK; hexokinase [EC:2.7.1.1]
D      K12407  GCK; glucokinase [EC:2.7.1.2]
D      K00001  E1.1.1.1, adh; alcohol dehydrogenase [EC:1.1.1.1]
B  09103 Lipid metabolism
C    00071 Fatty acid degradation [PATH:ko00071]
D      K00001  E1.1.1.1, adh; alcohol dehydrogenase [EC:1.1.1.1]
A09120 Genetic Information Processing
B
B  09121 Transcription
C    03020 RNA polymerase [PATH:ko03020]
D      K03043  rpoB; DNA-directed RNA polymerase subunit beta [EC:2.7.7.6]
D      K13797  rpoBC; DNA-directed RNA polymerase subunit beta-beta' [EC:2.7.7.6]"""

lines = data.split('\n')

result = []

ko = None
description = None
hierarchy_names = []
unique_ko_hierarchy = {}

for line in lines:
    parts = line.strip().split()
    if parts:
        if parts[0].startswith('A'):
            # Reset hierarchy for a new 'A' section
            hierarchy_names = [" ".join(parts[1:])]
        elif parts[0] == 'K':
            ko = parts[0]
            description = " ".join(parts[1:])
        elif parts[0] == 'D' and len(parts) >= 3:
            ko = parts[1]
            description = " ".join(parts[2:])
        else:
            hierarchy_names.append(" ".join(parts[1:]))

    if ko and description:
        hierarchy_str = ", ".join(hierarchy_names)
        if ko in unique_ko_hierarchy:
            unique_ko_hierarchy[ko].append(hierarchy_str)
        else:
            unique_ko_hierarchy[ko] = [hierarchy_str]

# Add the header row
result.append(["KO", "metadata_KEGG_Description", "metadata_KEGG_Pathways"])

for ko, hierarchies in unique_ko_hierarchy.items():
    result.append([ko, description, "|".join(hierarchies)])

# Specify the filename for the TSV file
tsv_filename = "output_data.tsv"

with open(tsv_filename, 'w') as tsv_file:
    for row in result:
        tsv_file.write("\t".join(row) + "\n")

print(f"Data saved to {tsv_filename}")

Como analisar dados hierárquicos e formatá-los em um arquivo TSV em Python?

destaque o código em HTML usando <font color="#xxx">

Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

Por que as compreensões de lista criam uma função internamente?

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

Por que o construtor de uma variável global não é chamado em uma biblioteca?

Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

Somente operações bit a bit para std::byte em C++ 17?

Como analisar dados hierárquicos e formatá-los em um arquivo TSV em Python?

2 respostas

relate perguntas