AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 76978240
Accepted
JVGen
JVGen
Asked: 2023-08-25 22:44:36 +0800 CST2023-08-25 22:44:36 +0800 CST 2023-08-25 22:44:36 +0800 CST

Edição condicional de TSV grande no Linux

  • 772

Tenho muitos arquivos TSV grandes com 6 colunas sem nome e cerca de 10 milhões de linhas. Preciso aplicar uma alteração linha por linha e salvar como um novo TSV. Estou trabalhando no Linux e tenho acesso ao awk, gawk, grep. Idealmente, o código faria referência aos números das colunas em seus operadores para que funcionasse independentemente do conteúdo da linha. TIA!

As únicas alterações que precisam ser feitas são nas Colunas 2 e 3, mas a alteração está condicionada ao valor na Coluna 6:

If the value of column 6 is "+", then:  
New Column 2: [Column 2 Value]  
New Column 3: [Column 2 Value] + 1  
  
If the value of column 6 is "-", then:  
New Column 2: [Column 3 Value] - 1  
New Column 3: [Column 3 Value]  

Exemplo de estrutura de dados TSV (não | presente nos dados reais)

| AI     | 828     | 878     | ABC4807:78485:5:79215       | 42 | - |
| AI     | 971     | 1021    | ABC248:78485:5:79215:46065  | 42 | + |
| AI     | 1104    | 1153    | X7481:78485:5:79215:40174   | 35 | - |
| XVDIII | 56939   | 56988   | 9478:78485:5:79215:30872    | 42 | - |
| XVDIII | 56971   | 57020   | 7841S:78485:5:79215:34301   | 42 | - |
| UTXV   | 1043196 | 1043246 | T885189:78485:5:79215:10036 | 42 | + |
| UTXV   | 1043198 | 1043248 | C74581:78485:5:79215:10792  | 42 | - |
| UTXV   | 1043201 | 1043250 | T75S17:78485:5:79215:30204  | 42 | - |
| UTXV   | 1043201 | 1043251 | B784W7:78485:5:79215:42548  | 42 | - |

Saída TSV desejada

| AI     | 877     | 878     | ABC4807:78485:5:79215       | 42 | - |
| AI     | 971     | 972     | ABC248:78485:5:79215:46065  | 42 | + |
| AI     | 1152    | 1153    | X7481:78485:5:79215:40174   | 35 | - |
| XVDIII | 56987   | 56988   | 9478:78485:5:79215:30872    | 42 | - |
| XVDIII | 57019   | 57020   | 7841S:78485:5:79215:34301   | 42 | - |
| UTXV   | 1043196 | 1043197 | T885189:78485:5:79215:10036 | 42 | + |
| UTXV   | 1043247 | 1043248 | C74581:78485:5:79215:10792  | 42 | - |
| UTXV   | 1043249 | 1043250 | T75S17:78485:5:79215:30204  | 42 | - |
| UTXV   | 1043250 | 1043251 | B784W7:78485:5:79215:42548  | 42 | - |
linux
  • 2 2 respostas
  • 34 Views

2 respostas

  • Voted
  1. Best Answer
    dodrg
    2023-08-26T00:21:46+08:002023-08-26T00:21:46+08:00

    O algoritmo para substituir os valores não é o problema. O interessante é manter as colunas de largura fixa.

    Arquivo: dataconvert.awk

    #!/usr/bin/gawk -f
    
    BEGIN {
        OFS = FS = "|"
    }
    {
        if ($7 ~ /+/) {
            len = length($4)
            $4 = $3
            gsub(/\s+/, "", $4)
            $4 = substr((" " ($4 + 1) "                       "), 0, len)
        } else {
            if ($7 ~ /-/) {
                len = length($3)
                $3 = $4
                gsub(/\s+/, "", $3)
                $3 = substr((" " ($3 - 1) "                       "), 0, len)
            }
        } 
        print
    }
    

    Marque o como executável e chmod +x dataconvert.awkvocê pode iniciá-lo chamando diretamente./dataconvert.awk

    Nesta solução, a largura do conteúdo da coluna é armazenada, o resultado preenchido com uma quantidade economizada de espaços e finalmente cortado no comprimento armazenado.

    Se o conjunto de dados realmente não tiver exceções no fornecimento dos valores +ou -na coluna 6, a segunda ifcláusula poderá ser omitida. Em grandes conjuntos de dados, isso pode economizar algum tempo.

    Como o conjunto de dados começa com um delimitador de campo, a primeira coluna está sempre vazia, mas existe. Portanto, a contagem de colunas deve ser +1a forma intuitiva de contar.

    • 1
  2. JVGen
    2023-08-26T02:50:45+08:002023-08-26T02:50:45+08:00

    Adaptei a resposta do dodrg para trabalhar com minha estrutura de dados. Aceitei a resposta deles, mas gostaria de postá-la para qualquer pessoa que possa encontrar isso no futuro.

    awk ' BEGIN { FS = OFS = "\t" }
    {
      if ($6 == "+") {
        $2 = $2
        $3 = $2 + 1
      } else {
        if ($6 == "-") {
          $2 = $3 - 1
          $3 = $3
        }
      } 
      print
    }'  filein.tsv > fileout.tsv
    
    • 0

relate perguntas

  • Contando ocorrências de string na segunda coluna que corresponde às primeiras colunas de um arquivo [fechado]

  • Extraia valores de saída do arquivo de imagem de disco como strings no Linux [fechado]

  • Precisa de ajuda para executar um comando envolvendo várias aspas simples e duplas na linha de comando do Windows via bsub

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    destaque o código em HTML usando <font color="#xxx">

    • 2 respostas
  • Marko Smith

    Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

    • 1 respostas
  • Marko Smith

    Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

    • 2 respostas
  • Marko Smith

    Por que as compreensões de lista criam uma função internamente?

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 respostas
  • Marko Smith

    Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

    • 4 respostas
  • Marko Smith

    Por que o construtor de uma variável global não é chamado em uma biblioteca?

    • 1 respostas
  • Marko Smith

    Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

    • 1 respostas
  • Marko Smith

    Somente operações bit a bit para std::byte em C++ 17?

    • 1 respostas
  • Martin Hope
    fbrereto Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi Por que as compreensões de lista criam uma função internamente? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A formato fmt %H:%M:%S sem decimais 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python std::views::filter do C++20 não filtrando a visualização corretamente 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa Por que o construtor de uma variável global não é chamado em uma biblioteca? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev Por que os compiladores perdem a vetorização aqui? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan Somente operações bit a bit para std::byte em C++ 17? 2023-08-17 17:13:58 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve