Diferenças nas 2 maneiras de ler CSV no Spark DataFrame?

Question

Hashim Aziz

Asked: 2024-11-14 04:36:33 +0800 CST2024-11-14 04:36:33 +0800 CST 2024-11-14 04:36:33 +0800 CST

Substituir valores duplicados em colunas do arquivo CSV

772

Tenho um arquivo CSV sem cabeçalho que é classificado na primeira coluna. Quando a 2ª e a 3ª colunas são idênticas, quero "recolhê-las" em uma - ou seja, deixar a última coluna vazia. Em outras palavras, isto:

0000001,11111,66666
0000002,12121,22222
0000003,33333,33333
0000004,74747,44444
0000005,12345,12345

...se torna isto:

0000001,11111,66666
0000002,12121,22222
0000003,33333,
0000004,74747,44444
0000005,12345,

Eu tentei várias permutações de grepand cutmas não consegui fazer nada funcionar - o mais próximo que cheguei foi cut -c 8-19 file.csv, que apenas isola a 2ª e a 3ª colunas. Tenho a sensação de que precisar fazer isso em colunas e precisar excluir o valor em vez da linha inteira torna isso complicado o suficiente para exigir awkor sed, e eu não sei o suficiente sobre nenhum dos dois para saber como abordar isso.

5 respostas

Voted

anubhava · Answer 1 · 2024-11-14T04:42:12+08:00

anubhava

2024-11-14T04:42:12+08:002024-11-14T04:42:12+08:00

Isto awk(com qualquer distribuição) deve funcionar para você:

awk 'BEGIN {FS=OFS=","} $2 == $3 {$3=""} 1' file

0000001,11111,66666
0000002,12121,22222
0000003,33333,
0000004,74747,44444
0000005,12345,

5

RavinderSingh13 · Answer 2 · 2024-11-14T06:50:58+08:00

RavinderSingh13

2024-11-14T06:50:58+08:002024-11-14T06:50:58+08:00

No GNU awkcom seus exemplos mostrados, tente o seguinte código. Usando matcha função com regex (^[^,]+,)([^,]+)(,)([^,]+)(.*$)e usando sua capacidade de salvar valores correspondentes em grupos de captura que estão sendo usados para verificação posterior e impressão conforme a necessidade.

awk '
match($0,/(^[^,]+,)([^,]+)(,)([^,]+)(.*$)/,arr){
  if(arr[2]==arr[4]){ arr[4]=arr[3] }
  print arr[1] arr[2] arr[3] arr[4]
}
' Input_file

4

sseLtaH · Answer 3 · 2024-11-14T04:40:08+08:00

Best Answer

sseLtaH

2024-11-14T04:40:08+08:002024-11-14T04:40:08+08:00

Usandosed

$ sed -E 's/([^,]*,([^,]*),)\2/\1/' input_file
0000001,11111,66666
0000002,12121,22222
0000003,33333,
0000004,74747,44444
0000005,12345,

2

potong · Answer 4 · 2024-11-14T07:00:01+08:00

potong

2024-11-14T07:00:01+08:002024-11-14T07:00:01+08:00

Isso pode funcionar para você (GNU sed):

sed -E 's/(,.*)\1$/\1,/' file

Faça a correspondência de padrões entre a segunda e a terceira colunas e substitua pela segunda coluna.

1

Daweo · Answer 5 · 2024-11-15T00:05:22+08:00

Daweo

2024-11-15T00:05:22+08:002024-11-15T00:05:22+08:00

Eu aproveitaria o GNU AWKpara esta tarefa da seguinte maneira: deixe file.txto conteúdo ser

0000001,11111,66666
0000002,12121,22222
0000003,33333,33333
0000004,74747,44444
0000005,12345,12345

então

awk 'BEGIN{FS=OFS=","}{print $1,$2,$2==$3?"":$3}' file.txt

dá saída

0000001,11111,66666
0000002,12121,22222
0000003,33333,
0000004,74747,44444
0000005,12345,

Explicação: Informo ao GNU AWKque a vírgula é tanto um separador de campo ( FS) quanto um separador de campo de saída ( OFS), então componho a linha usando o chamado operador ternário com a condição de que o 2º campo seja igual ao 3º campo, o valor se verdadeiro sendo uma string vazia e o valor se falso sendo o 3º conteúdo do campo.

(testado no GNU Awk 5.0.1)

0

Substituir valores duplicados em colunas do arquivo CSV

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Por que esse código Java simples e pequeno roda 30x mais rápido em todas as JVMs Graal, mas não em nenhuma JVM Oracle?

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

Substituir valores duplicados em colunas do arquivo CSV

5 respostas

relate perguntas