Aplicar operação lógica em um dataframe no pyspark

Question

John Stud

Asked: 2023-09-19 22:14:57 +0800 CST2023-09-19 22:14:57 +0800 CST 2023-09-19 22:14:57 +0800 CST

Databricks Autoloader/writeStream: Como tentar novamente?

772

Estou tentando usar o AutoLoader com Databricks, mas estou sendo atingido por esta recomendação e erro:

org.apache.spark.sql.catalyst.util.UnknownFieldException: 
[UNKNOWN_FIELD_EXCEPTION.NEW_FIELDS_IN_FILE] 
Encountered unknown fields during parsing: [col_name_here], 
which can be fixed by an automatic retry: true

Não consigo encontrar um único documento usando o Google que capture qualquer linguagem de erro, então não tenho certeza de como e onde posso usar essa suposta correção.

Meu código é o seguinte:

xd = spark.readStream.format("cloudFiles") \
  .option("cloudFiles.format", "csv") \
  .option("cloudFiles.schemaLocation", "dbfs:/mnt/temp/checkpoints/schema") \
  .option("cloudFiles.schemaEvolutionMode","addNewColumns") \
  .option("pathGlobfilter", "20230808_*") \
  .load("/mnt/test_loc") \
.writeStream \
.format("delta") \
.outputMode("append") \
.option("checkpointLocation", "dbfs:/mnt/temp/checkpoints") \
.option("mergeSchema", "true") \
.option("overwriteSchema", "true") \
.toTable("dBronze.Table1")

1 respostas

Voted

Alex Ott · Answer 1 · 2023-09-19T23:13:14+08:00

Best Answer

Alex Ott

2023-09-19T23:13:14+08:002023-09-19T23:13:14+08:00

Você só precisa executar novamente o seu código e ele captará as alterações no esquema. Se for um trabalho automatizado, você pode configurar novas tentativas no nível do trabalho (consulte a documentação ).

PS Você pode tentar consultar Delta Live Tables - ele tenta automaticamente essas tarefas.

1

Databricks Autoloader/writeStream: Como tentar novamente?

destaque o código em HTML usando <font color="#xxx">

Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

Por que as compreensões de lista criam uma função internamente?

Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

Por que o construtor de uma variável global não é chamado em uma biblioteca?

Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

Somente operações bit a bit para std::byte em C++ 17?

Databricks Autoloader/writeStream: Como tentar novamente?

1 respostas

relate perguntas