Adicionar número de série para atividade de cópia ao blob

Question

AndreASousa

Asked: 2025-03-10 05:30:17 +0800 CST2025-03-10 05:30:17 +0800 CST 2025-03-10 05:30:17 +0800 CST

Linguagem R - Extraindo o tipo de dados correto em uma tabela PDF

772

Por favor, considere a seguinte tabela encontrada em um arquivo PDF:

Posso baixar e extrair a tabela com o seguinte código:

url <- "https://www.fenabrave.org.br/portal/files/2023_01_2.pdf"

download.file(url, 'cars.pdf', mode="wb")

library(tabulapdf)

df <- extract_tables(
  'cars.pdf',
  pages = 27,
  area = list(c(126.4826, 96.5997, 782.1684, 297.9600)),
  guess = FALSE)
  bind_rows() |>
  set_names(c("Model","Quantity"))

Infelizmente, a função lê as quantidades como um tipo double e remove todos os zeros no final.

Posso adicionar o seguinte código para alterar sua classe:

df <- extract_tables(
  'cars.pdf',
  pages = 27,
  area = list(c(126.4826, 96.5997, 782.1684, 297.9600)),
  guess = FALSE) |> 
  bind_rows() |>
  set_names(c("Model","Quantity"))|>
  mutate(Quantity = gsub("\\.", "", Quantity))|>
  mutate(Quantity = as.integer(Quantity))

Mas o estrago já está feito: 2.830 virou 283; 1.220 virou 122.

Existe uma maneira de fazer com que os dados sejam lidos como char?

1 respostas

Voted

score 2 · Answer 1 · 2025-03-10T05:56:21+08:00

Best Answer

2025-03-10T05:56:21+08:002025-03-10T05:56:21+08:00

extract_tablespermite que você leia dados como charactervetor. Isso pode ser analisado usando freadwith colClasses = 'character'para ler todas as colunas como caracteres. Então você pode usar gsub("\\.","",df2$quantity)para remover o ponto de milhares.

library(tabulapdf)

string <- tabulapdf::extract_tables("table.pdf", output = "character")|> 
  unlist()

library(data.table)

df2 <- fread(string, colClasses = 'character', data.table = FALSE)

df2$quantity <- gsub("\\.","",df2$quantity)

dando

  Head1 quantity
1     1     3678
2     2     3093
3     3     2830
4     4     2770
5     5     2200

Teste PDF

2

Linguagem R - Extraindo o tipo de dados correto em uma tabela PDF

Teste PDF

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Quando devo usar um std::inplace_vector em vez de um std::vector?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Linguagem R - Extraindo o tipo de dados correto em uma tabela PDF

1 respostas

Teste PDF

relate perguntas