AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 76995634
Accepted
mr.T
mr.T
Asked: 2023-08-29 03:44:03 +0800 CST2023-08-29 03:44:03 +0800 CST 2023-08-29 03:44:03 +0800 CST

como obter índices de linhas reais pacote R arrow

  • 772

vamos imaginar que tenho um arquivo enorme dividido em vários pedaços que posso ler com uma seta

X <- iris
library(arrow)
# bigX a large file that is stored in chunks on disk out of memory
bigX <- arrow_table(X)

depois de filtrar por algum valor Sepal.Width == 3.8, recebo alguns dos dados que preciso

library(dplyr)
 bigX %>% 
  filter(Sepal.Width == 3.8) %>% 
  collect()

..

 Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
1          5.7         3.8          1.7         0.3    setosa
2          5.1         3.8          1.5         0.3    setosa
3          5.1         3.8          1.9         0.4    setosa
4          5.1         3.8          1.6         0.2    setosa
5          7.7         3.8          6.7         2.2 virginica
6          7.9         3.8          6.4         2.0 virginica

Meu problema é que também quero obter índices de linhas reais de uma seleção enorme. como neste exemplo.

X[X$Sepal.Width==3.8,]

..

    Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
19           5.7         3.8          1.7         0.3    setosa
20           5.1         3.8          1.5         0.3    setosa
45           5.1         3.8          1.9         0.4    setosa
47           5.1         3.8          1.6         0.2    setosa
118          7.7         3.8          6.7         2.2 virginica
132          7.9         3.8          6.4         2.0 virginica
  • 1 1 respostas
  • 27 Views

1 respostas

  • Voted
  1. Best Answer
    2023-08-29T04:09:35+08:002023-08-29T04:09:35+08:00

    Não é possível usar row_number()diretamente...

    library(dplyr)
    arrow::arrow_table(iris) %>%
      mutate(rn = row_number()) %>%
      filter(Sepal.Width == 3.8) %>%
      collect()
    # Warning: Expression row_number() not supported in Arrow; pulling data into R
    #   Sepal.Length Sepal.Width Petal.Length Petal.Width   Species  rn
    # 1          5.7         3.8          1.7         0.3    setosa  19
    # 2          5.1         3.8          1.5         0.3    setosa  20
    # 3          5.1         3.8          1.9         0.4    setosa  45
    # 4          5.1         3.8          1.6         0.2    setosa  47
    # 5          7.7         3.8          6.7         2.2 virginica 118
    # 6          7.9         3.8          6.4         2.0 virginica 132
    

    mas adicionando duckdbao pipeline lento, podemos executar algumas funções de janela simples (como row_number()), conforme descrito aqui :

    arrow::arrow_table(iris) %>%
      arrow::to_duckdb() %>%
      mutate(rn = row_number()) %>%
      filter(Sepal.Width == 3.8) %>%
      collect()
    # # A tibble: 6 × 6
    #   Sepal.Length Sepal.Width Petal.Length Petal.Width Species      rn
    #          <dbl>       <dbl>        <dbl>       <dbl> <chr>     <dbl>
    # 1          5.7         3.8          1.7         0.3 setosa       19
    # 2          5.1         3.8          1.5         0.3 setosa       20
    # 3          5.1         3.8          1.9         0.4 setosa       45
    # 4          5.1         3.8          1.6         0.2 setosa       47
    # 5          7.7         3.8          6.7         2.2 virginica   118
    # 6          7.9         3.8          6.4         2   virginica   132
    

    Isso também funciona em conjuntos de dados com vários arquivos, como um diretório (aninhado ou não) de arquivos parquet:

    arrow::write_dataset(mtcars, "~/Downloads/tempmt", partitioning = "cyl")
    arrow::open_dataset("~/Downloads/tempmt/") %>%
      arrow::to_duckdb() %>%
      mutate(rn = row_number()) %>%
      filter(disp > 300) %>%
      collect()
    # # A tibble: 11 × 12
    #      mpg  disp    hp  drat    wt  qsec    vs    am  gear  carb   cyl    rn
    #    <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <int> <dbl>
    #  1  18.7   360   175  3.15  3.44  17.0     0     0     3     2     8    19
    #  2  14.3   360   245  3.21  3.57  15.8     0     0     3     4     8    20
    #  3  10.4   472   205  2.93  5.25  18.0     0     0     3     4     8    24
    #  4  10.4   460   215  3     5.42  17.8     0     0     3     4     8    25
    #  5  14.7   440   230  3.23  5.34  17.4     0     0     3     4     8    26
    #  6  15.5   318   150  2.76  3.52  16.9     0     0     3     2     8    27
    #  7  15.2   304   150  3.15  3.44  17.3     0     0     3     2     8    28
    #  8  13.3   350   245  3.73  3.84  15.4     0     0     3     4     8    29
    #  9  19.2   400   175  3.08  3.84  17.0     0     0     3     2     8    30
    # 10  15.8   351   264  4.22  3.17  14.5     0     1     5     4     8    31
    # 11  15     301   335  3.54  3.57  14.6     0     1     5     8     8    32
    

    Embora seja muito importante executar essa etapa no início do pipeline ... se você fizer isso após a filtragem, não obterá os números reais das linhas, pois eles são relativos aos dados aos quais os números das linhas pontuais são adicionados:

    arrow::open_dataset("~/Downloads/tempmt/") %>%
      arrow::to_duckdb() %>%
      filter(disp > 300) %>%
      mutate(rn = row_number()) %>%
      collect()
    # # A tibble: 11 × 12
    #      mpg  disp    hp  drat    wt  qsec    vs    am  gear  carb   cyl    rn
    #    <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <int> <dbl>
    #  1  18.7   360   175  3.15  3.44  17.0     0     0     3     2     8     1
    #  2  14.3   360   245  3.21  3.57  15.8     0     0     3     4     8     2
    #  3  10.4   472   205  2.93  5.25  18.0     0     0     3     4     8     3
    #  4  10.4   460   215  3     5.42  17.8     0     0     3     4     8     4
    #  5  14.7   440   230  3.23  5.34  17.4     0     0     3     4     8     5
    #  6  15.5   318   150  2.76  3.52  16.9     0     0     3     2     8     6
    #  7  15.2   304   150  3.15  3.44  17.3     0     0     3     2     8     7
    #  8  13.3   350   245  3.73  3.84  15.4     0     0     3     4     8     8
    #  9  19.2   400   175  3.08  3.84  17.0     0     0     3     2     8     9
    # 10  15.8   351   264  4.22  3.17  14.5     0     1     5     4     8    10
    # 11  15     301   335  3.54  3.57  14.6     0     1     5     8     8    11
    

    NB, eu realmente gostaria de poder combinar isso com a add_filename()função falsa,

    arrow::open_dataset("~/Downloads/tempmt/") %>%
      mutate(fn = add_filename()) %>%
      slice_head(n=3) %>%
      collect()
    #    mpg disp  hp drat   wt qsec vs am gear carb cyl                                             fn
    # 1 21.0  160 110 3.90 2.62 16.5  0  1    4    4   6 /home/r2/Downloads/tempmt/cyl=6/part-0.parquet
    # 2 21.0  160 110 3.90 2.88 17.0  0  1    4    4   6 /home/r2/Downloads/tempmt/cyl=6/part-0.parquet
    # 3 21.4  258 110 3.08 3.21 19.4  1  0    3    1   6 /home/r2/Downloads/tempmt/cyl=6/part-0.parquet
    

    mas infelizmente não é suportado pelo duckdb,

    arrow::open_dataset("~/Downloads/tempmt/") %>%
      arrow::to_duckdb() %>%
      mutate(fn = add_filename(), rn = row_number()) %>%
      filter(disp > 400) %>%
      collect()
    # Error in `collect()`:
    # ! Failed to collect lazy table.
    # Caused by error:
    # ! rapi_prepare: Failed to prepare query SELECT *
    # FROM (
    #   SELECT *, add_filename() AS fn, ROW_NUMBER() OVER () AS rn
    #   FROM arrow_044
    # ) q01
    # WHERE (disp > 400.0)
    # Error: Catalog Error: Scalar Function with name add_filename does not exist!
    # Did you mean "add"?
    # Run `rlang::last_trace()` to see where the error occurred.
    

    e to_duckdb()não funciona em um objeto de class "arrow_dplyr_query":

    arrow::open_dataset("~/Downloads/tempmt/") %>%
      mutate(fn = add_filename()) %>%
      arrow::to_duckdb() %>%
      mutate(rn = row_number()) %>%
      filter(disp > 400) %>%
      collect()
    # Error in `collect()`:
    # ! Failed to collect lazy table.
    # Caused by error:
    # ! Invalid Input Error: Attempting to execute an unsuccessful or closed pending query result
    # Error: Invalid Error: std::exception
    # Run `rlang::last_trace()` to see where the error occurred.
    
    • 3

relate perguntas

  • Adicionar número de série para atividade de cópia ao blob

  • A fonte dinâmica do empacotador duplica artefatos

  • Selecione linhas por grupo com 1s consecutivos

  • Lista de chamada de API de gráfico subscritoSkus estados Privilégios insuficientes enquanto os privilégios são concedidos

  • Função para criar DFs separados com base no valor da coluna

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    destaque o código em HTML usando <font color="#xxx">

    • 2 respostas
  • Marko Smith

    Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

    • 1 respostas
  • Marko Smith

    Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

    • 2 respostas
  • Marko Smith

    Por que as compreensões de lista criam uma função internamente?

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 respostas
  • Marko Smith

    Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

    • 4 respostas
  • Marko Smith

    Por que o construtor de uma variável global não é chamado em uma biblioteca?

    • 1 respostas
  • Marko Smith

    Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

    • 1 respostas
  • Marko Smith

    Somente operações bit a bit para std::byte em C++ 17?

    • 1 respostas
  • Martin Hope
    fbrereto Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi Por que as compreensões de lista criam uma função internamente? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A formato fmt %H:%M:%S sem decimais 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python std::views::filter do C++20 não filtrando a visualização corretamente 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa Por que o construtor de uma variável global não é chamado em uma biblioteca? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev Por que os compiladores perdem a vetorização aqui? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan Somente operações bit a bit para std::byte em C++ 17? 2023-08-17 17:13:58 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve