AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / user-5904690

Max's questions

Martin Hope
Max
Asked: 2025-01-10 06:13:05 +0800 CST

lapply retorna o mesmo valor para cada elemento do quadro de dados

  • 5

Criei uma função que divide uma string por ":" e pega o primeiro elemento, que é a informação que preciso de um vcf:

remove_semicolon = function(x){
    newstr = strsplit(x,":")[[1]][1]
    return(newstr)
}

Desejo aplicá-lo a cada elemento de um quadro de dados, como o seguinte:

>rubbish
              NS05                   NS113                   NS137
1              0/0:1                  0/0:15                  0/0:25
2              0/0:1                  0/0:15                  0/0:25
3              0/0:1                  0/0:16                  0/0:25
4 1/1:0,1:1:3:39,3,0 1/1:0,16:16:48:621,48,0 1/1:0,26:26:78:969,78,0
5              0/0:1                  0/0:16                  0/0:29

De modo que para rubbish[1,1] a saída desejada é "0/0", para rubbish[4,1] "1/1" etc, com a estrutura da matriz/quadro de dados deixada intacta. No entanto,

 rubbish[]=lapply(rubbish,remove_semicolon)

retorna:

> rubbish
NS05 NS113 NS137
1  0/0   0/0   0/0
2  0/0   0/0   0/0
3  0/0   0/0   0/0
4  0/0   0/0   0/0
5  0/0   0/0   0/0

ainda que, em contraste,

sapply(rubbish[,1],remove_semicolon)

retorna o que eu quero, ou seja, um vetor 0/0, 0/0, 0/0, 1/1, 0/0 em vez de todos 0/0:

         0/0:1              0/0:1              0/0:1 1/1:0,1:1:3:39,3,0 
         "0/0"              "0/0"              "0/0"              "1/1" 
         0/0:1 
         "0/0" 

O que estou fazendo incorretamente ao implementar lapply? Ele não deveria simplesmente aplicar a função remove_semicolon a cada elemento de lixo da mesma forma que sapply faz para cada elemento de um vetor de coluna?

  • 1 respostas
  • 52 Views
Martin Hope
Max
Asked: 2025-01-03 05:14:17 +0800 CST

Identificando linhas de quadro de dados em R com pares específicos de valores em duas colunas

  • 12

Gostaria de identificar todas as linhas em um data frame (ou matriz) cujos valores nas colunas 1 e 2 correspondem a um par específico. Por exemplo, se eu tiver uma matriz

testmat=rbind(c(1,1),c(1,2),c(1,4),c(2,1),c(2,4),c(3,4),c(3,10))

Gostaria de identificar as linhas que contêm qualquer um dos seguintes pares, ou seja, todas as linhas que contêm uma combinação de 1,2 ou 2,4 em suas primeira e segunda colunas

of_interest = rbind(c(1,2),c(2,4))

O seguinte não funciona

which(testmat[,1] %in% of_interest[,1] & testmat[,2] %in% of_interest[,2])

porque, como esperado, ele retorna todas as combinações de 1,2 na primeira coluna e 2,4 na segunda (ou seja, linhas 2,3,5 em vez de apenas as linhas 2 e 5, como desejado), de modo que a linha [1,4] é incluída, mesmo que este não seja um dos pares que estou consultando. Deve haver alguma maneira simples de usar which...%in%... para corresponder a pares específicos como este, mas não consegui encontrar um exemplo disso que funcione.

Observe que preciso das posições/números de linhas que correspondem à condição desejada.

  • 4 respostas
  • 166 Views
Martin Hope
Max
Asked: 2024-12-10 02:17:18 +0800 CST

Usando o layout R para redimensionar e centralizar a primeira linha

  • 5

Estou tentando criar um gráfico em R com três painéis usando a função de layout.

Se eu usar, por exemplo

layout = layout(matrix(c(1,1,2,3),2,2,byrow=TRUE)
layout = plot(x1,y1,main="Fig 1A")
layout = plot(x2,y2,main="Fig 1B")
layout = plot(x3,y3,main="Fig 1C")

então obtenho um gráfico amplo e esticado para x1,y1 e o gráfico quadrado desejado para x2,y2 e x3,y3.

O que eu gostaria de criar é um gráfico de três painéis onde o gráfico x1,y1 é um quadrado das mesmas proporções que aqueles na segunda linha, e centralizado acima dos gráficos B,C (ou seja, Fig 1A, 1B, 1C são do mesmo tamanho/proporções, com 1A centralizado acima de B e C). Os argumentos de altura e largura da função de layout me permitirão redimensionar os tamanhos relativos dos dois painéis na segunda linha, mas não vejo como isso pode ser usado para atingir a posição e as proporções desejadas para 1A.

Existe uma maneira de fazer isso usando layout em R?

  • 1 respostas
  • 21 Views
Martin Hope
Max
Asked: 2024-09-03 23:38:28 +0800 CST

Lendo linhas em determinado intervalo de um arquivo em python: alternativas para readline()

  • 5

Percebo que como ler linhas de um arquivo no intervalo [início, fim] é uma pergunta comum, no entanto muitas das respostas padrão não funcionam bem para meu conjunto de dados.

Especificamente, tenho arquivos de dados com 500 mil linhas e 100 mil colunas. Cada bloco de 50 linhas é um conjunto de dados separado que preciso ler como um bloco, analisar e, então, passar para o próximo bloco. Usar readlines() para criar um objeto de dados que eu possa amostrar em incrementos de 50 não funcionará, porque os objetos de dados ocupam muita memória.

Achei que algo como o seguinte funcionaria (para o exemplo abaixo, criei um arquivo de teste com 150 linhas (3 réplicas de 50). "myfunction()" é apenas um espaço reservado para o processamento de cada linha)

infile = open("test_file", "r")
outfile = open("out_test_file", "w")

for rep in range(0:3):
    to_sample = list(range(rep*50, rep*50+50))
    i = 0
    for line in infile:
        if i in to_sample:
            something_useful = my_function(line)
    i=i+1
    outfile.write(str(something_useful))

 outfile.close()

O script me ajuda a passar pela primeira iteração de 50, mas depois não pode prosseguir, provavelmente porque o

for line infile

O loop não inicia no início do arquivo durante a próxima iteração de rep, pois ele já leu a última linha do infile.

Como eu disse, se os arquivos de dados fossem de tamanho gerenciável, eu poderia usar apenas readlines e então amostrar a matriz nos intervalos desejados usando o loop sobre rep e número de linha, mas isso não é viável para este conjunto de dados. Qual seria uma alternativa eficiente?

python
  • 2 respostas
  • 44 Views
Martin Hope
Max
Asked: 2024-05-21 22:20:40 +0800 CST

Contando o número de linhas e caracteres em um arquivo separados por um caractere específico

  • 6

Eu tenho um arquivo de texto com o seguinte formato:

>1
AGGGTCACGTAATGCTGATCCAGTCTTGTTTTTATTTTCATTCATGTTCCCGCTCTTGCT
TTGATTCCGACTTCTAACGTTTAACCTGTGATCAGACGTTTCACTGCTCCATATTTTACG
TGTGCCTGCCGGTCATCTTGGGTAGAGTTAGCATATCC
>2
GTTTGGAAAACCTTGAGAACTTGGCTGAGCAACTAGGAGATAGGCGTATAAAGACTATCG
GCTTTGTTCTCGAAAAAATTCAATCAATTTTCGAGCATTCTTATCGCAGAATTGTTGAAT
>3
ACTCATG

Onde o número real de linhas após cada ">" pode ter milhares ou até milhões. Neste exemplo, digamos (eu não as contei) que existem 180 letras (e 3 linhas) após >1, 2 linhas e 100 caracteres após >2, e 1 linha de 7 caracteres após >3.

Eu gostaria que a saída fosse algo como:

>1
3 180
>2
2 100
>3
1 7

(o formato não é crítico desde que haja duas informações - o número de linhas e o número de caracteres).

Tenho usado um script python para dividir esses arquivos pelo ">" e depois contar o número de linhas e caracteres entre cada >. No entanto, os arquivos são muito grandes e o script python demora muito para ser executado. Existe uma maneira simples de fazer isso usando o awk ou algo mais na linha de comando do Linux?

awk
  • 5 respostas
  • 41 Views

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    Reformatar números, inserindo separadores em posições fixas

    • 6 respostas
  • Marko Smith

    Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

    • 2 respostas
  • Marko Smith

    Problema com extensão desinstalada automaticamente do VScode (tema Material)

    • 2 respostas
  • Marko Smith

    Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

    • 1 respostas
  • Marko Smith

    Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

    • 1 respostas
  • Marko Smith

    Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

    • 6 respostas
  • Marko Smith

    `(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

    • 3 respostas
  • Marko Smith

    Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

    • 1 respostas
  • Marko Smith

    PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

    • 2 respostas
  • Marko Smith

    AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

    • 1 respostas
  • Martin Hope
    Fantastic Mr Fox Somente o tipo copiável não é aceito na implementação std::vector do MSVC 2025-04-23 06:40:49 +0800 CST
  • Martin Hope
    Howard Hinnant Encontre o próximo dia da semana usando o cronógrafo 2025-04-21 08:30:25 +0800 CST
  • Martin Hope
    Fedor O inicializador de membro do construtor pode incluir a inicialização de outro membro? 2025-04-15 01:01:44 +0800 CST
  • Martin Hope
    Petr Filipský Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não? 2025-03-23 21:39:40 +0800 CST
  • Martin Hope
    Catskul O C++20 mudou para permitir a conversão de `type(&)[N]` de matriz de limites conhecidos para `type(&)[]` de matriz de limites desconhecidos? 2025-03-04 06:57:53 +0800 CST
  • Martin Hope
    Stefan Pochmann Como/por que {2,3,10} e {x,3,10} com x=2 são ordenados de forma diferente? 2025-01-13 23:24:07 +0800 CST
  • Martin Hope
    Chad Feller O ponto e vírgula agora é opcional em condicionais bash com [[ .. ]] na versão 5.2? 2024-10-21 05:50:33 +0800 CST
  • Martin Hope
    Wrench Por que um traço duplo (--) faz com que esta cláusula MariaDB seja avaliada como verdadeira? 2024-05-05 13:37:20 +0800 CST
  • Martin Hope
    Waket Zheng Por que `dict(id=1, **{'id': 2})` às vezes gera `KeyError: 'id'` em vez de um TypeError? 2024-05-04 14:19:19 +0800 CST
  • Martin Hope
    user924 AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos 2024-03-20 03:12:31 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve