AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / coding / Perguntas / 77382093
Accepted
JohnS
JohnS
Asked: 2023-10-29 13:20:45 +0800 CST2023-10-29 13:20:45 +0800 CST 2023-10-29 13:20:45 +0800 CST

Pesquise em arquivo txt com mais de 3 milhões de linhas em C#

  • 772

Tenho vários arquivos txt e cada arquivo contém mais de 3 milhões de linhas. Cada linha contém conexões do cliente e há ID do cliente, endereço IP....

Preciso encontrar um endereço IP específico e obter o ID do cliente relacionado a ele.

Eu li o arquivo e divido em um array e procuro em cada linha por foreach, mas como são muitas linhas, ocorre o erro abaixo.

Exceção do tipo 'System.OutOfMemoryException' foi lançada.

Devo descompactar arquivos txt, pois eles estão compactados. Eu uso o código abaixo:

string decompressTxt = decompressTxt = this.Decompress(new FileInfo(filePath));
char[] delRow = { '\n' };
string[] rows = decompressTxt.Split(delRow);
for (int i = 0; i < rows.Length; i++){
   if(rows[i].Contains(ip)){
    
   }
}

string Decompress(FileInfo fileToDecompress)
{
   string newFileName = "";
   string newFIleText = "";
   using (FileStream originalFileStream =fileToDecompress.OpenRead())
   {
        string currentFileName = fileToDecompress.FullName;
        newFileName = currentFileName.Remove(currentFileName.Length - fileToDecompress.Extension.Length);
    
        using (FileStream decompressedFileStream = File.Create(newFileName))
        {
               using (GZipStream decompressionStream = new GZipStream(originalFileStream, CompressionMode.Decompress))
               {             
                  decompressionStream.CopyTo(decompressedFileStream);
               }
         }
    
         newFIleText = File.ReadAllText(newFileName);
         File.Delete(newFileName);
    }
    return newFIleText;
}
c#
  • 3 3 respostas
  • 78 Views

3 respostas

  • Voted
  1. Best Answer
    Etienne de Martel
    2023-10-29T13:44:53+08:002023-10-29T13:44:53+08:00

    Ok, então há muitas coisas que você está fazendo que não são necessárias, mesmo antes de chegarmos a como você está ficando sem memória.

    Primeiro, você não precisa de um arquivo intermediário para descompactar, apenas leia GZipStream diretamente. Mas espere, você achou que precisava usar File.ReadAllTextpara ler texto e é por isso que descompacta o arquivo primeiro?

    Isso é desnecessário. Quando você quiser ler o texto de um fluxo, basta usar a StreamReaderpara fazer isso (é o que File.ReadAllTexté usado abaixo).

    O leitor também pode ser usado para ler linha por linha sem a necessidade de caber o arquivo inteiro na memória, apenas cada linha individual, uma de cada vez. Basta ligar ReadLine()até que ele retorne null.

    Juntando tudo, aqui está o código que descompacta os dados e os lê uma linha por vez, sem precisar dividir nada. Ele não apenas é dimensionado com arquivos muito grandes, mas também é muito mais rápido.

    using var stream = new GZipStream(fileToDecompress.OpenRead(), CompressionMode.Decompress);
    using var reader = new StreamReader(stream);
    
    string? line;
    while ((line = reader.ReadLine()) != null)
    {
         if (line.Contains(ip))
         {
             // etc.
         }
    }
    
    • 4
  2. Charlieface
    2023-10-29T13:50:00+08:002023-10-29T13:50:00+08:00

    Você precisa processar seu arquivo como um número de linhas. Não copie para outro MemoryStreamnem copie em uma string. StreamReaderpode processá-lo linha por linha.

    Você definitivamente não precisa de outro arquivo para descompactá-lo e depois lê-lo novamente.

    No total, você não precisará manter o arquivo inteiro na memória de uma só vez.

    foreach (var decompressTxt in this.Decompress(new FileInfo(filePath)))
    {
        if(decompressTxt.Contains(ip))
        {
              // do stuff
        }
    }
    
    IEnumerable<string> Decompress(FileInfo fileToDecompress)
    {
        using var originalFileStream = fileToDecompress.OpenRead();
        using var decompressionStream = new GZipStream(originalFileStream, CompressionMode.Decompress);
        using var reader = new StreamReader(decompressionStream);
        string s;
        while ((s = reader.ReadLine()) != null)
        {
            yield return s;
        }
    }
    

    Existem métodos ainda mais eficientes, como dividir os dados em blocos de bytes, mas isso é significativamente mais complexo.

    Você provavelmente também deveria pensar sobre asynce sobre codificação.

    • 0
  3. Mahesh Kumar
    2023-10-29T14:20:45+08:002023-10-29T14:20:45+08:00

    Você não precisa armazenar o arquivo inteiro na memória ou mesmo em um novo arquivo.

        string FindCustomer(FileInfo fileToDecompress, string ip)
    {
        using var originalFileStream = fileToDecompress.OpenRead();
        using var decompressionStream = new GZipStream(originalFileStream, CompressionMode.Decompress);
        using var reader = new StreamReader(decompressionStream);
        string row ;
        while ((row = reader.ReadLine()) != null)
        {
            if(row.Contains(ip))
              {
               return row;
              }
        }
        return "";
    }
    
    • -1

relate perguntas

  • Polly DecorrelatedJitterBackoffV2 - como calcular o tempo máximo necessário para concluir todas as novas tentativas?

  • Wpf. Role o DataGrid dentro do ScrollViewer

  • A pontuação que ganhei na página do jogo com .NET MAUI MVVM não é visível em outras páginas. Como posso manter os dados de pontuação no dispositivo local

  • Use a hierarquia TreeView com HierarchicalDataTemplate de dentro de um DataTemplate

  • Como posso melhorar essa interface de validação no .NET?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    destaque o código em HTML usando <font color="#xxx">

    • 2 respostas
  • Marko Smith

    Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}?

    • 1 respostas
  • Marko Smith

    Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)?

    • 2 respostas
  • Marko Smith

    Por que as compreensões de lista criam uma função internamente?

    • 1 respostas
  • Marko Smith

    Estou tentando fazer o jogo pacman usando apenas o módulo Turtle Random e Math

    • 1 respostas
  • Marko Smith

    java.lang.NoSuchMethodError: 'void org.openqa.selenium.remote.http.ClientConfig.<init>(java.net.URI, java.time.Duration, java.time.Duratio

    • 3 respostas
  • Marko Smith

    Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)?

    • 4 respostas
  • Marko Smith

    Por que o construtor de uma variável global não é chamado em uma biblioteca?

    • 1 respostas
  • Marko Smith

    Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto?

    • 1 respostas
  • Marko Smith

    Somente operações bit a bit para std::byte em C++ 17?

    • 1 respostas
  • Martin Hope
    fbrereto Por que a resolução de sobrecarga prefere std::nullptr_t a uma classe ao passar {}? 2023-12-21 00:31:04 +0800 CST
  • Martin Hope
    比尔盖子 Você pode usar uma lista de inicialização com chaves como argumento de modelo (padrão)? 2023-12-17 10:02:06 +0800 CST
  • Martin Hope
    Amir reza Riahi Por que as compreensões de lista criam uma função internamente? 2023-11-16 20:53:19 +0800 CST
  • Martin Hope
    Michael A formato fmt %H:%M:%S sem decimais 2023-11-11 01:13:05 +0800 CST
  • Martin Hope
    God I Hate Python std::views::filter do C++20 não filtrando a visualização corretamente 2023-08-27 18:40:35 +0800 CST
  • Martin Hope
    LiDa Cute Por que 'char -> int' é promoção, mas 'char -> short' é conversão (mas não promoção)? 2023-08-24 20:46:59 +0800 CST
  • Martin Hope
    jabaa Por que o construtor de uma variável global não é chamado em uma biblioteca? 2023-08-18 07:15:20 +0800 CST
  • Martin Hope
    Panagiotis Syskakis Comportamento inconsistente de std::common_reference_with em tuplas. Qual é correto? 2023-08-17 21:24:06 +0800 CST
  • Martin Hope
    Alex Guteniev Por que os compiladores perdem a vetorização aqui? 2023-08-17 18:58:07 +0800 CST
  • Martin Hope
    wimalopaan Somente operações bit a bit para std::byte em C++ 17? 2023-08-17 17:13:58 +0800 CST

Hot tag

python javascript c++ c# java typescript sql reactjs html

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve