AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 62822
Accepted
Alexandros
Alexandros
Asked: 2014-04-10 04:10:30 +0800 CST2014-04-10 04:10:30 +0800 CST 2014-04-10 04:10:30 +0800 CST

PostgreSQL, matrizes inteiras, índice para igualdade

  • 772

Eu tenho uma lista enorme de matrizes inteiras (300.000.000 registros) armazenadas no banco de dados Postgres 9.2. Desejo pesquisar com eficiência esses registros para uma correspondência exata (somente igualdade). Já ouvi falar do módulo intarray e dos índices gist-gin correspondentes. Gostaria de fazer as seguintes perguntas:

  • O PostgreSQL usa uma função hash para verificar a igualdade de arrays inteiros ou executa um algoritmo de força bruta comparando um a um os elementos do array?
  • Se o PostgreSQL usa uma função hash, existe algum código de função PostgreSQL para realmente obter o resultado da função hash para uma matriz específica?
  • Qual índice será melhor para tal tarefa? B-tree ou os índices gist-gin fornecidos pelo módulo intarray? O dataset será estático, ou seja, uma vez inseridos todos os registros não haverá mais inserções. Portanto, construir o índice/atualizar o tempo do índice não é importante para mim.
postgresql btree
  • 2 2 respostas
  • 3356 Views

2 respostas

  • Voted
  1. Daniel Vérité
    2014-04-10T11:31:05+08:002014-04-10T11:31:05+08:00

    P: O PostgreSQL usa uma função hash para verificar a igualdade de arrays inteiros ou executa um algoritmo de força bruta comparando um a um os elementos do array?

    Não de acordo com funções e operadores de matriz no documento:

    As comparações de matriz comparam o conteúdo da matriz elemento por elemento, usando a função padrão de comparação de árvore B para o tipo de dados do elemento

    Nenhuma menção de hash.

    intarray fornece outros operadores, mas não substitui o operador de igualdade entre int[]. A função _int_same() mais próxima que ela expõe é semanticamente diferente (a ordem dos elementos não importa) e é implementada como classificação+comparação sequencial, não hashing.


    Felizmente, implementar uma pesquisa rápida baseada em hash no nível SQL não é difícil e, no seu caso (arrays grandes, sem atualizações, correspondência exata), pode até ser o método mais eficaz.

    Passos:

    1) escolha uma função hash. Eu sugeriria md5na representação de texto da matriz:

    create function arr_hash(int[]) returns bytea as
    $$ select digest($1::text, 'md5');$$
    language sql immutable;
    

    A função digest(text,text)faz parte da pgcryptoextensão. Comparado a md5ele tem a vantagem de produzir binário (16 bytes) em vez de hexadecimal (32 bytes) para um índice mais enxuto.

    2) crie um índice funcional:

    create index index_name on table_name(arr_hash(col_name));
    

    Será várias ordens de magnitude mais rápido do que um índice GIN para o tipo de conjunto de dados que você possui (na verdade, eu me preocuparia com a criação do índice GIN levando um tempo realmente irracional, mas tente).

    3) use assim:

    select 1 from table_name
     where arr_hash(col_name)=arr_hash('{10,20,30,...lot of values}'::int[])
     and   col_name='{10,20,30,...lot of values}'::int[];
    
    • 7
  2. Best Answer
    Leo
    2014-04-10T06:22:16+08:002014-04-10T06:22:16+08:00

    1) como você já descobriu, você não pode usar b-tree porque o tamanho do índice é maior que o tamanho da página

    2) dado:

    Como regra geral, um índice GIN é mais rápido para pesquisar do que um índice GiST, mas mais lento para criar ou atualizar; portanto, o GIN é mais adequado para dados estáticos e o GiST para dados atualizados com frequência.

    Você teria que usar o GIN. E não, o GIN não usa funções de hash nem um algoritmo de força bruta. É um índice reverso:

    Um índice GIN armazena um conjunto de pares (chave, lista de postagem), onde uma lista de postagem é um conjunto de IDs de linha em que a chave ocorre. O mesmo ID de linha pode aparecer em várias listas de postagem, pois um item pode conter mais de uma chave. Cada valor de chave é armazenado apenas uma vez, portanto, um índice GIN é muito compacto para casos em que a mesma chave aparece várias vezes.

    Internamente, um índice GIN contém um índice B-tree construído sobre chaves, onde cada chave é um elemento de um ou mais itens indexados (um membro de um array, por exemplo)

    • 2

relate perguntas

  • Posso ativar o PITR depois que o banco de dados foi usado

  • Práticas recomendadas para executar a replicação atrasada do deslocamento de tempo

  • Os procedimentos armazenados impedem a injeção de SQL?

  • Sequências Biológicas do UniProt no PostgreSQL

  • Qual é a diferença entre a replicação do PostgreSQL 9.0 e o Slony-I?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve