AskOverflow.Dev

AskOverflow.Dev Logo AskOverflow.Dev Logo

AskOverflow.Dev Navigation

  • Início
  • system&network
  • Ubuntu
  • Unix
  • DBA
  • Computer
  • Coding
  • LangChain

Mobile menu

Close
  • Início
  • system&network
    • Recentes
    • Highest score
    • tags
  • Ubuntu
    • Recentes
    • Highest score
    • tags
  • Unix
    • Recentes
    • tags
  • DBA
    • Recentes
    • tags
  • Computer
    • Recentes
    • tags
  • Coding
    • Recentes
    • tags
Início / dba / Perguntas / 335364
Accepted
Nguyen Nguyen
Nguyen Nguyen
Asked: 2024-01-31 18:57:17 +0800 CST2024-01-31 18:57:17 +0800 CST 2024-01-31 18:57:17 +0800 CST

É possível usar o índice GIN e o índice pgvector para consultar no postgres?

  • 772

Eu tenho uma tabela como abaixo no postgres:

create table posts (
    id bigserial,
    tags text[],
    content text,
    content_embedding vector(512)
);

create index on posts using GIN(tags);
-- from pgvector
create index ON posts USING hnsw(content_embedding vector_cosine_ops) WITH (m = 24, ef_construction = 100);

Cada linha é basicamente uma postagem em um blog com contentarmazenamento de seu texto, tags é uma matriz de tags (por exemplo '{"database","coding"}'), content_embeddingé onde armazeno uma representação vetorial contentgerada com algum modelo de IA que espero usar para pesquisa semântica.

Quero executar consultas como abaixo para obter postagens que tagscontenham databaseor hobbye ordená-las de acordo com o quão "semelhantes" elas são a um determinado vetor ( '[...]'abaixo por uma questão de brevidade):

select id, (content_embedding <=> '[...]') as cosine_similarity from posts where tags && '{"database","hobby"}' ORDER BY cosine_distance ASC

No entanto, parece que o plano de consulta explain analyzenão faz uso do índice vetorial, como espero

 Sort  (cost=8081.77..8089.15 rows=2952 width=16) (actual time=10.444..10.445 rows=20 loops=1)
   Sort Key: ((content_embedding <=> '[...]'::vector))
   Sort Method: quicksort  Memory: 26kB
   ->  Bitmap Heap Scan on posts (cost=1698.88..7911.62 rows=2952 width=16) (actual time=9.966..10.424 rows=20 loops=1)
         Recheck Cond: (tags && '{database,hobby}'::text[])
         Heap Blocks: exact=19
         ->  Bitmap Index Scan on posts_tags_idx  (cost=0.00..1698.14 rows=2952 width=0) (actual time=9.842..9.842 rows=20 loops=1)
               Index Cond: (tags && '{database,hobby}'::text[])
 Planning Time: 0.536 ms
 Execution Time: 10.496 ms

Quando removo a wherecláusula, vejo uma varredura de índice sendo usada para classificação

 Index Scan using posts_content_embedding_idx on posts  (cost=164.90..41510.78 rows=301590 width=16)
   Order By: (content_embedding <=> '[...]'::vector)

Eu tenho cerca de 300.000 linhas em posts. Isso é um fator? Existe uma maneira do postgres usar os índices gin e hnsw? Se não for possível, quantas linhas é o limite antes que minha consulta demore muito (> 100 ms)?

Estou ciente de que existem soluções criadas para esse caso de uso de pesquisa, como Elasticsearch ou talvez bancos de dados vetoriais, mas já tenho um banco de dados postgres e espero poder estendê-lo o máximo que puder.

postgresql
  • 1 1 respostas
  • 17 Views

1 respostas

  • Voted
  1. Best Answer
    jjanes
    2024-02-01T08:31:36+08:002024-02-01T08:31:36+08:00

    Não existe nenhum mecanismo para o PostgreSQL combinar esses tipos de uso de índice. Um índice GiST multicolunas pode fazer isso internamente, mas não sei se hnswpode suportar algo assim, duvido. (E quando o GiST faz isso, parece não ser muito eficiente nisso)

    Se não for possível, quantas linhas é o limite antes que minha consulta demore muito (> 100 ms)?

    Certamente você está em melhor posição para responder a isso do que nós. Você já tem os dados e o sistema, basta escolher as tags mais comuns e ver o que acontece.

    • 0

relate perguntas

  • Posso ativar o PITR depois que o banco de dados foi usado

  • Práticas recomendadas para executar a replicação atrasada do deslocamento de tempo

  • Os procedimentos armazenados impedem a injeção de SQL?

  • Sequências Biológicas do UniProt no PostgreSQL

  • Qual é a diferença entre a replicação do PostgreSQL 9.0 e o Slony-I?

Sidebar

Stats

  • Perguntas 205573
  • respostas 270741
  • best respostas 135370
  • utilizador 68524
  • Highest score
  • respostas
  • Marko Smith

    conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

    • 12 respostas
  • Marko Smith

    Como fazer a saída do sqlplus aparecer em uma linha?

    • 3 respostas
  • Marko Smith

    Selecione qual tem data máxima ou data mais recente

    • 3 respostas
  • Marko Smith

    Como faço para listar todos os esquemas no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Listar todas as colunas de uma tabela especificada

    • 5 respostas
  • Marko Smith

    Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

    • 4 respostas
  • Marko Smith

    Como você mysqldump tabela (s) específica (s)?

    • 4 respostas
  • Marko Smith

    Listar os privilégios do banco de dados usando o psql

    • 10 respostas
  • Marko Smith

    Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

    • 4 respostas
  • Marko Smith

    Como faço para listar todos os bancos de dados e tabelas usando o psql?

    • 7 respostas
  • Martin Hope
    Jin conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host 2014-12-02 02:54:58 +0800 CST
  • Martin Hope
    Stéphane Como faço para listar todos os esquemas no PostgreSQL? 2013-04-16 11:19:16 +0800 CST
  • Martin Hope
    Mike Walsh Por que o log de transações continua crescendo ou fica sem espaço? 2012-12-05 18:11:22 +0800 CST
  • Martin Hope
    Stephane Rolland Listar todas as colunas de uma tabela especificada 2012-08-14 04:44:44 +0800 CST
  • Martin Hope
    haxney O MySQL pode realizar consultas razoavelmente em bilhões de linhas? 2012-07-03 11:36:13 +0800 CST
  • Martin Hope
    qazwsx Como posso monitorar o andamento de uma importação de um arquivo .sql grande? 2012-05-03 08:54:41 +0800 CST
  • Martin Hope
    markdorison Como você mysqldump tabela (s) específica (s)? 2011-12-17 12:39:37 +0800 CST
  • Martin Hope
    Jonas Como posso cronometrar consultas SQL usando psql? 2011-06-04 02:22:54 +0800 CST
  • Martin Hope
    Jonas Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL? 2011-05-28 00:33:05 +0800 CST
  • Martin Hope
    Jonas Como faço para listar todos os bancos de dados e tabelas usando o psql? 2011-02-18 00:45:49 +0800 CST

Hot tag

sql-server mysql postgresql sql-server-2014 sql-server-2016 oracle sql-server-2008 database-design query-performance sql-server-2017

Explore

  • Início
  • Perguntas
    • Recentes
    • Highest score
  • tag
  • help

Footer

AskOverflow.Dev

About Us

  • About Us
  • Contact Us

Legal Stuff

  • Privacy Policy

Language

  • Pt
  • Server
  • Unix

© 2023 AskOverflow.DEV All Rights Reserve