Quanto "Padding" coloco em meus índices?

Question

Victor

Asked: 2018-05-29 12:48:55 +0800 CST2018-05-29 12:48:55 +0800 CST 2018-05-29 12:48:55 +0800 CST

Manter as versões acentuadas e não acentuadas em uma coluna tsvector? [duplicado]

772

Estou enfrentando uma situação em que os usuários DEVEM enviar itens escritos em inglês simples. No entanto, acontece que os nomes têm acentos - vindos de vários idiomas. Eu tenho uma tsvectorcoluna na minha tabela que é indexada para pesquisa de texto completo.

Aqui estão as informações sobre esta coluna e informações relevantes sobre a tabela:

                                                         Table "public.companies"
     Column     |          Type          |                       Modifiers                        | Storage  | Stats target | Description 
----------------+------------------------+--------------------------------------------------------+----------+--------------+-------------
 id             | integer                | not null default nextval('companies_id_seq'::regclass) | plain    |              | 
 name           | character varying(128) | not null                                               | extended |              | 
 description    | text                   |                                                        | extended |              | 
 tsmeta         | tsvector               |                                                        | extended |              | 

Indexes:
    "companies_pkey" PRIMARY KEY, btree (id) CLUSTER
    "companies_search_idx" gin (tsmeta)
Triggers:
    companies_tsmeta_update BEFORE INSERT OR UPDATE ON companies FOR EACH ROW EXECUTE PROCEDURE companies_tsmeta_trigger()

Agora o problema vem quando o usuário cria um nome como français . Nem todos os usuários têm o caractere ç em mãos e aqueles que não têm terão problemas para encontrar essa entrada - o que significa que ela será armazenada com o cedilla-c na tsvectorcoluna. Então meu pensamento foi usar a unaccentextensão para tirar esses acentos. Porém agora os usuários que apenas digitarem français terão problemas e não encontrarão a entrada. Então eu criei uma função que apenas concatena as duas versões (acentuadas e sem acentos) do nome e das descrições. No entanto, as descrições podem ficar muito grandes e eu me preocupo que o índice leve muito armazenamento.

create or replace function companies_tsmeta_trigger() returns trigger as $$
begin
  new.tsmeta :=
    setweight(to_tsvector('english', coalesce(new.name, '')), 'A') ||
    setweight(to_tsvector('english', unaccent(coalesce(new.name, ''))), 'B') ||
    setweight(to_tsvector('english', coalesce(new.description, '')), 'C') ||
    setweight(to_tsvector('english', unaccent(coalesce(new.description, ''))), 'D');
  return new;
end;
$$ language plpgsql;

Quais são suas sugestões?

1 respostas

Voted

Erwin Brandstetter · Answer 1 · 2018-05-30T16:44:17+08:00

Meu primeiro impulso foi este: Use um índice de expressão apenas nas strings não acentuadas . Não armazene tsmetana tabela de forma redundante. Então você também não precisa do gatilho. E certamente não inchar o índice com string original e sem acento. Dessa forma, sua tabela e índice são menores e mais rápidos em leitura e gravação.

No entanto , a expressão de índice precisa ser IMMUTABLE. setweight()e to_tsvector(regconfig,text)são IMMUTABLE, isso é bom. Mas unaccent()é só STABLE. Leia a avaliação detalhada aqui primeiro:

O PostgreSQL suporta agrupamentos “insensíveis ao acento”?

Se você tiver vários casos de uso, crie o wrapper de função f_unaccent()conforme as instruções.

Para o caso em questão, podemos envolver toda a tsvectorcriação em uma única IMMUTABLEfunção:

CREATE OR REPLACE FUNCTION f_tsmeta(_a text, _b text)
  RETURNS tsvector AS
$func$
  SELECT setweight(to_tsvector('english', public.unaccent('public.unaccent', _a)), 'A')
      || setweight(to_tsvector('english', public.unaccent('public.unaccent', COALESCE(_b, ''))), 'B')
$func$  LANGUAGE sql IMMUTABLE;

Supondo que o módulo adicional unaccentesteja instalado no esquema public, conforme explicado na resposta vinculada.

Como nameé definido NOT NULL, não precisamos COALESCEdessa coluna.

Então o índice pode ficar assim:

CREATE INDEX companies_search_idx ON companies USING gin (f_tsmeta(name, description));

Usado em consultas como:

SELECT * FROM companies
WHERE f_tsmeta(name, description) @@ to_tsquery('english', 'foo');

Pensando bem, os pesos não são incluídos em um índice GIN. Portanto, pode valer a pena incluir o valor pré-calculado na tabela. O manual:

Os índices GIN armazenam apenas as palavras (lexemas) de tsvectorvalores, e não seus rótulos de peso. Assim, uma nova verificação de linha da tabela é necessária ao usar uma consulta que envolve pesos.

Com o índice de expressão demonstrado, a expressão deve ser reavaliada ao usar pesos, o que adiciona um custo extra.

Coluna redundante ou índice de expressão, deve ser uma melhoria integrar o dicionário unaccent TEXT SEARCH CONFIGURATIONdiretamente em um índice personalizado (e coluna da tabela) usando isso, conforme demonstrado por Evan nesta resposta relacionada:

Criando uma pesquisa que não diferencia maiúsculas de minúsculas e não diferencia acentos/diacríticos em um campo

Simplifica as coisas e deve ser mais eficiente.

Manter as versões acentuadas e não acentuadas em uma coluna tsvector? [duplicado]

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Manter as versões acentuadas e não acentuadas em uma coluna tsvector? [duplicado]

1 respostas

relate perguntas