Onde posso encontrar o log lento do mysql?

Question

Lukas Liesis

Asked: 2017-02-19 04:57:58 +0800 CST2017-02-19 04:57:58 +0800 CST 2017-02-19 04:57:58 +0800 CST

Pesquise 200 milhões de documentos de texto por palavra-chave no texto

772

Dados

~ 5 milhões de documentos, adoraria ter ~ 223 milhões, com o texto de ~ 10-1000 palavras cada. Deve ser utf8 e suportar qualquer idioma falado. Todas as palavras em um texto são únicas e também posso ordená-las ou fazer o que for necessário para ter um melhor desempenho. O texto completo é salvo em outro local. Os dados são quase somente leitura. Para desempenho, posso gerar dados, adicionar índices e marcá-los como somente leitura.

Estrutura de dados:

{
  id: 1,
  reference_id: 1,
  text: 'text of unique. 10-1000 words each ',
}

Requisitos

Os resultados devem ficar abaixo de 0,1s
Exemplos de consultas:
1. encontrar texto com palavras: x ou y ou z
2. encontrar texto com palavras: x e y e z
3. seria ótimo encontrar texto com parte da palavra: housencontraria house, housingetc.

Perguntas

É possível fazer isso acontecer com MySQL/PostgreSQL?
Quais soluções de banco de dados você ofereceria?
Qual configuração observar?
Tipo de índice?
Exemplo de consulta?
Requisitos do servidor para RAM/HDD/CPU?
Melhores máquinas mais potentes ou matrizes mais simples?

1 respostas

Voted

Evan Carroll · Answer 1 · 2017-02-19T10:29:03+08:00

Basta pensar sobre suas necessidades e o que você está perguntando e se uma resposta pode ser dada aqui. A Wikipedia tem 5,3 milhões de documentos. Você está falando de uma carga nessa escala. E você quer saber se pode ou não consultá-lo em 0,1 segundo? Você terá que fornecer o texto de exemplo. Eu gosto de criar dados de amostra, mas como vou gerar dados de amostra para esta pergunta/

O que você quer é Full-Text Search (FTS) empresarial: o PostgreSQL tem isso. Se vai ou não funcionar tão bem quanto você pretende, não tenho ideia. Eu usei para projetos razoavelmente grandes, funcionou fantasticamente.

seria ótimo encontrar texto com parte da palavra: hous encontraria casa, moradia etc.

Ele também suporta :*o que faz o que você deseja. então é só usarhous:*

É indexável usando um índice GIST. Tudo isso está nos documentos.

{
  id: 1,
  reference_id: 1,
  text: 'text of unique. 10-1000 words each ',
}

Então apenas

CREATE TABLE foo (
  id            int PRIMARY KEY,
  reference_id  int, -- no idea what this is
  document      text,
);
CREATE INDEX ON foo USING GIST (to_tsvector(document));

Pesquise 200 milhões de documentos de texto por palavra-chave no texto

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Pesquise 200 milhões de documentos de texto por palavra-chave no texto

1 respostas

relate perguntas