somecallmemike提出的问题 -dba

somecallmemike

Asked: 2014-07-04 06:52:38 +0800 CST

Sincronize a tabela MySQL 4.0 com o servidor MySQL 5.6 a cada poucos minutos

Tenho a tarefa de obter uma cópia de uma tabela em um servidor MySQL 4.0 sincronizado com um banco de dados completamente diferente em um servidor MySQL 5.6 a cada poucos minutos com o objetivo de ter essa tabela disponível durante uma fase de migração para um aplicativo realmente antigo. Basicamente isso:

10.10.10.10:oldb.table -> 20.20.20.20:newdb.table

A tabela tem aproximadamente 65.000 linhas e aproximadamente 18 MB.

Obviamente não posso usar a replicação com a versão 4.0. Procurei usar mysqlhotcopy, mas parece que ele copia apenas bancos de dados inteiros e preciso que a tabela resida em um banco de dados diferente no host de destino. Também examinei o uso do mysqldump, no entanto, não posso descartar a tabela no novo servidor para que os novos dados sejam inseridos, resultando em consultas que veem uma tabela vazia e, se eu usar --insert-ignore --no-create -db --no-create-info ele ainda não considera as linhas excluídas na tabela de origem. Também procurei selecionar todas as linhas da tabela existente e fazer um REPLACE INTO ou INSERT/UPDATE ON DUPLICATE KEY, mas isso também não levaria em consideração as linhas que foram excluídas da tabela de origem. Alguma ideia de como fazer isso?

somecallmemike

Asked: 2013-03-29 08:23:23 +0800 CST

Qual banco de dados poderia lidar com o armazenamento de bilhões/trilhões de registros?

Estamos procurando desenvolver uma ferramenta para capturar e analisar dados de fluxo de rede, dos quais coletamos uma quantidade enorme. A cada dia, capturamos cerca de 1,4 bilhão de registros de fluxo que ficariam assim no formato json:

{
   "tcp_flags": "0",
   "src_as": "54321",
   "nexthop": "1.2.3.4",
   "unix_secs": "1352234521",
   "src_mask": "23",
   "tos": "0",
   "prot": "6",
   "input": "105",
   "doctets": "186",
   "engine_type": "0",
   "exaddr": "2.3.4.5",
   "engine_id": "2",
   "srcaddr": "9.8.7.6",
   "dst_as": "12345",
   "unix_nsecs": "752265174",
   "sysuptime": "2943529544",
   "dst_mask": "24",
   "dstport": "80",
   "last": "2943523241",
   "srcport": "52672",
   "dpkts": "4",
   "output": "111",
   "dstaddr": "6.5.4.3",
   "first": "2943517993"
}

Gostaríamos de poder fazer pesquisas rápidas (menos de 10 segundos) no conjunto de dados, provavelmente em fatias estreitas de tempo (intervalos de 10 a 30 minutos). Também queremos indexar a maioria dos pontos de dados para que possamos fazer pesquisas em cada um deles rapidamente. Também gostaríamos de ter uma visão atualizada dos dados quando as pesquisas são executadas. Seria ótimo permanecer no mundo do código aberto, mas não nos opomos a buscar soluções proprietárias para este projeto.

A ideia é manter aproximadamente um mês de dados, o que seria ~43,2 bilhões de registros. Uma estimativa aproximada de que cada registro conteria cerca de 480 bytes de dados, equivaleria a ~18,7 terabytes de dados em um mês e talvez três vezes isso com índices. Eventualmente, gostaríamos de aumentar a capacidade desse sistema de armazenar trilhões de registros.

Nós avaliamos (basicamente) o couchbase, o cassandra e o mongodb como possíveis candidatos para este projeto, porém cada um propõe seus próprios desafios. Com o couchbase, a indexação é feita em intervalos e não durante a inserção dos dados, portanto as visualizações não estão atualizadas, os índices secundários do cassandra não são muito eficientes em retornar resultados, pois normalmente exigem a varredura de todo o cluster para obter resultados, e o mongodb parece promissor, mas parece ser muito mais difícil de dimensionar, pois é master/slave/sharded. Alguns outros candidatos que planejamos avaliar são elasticsearch, mysql (não tenho certeza se isso é aplicável) e alguns bancos de dados relacionais orientados a colunas. Qualquer sugestão ou experiência do mundo real seria apreciada.

Sincronize a tabela MySQL 4.0 com o servidor MySQL 5.6 a cada poucos minutos

Qual banco de dados poderia lidar com o armazenamento de bilhões/trilhões de registros?

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

somecallmemike's questions