Estou lutando para encontrar uma solução (de preferência DBaaS) na qual possa confiar para armazenar e consultar cerca de 300 milhões de linhas de dados (aproximadamente 100 GB).
Os dados em questão são praticamente numéricos. Há também uma coluna de "descrição" na qual eu gostaria de realizar uma pesquisa de texto completo. Existem algumas colunas de "categoria" usadas para filtragem também. Também quero filtrar/ordenar os resultados da pesquisa de várias maneiras (mais de 10 índices diferentes).
Não há necessidade de fazer junções complexas, pois os dados são praticamente desnormalizados. Os dados são fortemente atualizados: cerca de 50 milhões de registros são substituídos todos os dias.
Eu tentei pela primeira vez com o DynamoDB, mas ele pode suportar apenas até 5 índices e não é capaz de fazer pesquisa de texto completo a uma velocidade razoável. Também considerei o BigQuery do Google, mas ele foi projetado para dados "somente anexados". Agora estou considerando o Redshift, mas não tenho certeza de como ele será capaz de lidar com um número tão grande de atualizações diárias.
Qualquer conselho seria apreciado!
Acabei armazenando dados no DynamoDB e fazendo sincronização diária com o Redshift. Eu tentei o Redshift com dados de amostra de 600 milhões em um cluster de 4 nós e ele é extremamente rápido. É exatamente o que eu preciso.