Esta é uma continuação de Como armazenar melhor os ngrams do Google em um banco de dados? , que aborda como armazenar os dados do Google Ngram Book .
Estou procurando armazenar os dados da Web do Google NGram , que têm um formato ligeiramente diferente (sem informações de página/ano; apenas conta):
...
ceramics collectables collectibles 55
ceramics collectables fine 130
...
serve as the incoming 92
serve as the incubator 99
Como essa é uma estrutura de dados muito simples, qual é um bom método para armazenar esses dados que são razoavelmente rápidos para importar e rápidos para recuperar a contagem por um ngram específico?
Eu gosto da ideia de um banco de dados relacional, simplesmente por causa dos métodos comuns para acessá-lo, mas acho que a maioria desses outros bancos de dados não relacionais (por exemplo, tokyo hashtable) também têm métodos bastante comuns.
Atualizar
Exemplos de consultas:
# primary query
> SELECT ngram_count FROM ngram_table WHERE ngram = 'ceramics collectables fine';
ceramics collectables collectibles 55
ceramics collectables fine 130
# secondary query (not needed, but nice if have option)
SELECT ngram_count FROM ngram_table WHERE ngram LIKE '%collectables%';
ceramics collectables collectibles 55
Eu tenho o script que você precisa aqui
aqui está o que os dados de amostra geram:
De uma chance !!!