这是How to best store Google ngrams in a database?的延续。,其中介绍了如何存储Google Ngram Book 数据。
我正在寻找存储格式略有不同的Google NGram Web 数据(没有页面/年份信息;只是计数):
...
ceramics collectables collectibles 55
ceramics collectables fine 130
...
serve as the incoming 92
serve as the incubator 99
由于这是一个非常简单的数据结构,什么是存储此数据的好方法,可以相当快速地导入,并快速检索特定 ngram 的计数?
我喜欢关系数据库的想法,仅仅是因为访问它的常用方法,但我猜大多数其他非关系数据库(例如 tokyo hashtable)也有非常常用的方法。
更新
查询示例:
# primary query
> SELECT ngram_count FROM ngram_table WHERE ngram = 'ceramics collectables fine';
ceramics collectables collectibles 55
ceramics collectables fine 130
# secondary query (not needed, but nice if have option)
SELECT ngram_count FROM ngram_table WHERE ngram LIKE '%collectables%';
ceramics collectables collectibles 55
我这里有你需要的脚本
这是示例数据生成的内容:
试试看 !!!