user143263提出的问题 -dba

user143263

Asked: 2018-01-26 10:39:21 +0800 CST

高基数时间序列数据库？

3

我有每 30 分钟从网站收集的数据。此数据如下所示。“纪元”行标签是每个样本的实际纪元时间戳的占位符。随着更多独特名称的发现，顶部的名称列将无限扩展。

table n (multiple tables of data like this)
-------------------------------------------
        James   Tom   Jeff   Leon   Sarah  [...]
epoch1  1       44    22     NULL   3
epoch2  4       33    23     1      NULL
epoch3  5       32    22     2      NULL
...
epochn  x       x     x      x      x

我正在做的是抓取网站上任何被 NLP 库归类为名称的内容，并记录找到的前 40 个名称的频率。所以我抓取了这个网站的整个“页面”，发现名字“Jeff”有 22 个实例，然后将它记录在 Jeff/Epoch1 的表中，频率为 22。

我已经有了名称标记器，但这只是找到可以处理此类数据的东西并提取指标，例如“表 4 中 24 小时前到现在的纪元中 10 个最流行的名字”。我看过 PostgreSQL，但它有一个保守的列限制。理想情况下，将为找到的每个新名称添加列，但这对于我目前发现的数据库来说似乎不可行。

任何人都知道可以存储此数据或最佳实践的任何开源软件吗？

Web Analytics