我有每 30 分钟从网站收集的数据。此数据如下所示。“纪元”行标签是每个样本的实际纪元时间戳的占位符。随着更多独特名称的发现,顶部的名称列将无限扩展。
table n (multiple tables of data like this)
-------------------------------------------
James Tom Jeff Leon Sarah [...]
epoch1 1 44 22 NULL 3
epoch2 4 33 23 1 NULL
epoch3 5 32 22 2 NULL
...
epochn x x x x x
我正在做的是抓取网站上任何被 NLP 库归类为名称的内容,并记录找到的前 40 个名称的频率。所以我抓取了这个网站的整个“页面”,发现名字“Jeff”有 22 个实例,然后将它记录在 Jeff/Epoch1 的表中,频率为 22。
我已经有了名称标记器,但这只是找到可以处理此类数据的东西并提取指标,例如“表 4 中 24 小时前到现在的纪元中 10 个最流行的名字”。我看过 PostgreSQL,但它有一个保守的列限制。理想情况下,将为找到的每个新名称添加列,但这对于我目前发现的数据库来说似乎不可行。
任何人都知道可以存储此数据或最佳实践的任何开源软件吗?