我决定改善我的幸福感,如果成功的话,请写下关于此的注释并免费与我的同龄人分享,并尝试帮助他们改善幸福感。但在这条道路上,我需要数据库从业者的基本建议。
背景说明:
在我的研究中,我需要收集许多不同类型的时间序列(GDP、实际 GDP、名义 GDP、消费、投资、人均 GDP、工作小时数、单位劳动力成本等等)。现在,我正在关注并收集大约 155 个时间序列。到目前为止,我一直在统计网页上发布更新后立即手动更新它们。我一直在使用 Excel 电子表格执行此操作(例如,下载新的 excel,然后将必要的数据点复制并粘贴到我的 excel 中)。然而,这是一项非常艰巨的任务,而且容易出错。检查并发现错误是另一个噩梦。因此,总的来说,维护这个 Excel 数据库(更新检查和记录)大约需要每周大约 10-12 小时。
我的任务:
- 我想创建一个数据库,我将在其中存储所有这些和更多变量(我希望每个变量都有一个名称、描述、源描述(最好包含 URL)、上次更新日期等)。
- 我还希望能够从下载的 Excel 或 CSV 文件自动更新数据库(这些文件以不同的格式来自各种网页。有些是垂直结构,有些是水平结构)。
- 我还想要一些错误检查器,以便更轻松地调试基础。
- 该系列具有不同的频率(有些是每天,有些是每周,有些是每月,有些是每季度,还有一些是每年)。我希望能够使用我自己预先确定的公式轻松地从每日转换为每月或从每月转换为每季度,反之亦然。(无论是平均值还是中值或当前任务需要的任何值)
- 我还希望以后能够轻松地查询任何变量或多个变量,并在 MATLAB、Python 或 Julia 等各种程序中创建仪表板,以可视化动态并将它们用于这些程序中的回归或模型估计。
问题
对于上述所有任务,您会推荐哪个数据库管理程序(理想情况下,最好是免费和开源的)
PS 我尝试编写 MATLAB 脚本进行自动更新,但是非常不方便。
PPS 这是来自Cross Validated的交叉帖子,希望能在某处得到答案。
谢谢,乔治。
作为我的数据集外观的示例,请参见以下屏幕截图: