每天我都有一个由脚本生成的 CSV 文件。它有两列。第 1 列是姓名,第 2 列是他们邮箱的大小。
我有多年的这些文件。我希望能够将它们导入数据库(我们内部有 SQL,或者我可以安装 MySQL,或其他任何与此相关的东西)
我希望能够看到这些用户随时间的增长模式。基本报告,这是我稍后会解决的另一个问题。现在我只想要数据库中的数据而不是数百个平面文件。
什么样的数据库对此有好处?简单是最好的。我不是数据库专家。你会怎么做?这对我来说主要是一个学习项目。
每天我都有一个由脚本生成的 CSV 文件。它有两列。第 1 列是姓名,第 2 列是他们邮箱的大小。
我有多年的这些文件。我希望能够将它们导入数据库(我们内部有 SQL,或者我可以安装 MySQL,或其他任何与此相关的东西)
我希望能够看到这些用户随时间的增长模式。基本报告,这是我稍后会解决的另一个问题。现在我只想要数据库中的数据而不是数百个平面文件。
什么样的数据库对此有好处?简单是最好的。我不是数据库专家。你会怎么做?这对我来说主要是一个学习项目。
不久前,我写了几篇关于将日志文件加载到SQLite中进行分析的博客 文章。这是一个非常容易使用的数据库,零管理,绑定到您能想到的任何语言(例如Python和Tcl/Tk以及像 OCaml 这样的奇异语言)支持用于复杂报告的 SQL 的一个不错的子集,并且可以处理惊人的大数据集(数百万行)。你不会说你在使用什么操作系统,但在 Linux 上它只是一个或一个。对于这种工作,我肯定会选择它而不是 MySQL 。
yum
apt-get
如果您的位置上已有 SQL Server 框,则可以使用 SSIS 包导入文件。SSIS = SQL Server Integration Services,SQL Server 主要的数据加载工具。
您可以在 SQLServerCentral 上找到一个不错的 SSIS 包入门教程:Stairways on Integration Services and SSIS Automation。在 MSDN 上,您可以在此处找到 SSIS 信息。
您可以在MSDN - Introduction to Integration Services上找到另一个带有动手实验室和视频的 SSIS 教程。
我使用 Pentaho Data Integration 来加载大量这样的文本文件。
如果您使用的是 MS Sql Server,那么您可能可以访问 SSIS。使用正则表达式,您将能够从一个文件夹中加载所有文件,就像加载一个非常大的文件一样。