我听说 Hadoop 的性能比 MySQL 好。到目前为止,我一直在使用关系数据库,所以这对我来说真的是新技术。我有一台 6 核 PC。假设我有一个包含 20 列和 500 万行的表。Hadoop 是否为选择、插入和更新等操作提供了更好的性能?
Hadoop 1.1中Create Table、Select、Update、Insert等的等价命令是什么?
我听说 Hadoop 的性能比 MySQL 好。到目前为止,我一直在使用关系数据库,所以这对我来说真的是新技术。我有一台 6 核 PC。假设我有一个包含 20 列和 500 万行的表。Hadoop 是否为选择、插入和更新等操作提供了更好的性能?
Hadoop 1.1中Create Table、Select、Update、Insert等的等价命令是什么?
传统上,Hadoop 的用例是当您需要将数据存储拆分到数十台或更多台机器上,并且您没有使用传统的 RDBMS 解决方案时。当您只有一台机器时,您可能会抵消使用 Hadoop 可能带来的任何潜在收益。
此外,20 列 * 500 万行被大多数 DBA 认为是一个小型数据库,除了索引查找之外,在优化方面没有太大价值,因为大多数 DBMS 会很快处理这些信息量。
然而,回到 Hadoop 的主题是这样的:Hadoop 是一个分布式文件系统,而不是一个彻头彻尾的数据库。Hadoop 的一个潜在用途(我非常了解)是当您拥有大量具有通用数据格式的二进制文件时,您需要对每个二进制文件运行相同的操作,或者您需要找到这些二进制文件文件快速。在这种情况下,Hadoop 实际上是一个用于 DFS 上所有文件的大型查找引擎。通过这种方式,您可以快速找到运行并行数据分析所需的文件。CERN 就是这样一个使用 Hadoop 实现此类目标的小组。
当传统的 RDBMS 可以很好地满足您的需求时,我不鼓励您考虑将数据转换到 Hadoop。