Hadoop 集群。2 台快速、4 台中等、8 台较慢的机器？

Question

Antoine Benkemoun

Asked: 2009-06-18 22:34:15 +0800 CST2009-06-18 22:34:15 +0800 CST 2009-06-18 22:34:15 +0800 CST

什么是 Hadoop，它的用途是什么？[关闭]

772

一段时间以来，我一直很喜欢阅读 ServerFault，并且遇到了很多关于 Hadoop 的主题。从全球的角度来看，我很难找到它的作用。

所以我的问题很简单：什么是 Hadoop？它有什么作用？它是干什么用的？为什么会踢屁股？

编辑：如果有人碰巧有使用 Hadoop 的用例的演示/解释，那就太好了。

3 个回答

Voted

Kamil Kisiel · Answer 1 · 2009-06-18T22:43:18+08:00

直接从马嘴里说：

Hadoop 是一个框架，用于在由商品硬件构建的大型集群上运行应用程序。Hadoop 框架透明地为应用程序提供可靠性和数据移动。Hadoop 实现了一种名为 Map/Reduce 的计算范式，其中应用程序被划分为许多小的工作片段，每个工作片段都可以在集群中的任何节点上执行或重新执行。此外，它还提供了一个分布式文件系统 (HDFS)，可将数据存储在计算节点上，从而在整个集群中提供非常高的聚合带宽。Map/Reduce 和分布式文件系统都经过设计，以便框架自动处理节点故障。

Map/Reduce 是谷歌流行的一种编程范式，其中一个任务被分成小部分并分发到大量节点进行处理（map），然后将结果汇总为最终答案（reduce ）。谷歌和雅虎将其用于他们的搜索引擎技术等。

Hadoop 是实现这种处理方案的通用框架。至于它为何如此出色，主要是因为它提供了诸如容错之类的简洁功能，并且可以让您将几乎任何类型的硬件组合在一起来进行处理。只要您的问题符合范式，它的扩展性也非常好。

您可以在网站上阅读所有相关信息。

至于一些例子，Paul 给出了一些例子，但这里还有一些你可以做的不是那么以网络为中心的例子：

渲染 3D 电影。“map”步骤将每一帧的几何分布到不同的节点，节点渲染它，渲染的帧在“reduce”步骤中重新组合。
在分子模型中计算系统中的能量。系统轨迹的每一帧都在“映射”步骤中分配给一个节点。节点计算每一帧的能量，
然后在“减少”步骤中总结结果。

本质上，该模型对于可以分解为完全独立的类似离散计算的问题非常有效，并且可以重新组合以产生最终结果。

user9939 · Answer 2 · 2009-06-18T23:23:45+08:00

user9939

2009-06-18T23:23:45+08:002009-06-18T23:23:45+08:00

Cloudera 有一些很棒的视频来解释 Map Reduce 和 Hadoop 背后的原理。

http://www.cloudera.com/hadoop-training-basic

MapReduce 背后的核心理念之一是，对于大型数据集，您将在磁盘上进行 io 绑定，因此在 Hadoop HDFS 中，您能够在许多节点之间拆分数据，从而实现并行处理。

系统管理员感兴趣的 Hadoop 的一些用途通常是处理大型日志文件集 - 我只能发布一个链接，但其中包括，谷歌应该找到这些：

Rackspace 邮件日志查询
使用 pig 进行 Apache 日志分析 - 请参阅 Cloudera 博客
雅虎！打击垃圾邮件

10

Deepak · Answer 3 · 2012-01-19T18:53:55+08:00

Deepak

2012-01-19T18:53:55+08:002012-01-19T18:53:55+08:00

最初 hadoop 是为 OLAP 环境中的大量数据集而开发的。

随着在 hadoop 之上引入 Hbase，cane 也可用于 OLAP 处理。Hadoop 是一个包含 map reduce、hdfs、hbase、pig 等所有子组件的框架。

我在Why Hadoop is introduction中找到了一篇hadoop基础的文章。

在 Hadoop 中，数据以文件的形式存储，而不是以表、列的形式存储。

1

什么是 Hadoop，它的用途是什么？[关闭]

SFTP 使用什么端口？

从 IP 地址解析主机名

如何按大小对 du -h 输出进行排序

命令行列出 Windows Active Directory 组中的用户？

Windows 中执行反向 DNS 查找的命令行实用程序是什么？

如何检查 Windows 机器上的端口是否被阻塞？

我应该打开哪个端口以允许远程桌面？

什么是 Pem 文件，它与其他 OpenSSL 生成的密钥文件格式有何不同？

如何确定bash变量是否为空？

什么是 Hadoop，它的用途是什么？[关闭]

3 个回答

相关问题