如果最终目标是使用 Spark 执行计算,那么首先将 Postgres 数据传输到 HDFS(使用 Sqoop)而不是直接使用带有 Postgres 的 Spark SQL(使用 JDBC?)的原因是什么?
这个问题的答案(引用 MongoDB,而不是 PostgreSQL ......但仍然适用)提到这是两个选项,但我想知道是什么促使选择一个而不是另一个。
如果最终目标是使用 Spark 执行计算,那么首先将 Postgres 数据传输到 HDFS(使用 Sqoop)而不是直接使用带有 Postgres 的 Spark SQL(使用 JDBC?)的原因是什么?
这个问题的答案(引用 MongoDB,而不是 PostgreSQL ......但仍然适用)提到这是两个选项,但我想知道是什么促使选择一个而不是另一个。