Se o objetivo final é realizar cálculos com o Spark, quais são os motivos pelos quais alguém transferiria primeiro os dados do Postgres para um HDFS (com o Sqoop) em vez de apenas usar o Spark SQL com o Postgres diretamente (com o JDBC?)
A resposta a esta pergunta (que faz referência ao MongoDB, não ao PostgreSQL ... mas ainda aplicável) menciona que essas são as duas opções, mas estou me perguntando o que motivaria a escolha de uma em vez da outra.