Ouvi dizer que o Hadoop tem melhor desempenho do que o MySQL. Até agora, usei bancos de dados relacionais, então essa é uma tecnologia realmente nova para mim. Eu tenho um PC de 6 núcleos. Suponha que eu tenha uma tabela com 20 colunas e 5 milhões de linhas. O Hadoop oferece melhor desempenho para operações como Selecionar, Inserir e Atualizar?
Qual é o comando equivalente a Criar Tabela, Selecionar, Atualizar, Inserir, etc. no Hadoop 1.1?
Tradicionalmente, o caso de uso do Hadoop é quando você precisa dividir seu armazenamento de dados em dezenas ou mais máquinas e não está usando uma solução RDBMS tradicional. Quando você tem apenas uma máquina, é provável que você negue quaisquer ganhos potenciais que o uso do Hadoop teria fornecido.
Além disso, 20 colunas * 5 milhões de linhas é considerado pela maioria dos DBA como um banco de dados pequeno e, além das pesquisas de índice, não vale muito na otimização, porque a maioria dos DBMS lidaria com essa quantidade de informações rapidamente.
No entanto, voltando ao tópico do Hadoop, temos o seguinte: o Hadoop é um sistema de arquivos distribuído, não um banco de dados completo. Um uso potencial (e um que eu conheço muito bem) do Hadoop é quando você tem grandes conjuntos de arquivos binários, que têm um formato de dados comum, e você precisa executar as mesmas operações em cada arquivo binário ou precisa encontrar esses arquivos binários arquivos rapidamente. Nesse caso, o Hadoop é efetivamente um mecanismo de pesquisa massivo para todos os arquivos no DFS. Dessa forma, você pode encontrar rapidamente os arquivos com os quais precisa trabalhar para executar a análise paralela de dados. Um desses grupos que usa o Hadoop para esse objetivo é o CERN.
Eu não o encorajaria a considerar a transição de seus dados para o Hadoop quando um RDBMS tradicional funcionaria bem para suas necessidades.