Eu trabalho para a companhia de seguros pouco mais de um ano, minha experiência em SQL em torno de 2-3 anos, incluindo SSIS, SSRS. Temos aproximadamente 1 TB de dados.
É possível construir um data warehouse sozinho? Devo fazer isso com a minha experiência?
Existem muitos materiais e grupos de SQL dos quais posso obter ajuda. Mas ainda assim, é muito complicado?
Obrigado
É como perguntar: "Posso construir uma casa sozinho?"
Depende muito de qual é a sua definição de "casa". Converse com seus usuários internos para criar um conjunto de requisitos primeiro - isso precisará acontecer independentemente de quem o criar.
Quando tiver concluído os requisitos de construção, você pode começar a esboçar o que precisará construir para atender a esses requisitos.
Então, você pode começar a construir estimativas de tempo para o que precisa ser construído.
À medida que você trabalha nesse processo, você terá uma melhor compreensão de como é a casa e se você pode construí-la sozinho com sua caixa de ferramentas e habilidades existentes.
Na mesma linha da declaração do @Brent de "Depende muito de qual é a sua definição de 'casa'", você precisa descobrir o que "Data Warehouse" significa para quem o solicitou. O termo "Data Warehouse" às vezes é usado quando não deveria. Eles querem um sistema que agregue dados de volta ao início do tempo e seja carregado todas as noites e esteja faltando dados transacionais do dia atual? Eles querem relatórios em tempo real, incluindo dados transacionais atuais com um atraso de não mais de 1 a 5 minutos?
Posso dizer-lhe, por experiência (não tão agradável), que:
Outro caminho seria usar um data warehouse como um produto de serviço. Muitos fornecedores estão oferecendo isso agora, incluindo Oracle, Snowflake, Microsoft e Amazon. Esses produtos geralmente têm recursos que o guiarão na construção de seu data warehouse. O Redshift é um grande player nessa área e agora existe o Amazon Athena , uma opção sem servidor, que parece ser para necessidades de dados menores. Esse pode ser outro caminho a seguir.
Uma das primeiras perguntas seria, qual é a diferença? Por que uma empresa escolheria um em detrimento de outro? Bem, para começar; todos eles compartilham esses recursos:
• Baseado em nuvem
• Algum nível de interface administrativa/gerenciamento
• A capacidade de aumentar e diminuir conforme necessário
• Nenhum hardware no local
• Software limitado ou nenhum para compra (IMO, isso depende muito das ferramentas que você deseja ou precisa para analisar seus dados.)
Outras considerações serão exclusivas para cada negócio:
• Tamanho do conjunto de dados e crescimento estimado.
• Complexidade dos dados.
• Recursos e capacidades do administrador.
• Recursos técnicos disponíveis/equipe de TI.
• População de usuários e demografia. Sim, essas são soluções baseadas em nuvem, mas a obtenção de dados requer conexões de Internet estáveis e de tamanho adequado.
• Objetivos de longo prazo de integração de dados. Qual é a finalidade do seu data warehouse? Quem são seus principais usuários? Quais são suas necessidades de dados futuras previstas? Por exemplo, se as aquisições são uma forte possibilidade, a incorporação de conjuntos de dados diferentes deve ser considerada.
Em seguida, olhe para os fornecedores/produtos escolhidos e veja como eles combinam. Certifique-se de ter seus disjuntores identificados. Existem compensações que favoreceriam uma solução em detrimento de outra? Isso deve levar você a uma lista de finalistas para revisar de perto. Faça sua devida diligência e você poderá chegar a uma solução que funcione tecnicamente, financeiramente e do ponto de vista comercial.
Existem muitas opções hoje, então faça sua pesquisa. http://searchdatamanagement.techtarget.com/definition/data-warehouse-as-a-service-DWaaS