Sou um novato tentando entender o OLAP e tenho algumas perguntas.
- Questão 1: Um cubo OLAP pode armazenar medianas, modos, percentis?
- Pergunta 2: Uma consulta MDX escrita pelo usuário pode retornar um resumo dos dados em nível de linha? (ex: % transações > $100). Ou o designer do cubo deve adicionar isso ao cubo?
- Pergunta 3: Algum produto OLAP agora fornece mecanismos para acessar dados em nível de linha? Que?
Nosso departamento de TI está procurando feedback sobre que tipo de problemas estamos tendo com um determinado cubo ROLAP do MS Analsis Services. Não temos acesso ao banco de dados relacional por trás dele e precisamos realizar cálculos que não estão disponíveis atualmente como medidas no cubo.
Deixe-me ver se estou certo.
- Um cubo pode fornecer estatísticas para contagens, médias, proporções, desvios padrão.
- Se uma estatística específica não foi atendida em uma medida fornecida pelo designer do cubo, podemos escrever uma consulta MDX para obtê-la? Ou eles precisam alterar o cubo para pré-calculá-lo a partir dos dados de nível de linha?
- Um cubo não pode fornecer estatísticas como medianas, modos ou percentis, porque essas estatísticas não são agregadas adequadamente.
Estou lendo The Grammar of Graphics de Leland Wilkinson e em seu capítulo sobre Data Mining e OLAP, ele diz
Essas [operações de cubo] funcionam bem com estatísticas como contagens, médias, proporções e desvios padrão. Agregações simples sobre subclasses podem ser calculadas operando-se em somas, somas de quadrados e outros termos que são combinados em funções lineares para produzir estatísticas básicas resumidas.
Eles não funcionam adequadamente com estatísticas como mediana, moda e percentis porque o agregado dessas estatísticas não é a estatística de seus agregados. A mediana das medianas não é a mediana do agregado, por exemplo.
Ele continua acrescentando:
Entretanto, um modelo ROLAP mais sofisticado surgiu recentemente. É possível, por meio de diversas tecnologias, dar aos algoritmos estatísticos acesso aos dados brutos por meio do modelo relacional em tempo real. Essa abordagem é mais promissora do que as agregações rígidas oferecidas por estruturas como cubos de dados.
Na forma mais elegante dessa arquitetura, os aplicativos podem solicitar conexões remotas para fornecer informações sobre seus métodos de manipulação de dados e tomar as medidas adequadas dependendo das informações retornadas. Dessa forma, a arquitetura de componentes pode alcançar a promessa real da computação distribuída: design e execução independentes do site, sistema operacional ou idioma.
Isso foi escrito por volta de 2005. Alguém conhece produtos que empregam essa metodologia para permitir acesso a dados em nível de linha?
Para responder às suas perguntas em ordem:
Se você quiser fazer cálculos que não estão diretamente disponíveis no script do cubo, muitas ferramentas OLAP, como o falecido e lamentado ProClarity, permitirão que você formule consultas envolvendo cálculos personalizados baseados em MDX. A menos que o cubo não tenha as informações necessárias para fazer os cálculos reais, os cálculos MDX personalizados devem ser capazes de oferecer suporte a qualquer cálculo necessário.
Embora as consultas OLAP sejam tradicionalmente associadas a consultas estatísticas agregadas, se você tiver uma dimensão que permita o detalhamento necessário, certamente é possível formular consultas que calcularão medianas, percentis ou consultas de histograma a partir dos quais os modos podem ser inferidos ou calculados.
Por exemplo, isso tem um exemplo de uma consulta de análise pareto , que é baseada em classificações.
Muitos produtos de cubo podem operar em um modo OLAP híbrido ou relacional, no qual eles não persistem os próprios dados, mas os consultam a partir de um banco de dados subjacente. Além disso, ferramentas ROLAP puras, como Business Objects, Report Builder ou Discoverer, podem consultar a partir de um banco de dados subjacente e trabalhar linha por linha. No entanto, eles tendem a não ter a sofisticação de produtos OLAP dedicados e não têm muitos recursos de análise estatística prontos para uso.