Eu tenho um banco de dados que armazena leituras de vários medidores. Dependendo do medidor, pode haver dados para esse medidor a cada 1-5 minutos com várias leituras (ou seja, estação meteorológica e armazena 5 leituras diferentes).
Atualmente armazeno os dados por data. Eu agrupo tudo para um medidor específico para uma única data e armazeno como xml em uma coluna de texto.
Seria mais eficiente armazenar esses dados como linhas individuais?
Estou tentando decidir qual é a solução mais inteligente a longo prazo (ou seja, menos linhas com mais dados por linha ou muito mais linhas, cada uma sendo menor).
É um ambiente pesado de leitura.
EDITAR:
Por 'eficiente', estou mais preocupado com a velocidade e o uso de recursos (se eu retirar um ano de dados, o que seria menos intensivo em processador/memória).
Eu quase exclusivamente uso esses dados para fazer gráficos para clientes. O número de leituras por timestamp é variável, de 1 a 6 leituras.
O banco de dados é atualmente um INNODB.
EDIÇÃO 2:
Estou procurando mais para manter os dados no MySQL para facilitar o acesso/atualização.
A resposta que eu estava procurando mais era se seria mais inteligente salvar cada registro de data e hora individual (que pode ter várias leituras) em uma linha individual ou agrupar vários registros de data e hora (ou seja, até o valor de um dia) em uma única linha.
Obrigado
Depende exatamente do que você está tentando fazer com os dados - se estiver sendo usado apenas para gráficos e você não precisar de alta resolução quanto mais longe for (por exemplo, você não está tentando plotar um gráfico com resolução temporal completa para um dia de 1 ano atrás), você pode realmente querer olhar para o RRDTool em vez de um banco de dados relacional.
Se você precisar fazer análises dos valores (com que frequência um local fica acima de 80°F?), convém armazenar valores discretos, não uma estrutura XML; mas você também pode usar estruturas de arquivo simples destinadas a lidar com esse tipo de dados (por exemplo, CDF , NetCDF ... talvez até HDF )
atualização :
Eu armazenaria cada vez como um registro separado, pois facilita o ajuste da granularidade ao representar graficamente. Por exemplo, para extrair o máximo/baixo/médio para cada hora:
Além disso, permite alterar a cadência das medições sem a necessidade de alterar a estrutura da mesa.
Se bem entendi, você atualmente tem uma tabela com campos de 3 campos datahora, medidor e leituras, onde as leituras são uma string XML. Achei que seria melhor dividir as leituras em colunas extras. Em primeiro lugar, a implementação da string provavelmente ocupa mais espaço físico. Em segundo lugar, será relativamente difícil fazer qualquer tipo de agrupamento, agregação, filtragem, etc.
Acho que depende do que você quer dizer com meu 'eficiente'. Provavelmente também depende do que e como você está lendo os dados e para onde esses dados devem ir. Pode haver menos tráfego de rede se for armazenado como campos individuais. Também depende do que o cliente que lê os dados precisa fazer com eles.
O motivo pelo qual eu particularmente uso campos XML é porque posso associar um registro a um elemento "Leituras" no XML, e o próximo registro pode ter um elemento XML "Telemetria" (para inventar alguma coisa)...
Na verdade, para o meu eu tenho diferentes cargas de dados, mas os cabeçalhos são todos iguais, então é mais fácil para mim enchê-lo em um XML porque eu quero a carga útil depois de filtrar pelas informações do cabeçalho que a linha representa, e posso têm quantidades variáveis de informações nesse campo. Por exemplo, um dos meus campos XML é o histórico de edição de registro. Dessa forma, posso ter um campo em constante expansão para esse registro, e ele é perfeitamente empacotado com a linha que representa, e não preciso ter uma tabela de auditoria separada para esse conjunto de valores. Pode não ser a maneira mais eficiente de fazer isso, mas funciona para mim e para minhas necessidades.