Qual é a diferença entre um INNER JOIN e um OUTER JOIN?

Question

Thomas

Asked: 2021-04-16 10:40:41 +0800 CST2021-04-16 10:40:41 +0800 CST 2021-04-16 10:40:41 +0800 CST

organização de tabelas com dados que nunca serão alterados

772

para referência, quase toda minha experiência de banco de dados é com mongodb e este é meu primeiro projeto postgres.

Estou armazenando atualizações de dados de pools de criptomoedas de finanças descentralizadas.

A estrutura de dados que estou explorando é muito simples. Existem fichas:

type Token =
    {
        Address:    string     // primary key
        Decimals:   int
        Symbol:     string
    }

Esses dados NUNCA serão alterados, mas são referenciados em todos os lugares; cerca de 2k entradas

type LiquidityToken =
    {
        Address:        string    // primary key
        Symbol:         string
        Token0Address:  string    // matches the address from a token above
        Token1Address:  string    // matches the address from a token above
        Timestamp:      DateTime  // changes at every update
        Token0Amount:   decimal   // changes at every update
        Token1Amount:   decimal   // changes at every update
    }

isso é atualizado a cada 5 minutos, no entanto, SOMENTE Token0Amount e Token1Amount mudam e eu quero manter um histórico.

Eu tenho aproximadamente 500 desses objetos com uma nova atualização a cada 5 minutos, então 140k novas entradas por dia.

então a primeira coisa que eu queria fazer é fazer uma junção entre os campos Token0/1Address e o registro Token, mas como o Token apenas adiciona um int e uma string curta (até 32 caracteres, mas geralmente < 8 caracteres), eu queria saber é que isso está economizando muito (não sei quanto espaço a junção está ocupando).

então eu queria saber se vale a pena dividir o objeto em duas partes:

type LiquidityToken =
    {
        Address:        string    // primary key
        Symbol:         string
        Token0Address:  string    // matches the address from a token above
        Token1Address:  string    // matches the address from a token above
    }

e

type LiquidityTokenUpdate =
    {
        Address:        string    // matches the address of the liquidity token 
        Timestamp:      DateTime  // changes at every update
        Token0Amount:   decimal   // changes at every update
        Token1Amount:   decimal   // changes at every update
    }

e apenas replicar este objeto. Mas agora uma consulta pode puxar a atualização, que puxa o token de liquidez que deve puxar 2 objetos de token.

Como isso é para uma interface pública do GraphQL, pode haver alguns padrões de uso que aparecerão. Não posso prever um tipo específico de consultas porque isso é algo que quero tornar público para a comunidade assim que estiver pronto.

Eu entendo que o cache é meu amigo aqui e como os dados estáticos são pequenos cabe tudo na RAM, mas no geral faria sentido tentar economizar espaço (cada registro não é muito grande) e adicionar o custo das junções ou pesquisa no cache local, ou é melhor apenas salvar tudo a cada atualização, já que o disco é barato?

Por favor, coloque no contexto que isso não é algo que eu tenha experiência; Eu li sobre junções, normalização vs desnormalização de tabelas, etc, mas não tenho experiência prática com isso. Eu lidei com conjuntos de dados muito grandes, mas em um contexto não SQL e esta é minha primeira vez aqui, então espero que a pergunta forneça as informações necessárias: D

1 respostas

Voted

J.D. · Answer 1 · 2021-04-16T16:03:22+08:00

Não fui eu que rejeitei sua pergunta, então não posso falar em nome dessa pessoa, mas meu palpite é porque sua pergunta é um pouco abstrata e prolixa, e este site geralmente é para perguntas mais diretas e concretas, esse foi o raciocínio do downvoter, porque não está claro exatamente quais são seus objetivos / o que você está perguntando. Dito isto, concordo que é chato ser rejeitado sem explicação, então, inversamente, você tem meu voto positivo, porque sua pergunta é justa o suficiente. ?

De qualquer forma, o que posso dizer é que parece que o tamanho dos seus dados não é uma preocupação aqui para o PostgreSQL. Um cálculo rápido mostra que, com a taxa de novos dados que você mencionou, você ainda teria menos de meio bilhão de registros em um período de 10 anos. Eu nem me preocuparia tanto com o cache porque seu objeto é bastante pequeno (portanto, uma única linha na tabela não é muito larga e será pequena).

Se o seu Tokenobjeto e TokenLiquidityobjeto têm um relacionamento um-para-um, não importa muito se você normalizá-los em duas tabelas ou desnormalizá -los em uma, porque você não teria redundância de dados e a linha/tabela teria não crescem muito em tamanho total combinando-os em uma tabela, então também não há preocupação.

Se o relacionamento de Tokenfor um para muitos com TokenLiquidity, então essa é uma história diferente, porque você acabará repetindo as propriedades de Tokenem várias linhas da TokenLiquiditytabela, o que pode dificultar o gerenciamento se os valores de uma dessas propriedades forem alterados.

A única coisa que eu recomendaria pessoalmente, porque só faz sentido estruturalmente, é ter uma terceira tabela separada dedicada a armazenar o histórico da LiquidityTokentabela e, além disso, armazenar especificamente o Token0Amount, Token1Amounte Address(e talvez um DateTimecampo baseado para registrar o when ) campos para minimizar a redundância de dados /maximizar a normalização . Isso garantirá que sua LiquidityTokenmesa seja o mais leve possível e, portanto, torne as junções à Tokenmesa o mais eficientes possível também. A tabela de histórico só seria unida conforme necessário e, se você tivesse o DateTimecampo, apenas até o momento necessário.

organização de tabelas com dados que nunca serão alterados

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

organização de tabelas com dados que nunca serão alterados

1 respostas

relate perguntas