Majid提出的问题 -dba

Majid

Asked: 2024-08-11 16:53:50 +0800 CST

O DynamoDB é uma boa escolha para um serviço de gerenciamento de arquivos multilocatário?

Estou planejando construir um microsserviço de gerenciamento de arquivos para uma plataforma SaaS multilocatário que usa Amazon S3 como back-end de armazenamento de arquivos. Pretendo usar DynamoDB como banco de dados porque é rápido e escalável. A plataforma pode hospedar muitos locatários, com cada locatário tendo muitos usuários e cada usuário tendo muitos arquivos em seu espaço de armazenamento.

Preciso manter um registro dos metadados de cada arquivo e da estrutura de diretórios do usuário (hierarquia) no banco de dados. No entanto, não tenho certeza se o DynamoDB é a melhor escolha. Um usuário pode querer listar todos os seus diretórios e arquivos, pesquisar por nome ou classificá-los em ordem alfabética ou por data de criação. Isto poderia levar ao problema da "partição quente" (pelo menos para Índices Secundários Globais). A situação pode se tornar ainda mais desafiadora ao rastrear todos os arquivos carregados por todos os usuários de um locatário.

Portanto, estou considerando uma abordagem híbrida: usar PostgreSQL para dados relacionais e DynamoDB para armazenar informações de arquivos e hierarquias de diretórios.

O que você acha dessa ideia? Alguém pode me apontar na direção certa?

Desde já, obrigado.

Majid

Asked: 2020-08-29 08:43:04 +0800 CST

Usar BIGINT e o dobro do espaço de armazenamento ou INTEGER mas com operações extras?

Suponha que eu tenha uma tabela nomeada agencycom algumas colunas:

  internal_id(integer, unique)
, external_id(bigint, unique)
, name, location, created_at, ...

internal_ide external_idcada um é único e candidato a ser a coluna de chave primária.

Existem algumas outras tabelas (digamos A, B, C, D, E) que fazem referência a esta tabela. Suponha que cada uma dessas tabelas contenha milhões ou bilhões de linhas.

Normalmente tenho external_idquando preciso filtrar os A, B, C, D, Edados das tabelas.

Qual dos cenários a seguir é o melhor caminho a seguir, considerando o desempenho e o espaço de armazenamento:

Use internal_idcomo chave primária em agencye como chave estrangeira em outras tabelas. Como esse campo ocupa 4 bytes de espaço de armazenamento, podemos economizar bilhões de bytes. Porém como normalmente tenho o external_id, tenho que fazer um extra JOINpara cada consulta como penalidade:

    SELECT A.* FROM A
         INNER JOIN agency ON A.internal_id=agency.internal_id
    WHERE agency.external_id=5;

Use internal_idcomo chave primária em agencye como chave estrangeira em outras tabelas. Mas para me livrar de um extra JOIN, no meu aplicativo eu poderia mapear primeiro external_idcom internal_iduma consulta simples ( SELECT internal_id FROM agency WHERE external_id=5) e depois usar o fetched internal_idpara outra consulta simples:

    SELECT * FROM A
    WHERE internal_id=59; -- 59 is the fetched internal_id from the other query

Ele tem melhor desempenho do que JOINconsiderar uma viagem extra de ida e volta entre o aplicativo e o banco de dados?

esquecendo internal_ide usando external_idcomo chave primária e chave estrangeira, com a penalidade de mais 4 bytes extras por registro em cada outra tabelas ( A, B, C, D, E) e custo de bilhões de mais espaço de armazenamento ou operações de banco de dados potencialmente ainda mais lentas (por causa de arquivos de banco de dados maiores):

    SELECT * FROM A
    WHERE external_id=5

Atualizar:

agencyA tabela pode conter dezenas de milhares ou no máximo alguns milhões de linhas.
internal_ide external_idnão mudará com o tempo, mas outras colunas sem identidade raramente podem mudar.
Existem cerca de 5 a 7 tabelas relacionadas ( A, B, C, D, E, ...) que algumas delas podem ficar muito grandes ao longo do tempo, digamos alguns milhões de linhas por dia (bilhões de linhas ao longo de um ano)

O DynamoDB é uma boa escolha para um serviço de gerenciamento de arquivos multilocatário?

Usar BIGINT e o dobro do espaço de armazenamento ou INTEGER mas com operações extras?

conectar ao servidor PostgreSQL: FATAL: nenhuma entrada pg_hba.conf para o host

Como fazer a saída do sqlplus aparecer em uma linha?

Selecione qual tem data máxima ou data mais recente

Como faço para listar todos os esquemas no PostgreSQL?

Listar todas as colunas de uma tabela especificada

Como usar o sqlplus para se conectar a um banco de dados Oracle localizado em outro host sem modificar meu próprio tnsnames.ora

Como você mysqldump tabela (s) específica (s)?

Listar os privilégios do banco de dados usando o psql

Como inserir valores em uma tabela de uma consulta de seleção no PostgreSQL?

Como faço para listar todos os bancos de dados e tabelas usando o psql?

Majid's questions