Como divido o loop for em 3 quadros de dados individuais?

Question

ole

Asked: 2025-04-03 18:03:54 +0800 CST2025-04-03 18:03:54 +0800 CST 2025-04-03 18:03:54 +0800 CST

Como posso compartilhar esquemas e utilitários de forma eficiente entre micro serviços em uma abordagem de monorepo

772

Olá, estou tentando construir uma previsão ao vivo com o YOLO. O objetivo é transmitir os dados com algum tipo de transformação da inferência para um frontend final.

O fluxo deve ser assim:

treinamento de modelo (processo separado)
Inferência que salva os dados no Postgres
Processo ELT que lê os dados do postgres, os transforma e os salva em uma nova tabela no postgres
Uma API expõe a tabela final
O frontend usa a API para mostrar os dados em um painel

A ideia é colocar tudo em uma estrutura de micro serviços para ter soluções independentes e escaláveis. Sei que em uma escala maior uma arquitetura com Kafka e Spark seria a maneira mais eficiente, mas para este projeto quero colocar uma arquitetura de micro serviços.

Meu problema agora é que eu quero compartilhar alguns utilitários e também alguns esquemas entre os serviços. Minha ideia é usar um contêiner base que estou construindo para que eu possa usar esse contêiner como imagem base para todos os contêineres que precisam dos esquemas. Devido ao motivo de que tudo deve acabar em um produto, eu também quero tê-lo em um monorepo.

Também sei que o compartilhamento de esquemas para microsserviços não é uma prática recomendada, mas para esse caso de uso ajudaria muito.

Aqui está uma ideia simplificada para nossa estrutura (aqui com vídeos que são calculados ao vivo):

.
├── data/
│   ├── weights
│   ├── model_data
│   └── inference_tests
├── model_training/
│   ├── train.py
│   ├── prep.py
│   └── eval.py
├── services/
│   ├── shared/
│   │   ├── Dockerfile
│   │   ├── schemas/
│   │   │   ├── stats.py
│   │   │   └── raw_data.py
│   │   └── db_utils
│   ├── inference/
│   │   ├── Dockerfile
│   │   ├── pyproject.toml
│   │   ├── main.py
│   │   └── src/
│   │       └── all_stuff.py
│   ├── etl_process/
│   │   ├── Dockerfile
│   │   ├── pyproject.toml
│   │   ├── main.py
│   │   └── src/
│   │       └── all_stuff.py
│   ├── backend_for_frontend/
│   │   ├── Dockerfile
│   │   ├── pyproject.toml
│   │   ├── main.py
│   │   └── src/
│   │       └── all_stuff.py
│   └── frontend/
│       ├── Dockerfile
│       ├── pyproject.toml
│       ├── main.py
│       └── src/
│           └── all_stuff.py
└── docker-compose.yaml

No final, quero combinar tudo com docker-compose assim:

version: "3.8"

services:
  # Base image for shared code
  shared-base:
    build:
      context: ./services/shared
      dockerfile: Dockerfile.base 
    image: shared-base-image

  db:
    image: postgres:13
    volumes:
      - db_data:.local/postgresql/data # .local is in the .gitignore
    environment:
      POSTGRES_USER: myuser
      POSTGRES_PASSWORD: mypassword
      POSTGRES_DB: mydb
    ports:
      - "5432:5432"

  inference:
    build:
      context: ./services/inference
      dockerfile: Dockerfile
    depends_on:
      - shared-base
      - db
    volumes:
      - ./data/video:/input_videos # not stream yet
    environment:
      DB_HOST: db
      DB_USER: myuser
      DB_PASSWORD: mypassword
      DB_NAME: mydb

  etl-process:
    build:
      context: ./services/etl-process
      dockerfile: Dockerfile
    depends_on:
      - shared-base
      - db
    environment:
      DB_HOST: db
      DB_USER: myuser
      DB_PASSWORD: mypassword
      DB_NAME: mydb

  backend:
    build:
      context: ./services/backend_for_frontend
      dockerfile: Dockerfile
    depends_on:
      - shared-base
      - db
    ports:
      - "8000:8000"
    environment:
      DB_HOST: db
      DB_USER: myuser
      DB_PASSWORD: mypassword
      DB_NAME: mydb

  frontend:
    build:
      context: ./services/frontend
      dockerfile: Dockerfile
    ports:
      - "3000:3000"

volumes:
  db_data:

Para ter os módulos e esquemas compartilhados, quero usar o contêiner base que estou construindo como imagem base para outros contêineres que precisam dos esquemas e utilitários compartilhados.

Veja como eu quero implementá-lo:

FROM python:3.9-slim-buster
WORKDIR /app
COPY . /shared

Próximo arquivo que depende dele:

FROM shared-base-image

RUN pip install uv

COPY . .

ENRTRYPOINT["uv", "run", "main.py"]

Agora minha pergunta final: Qual seria a estrutura final para esse fluxo de trabalho e design? Existem alguns padrões de design que são realmente úteis?

Com essa estrutura, também enfrento os problemas de não poder executar facilmente o script e os módulos sem o contêiner. Faz sentido anexar caminhos com base na existência do caminho?

Quero dizer, eu também poderia ter apenas uma pasta bif src, mas todos os serviços teriam as mesmas dependências, o que também seria uma sobrecarga.

Obrigado desde já pela sua ajuda e espero que você tenha alguma informação para melhorar a estrutura.

Espero que você possa me dar alguma ideia de como estruturá-lo efetivamente. É principalmente sobre design e padrão de design.

1 respostas

Voted

David Maze · Answer 1 · 2025-04-03T18:33:52+08:00

Você deve tratar a biblioteca compartilhada como uma biblioteca Python comum. Ela não precisa de um Dockerfile, mas precisa do seu próprio pyproject.toml. Então seus outros serviços podem depender dela normalmente

# services/inference/pyproject.toml
[project]
dependencies = [
  "../shared",
  ...
]

Isso introduz o caso em que um Dockerfile precisa incluir conteúdo de fora de seu próprio diretório. No arquivo Compose, você precisa alterar o build: { context: }ponto para algum diretório pai e alterar o dockerfile:ponto de volta para o subdiretório

services:
  inference:
    build:
      context: services
      dockerfile: inference/Dockerfile

e também altere as COPYinstruções do Dockerfile para fazer referência ao subdiretório

FROM python:3.13-slim
# Install uv
# https://docs.astral.sh/uv/guides/integration/docker/#installing-uv
COPY --from=ghcr.io/astral-sh/uv:latest /uv /uvx /bin/

# Copy in the application and its libraries
WORKDIR /app
COPY shared/ shared/
COPY inference/ inference/

# Build it
WORKDIR /app/inference
RUN uv sync --frozen
ENV PATH=/app/inference/.venv/bin:$PATH

# Metadata to run it
CMD ["inference"]

Nesta configuração não há um "Dockerfile base". Este padrão não é bem suportado pelo Compose. Seu código Python compartilhado provavelmente não é grande e, desde que as primeiras linhas do Dockerfile sejam as mesmas em seus vários serviços, as camadas de imagem Docker subjacentes podem ser compartilhadas.

Eu também exploraria os méritos de usar apenas uma única imagem. No seu diretório raiz, você poderia ter um pyproject.tomlque dependesse de todos os subprojetos, o que também traria seus scripts de ponto de entrada Python. Na medida em que você tem grandes dependências, isso provavelmente requer menos espaço em disco: um contêiner compartilha espaço com sua imagem, e você terá apenas uma cópia de cada dependência, independentemente de quantos projetos as usam. Agora, um commit em qualquer lugar do seu repositório produz uma única imagem nova.

Também pode haver algum valor em dividir essa configuração em repositórios separados. Se você puder usar um repositório de pacotes Python ou carregar sua biblioteca no PyPI, então você pode usar um Dockerfile mais simples. Você também não será forçado a reconstruir e reiniciar seu frontend porque o trabalho ETL mudou. A desvantagem, como é, é que é mais difícil fazer alterações de interrupção entre serviços, mas espero que isso seja um evento raro (e o versionamento semântico adequado em sua biblioteca pode mitigar os problemas um pouco).

Como posso compartilhar esquemas e utilitários de forma eficiente entre micro serviços em uma abordagem de monorepo

Reformatar números, inserindo separadores em posições fixas

Por que os conceitos do C++20 causam erros de restrição cíclica, enquanto o SFINAE antigo não?

Problema com extensão desinstalada automaticamente do VScode (tema Material)

Vue 3: Erro na criação "Identificador esperado, mas encontrado 'import'" [duplicado]

Qual é o propósito de `enum class` com um tipo subjacente especificado, mas sem enumeradores?

Como faço para corrigir um erro MODULE_NOT_FOUND para um módulo que não importei manualmente?

`(expression, lvalue) = rvalue` é uma atribuição válida em C ou C++? Por que alguns compiladores aceitam/rejeitam isso?

Um programa vazio que não faz nada em C++ precisa de um heap de 204 KB, mas não em C

PowerBI atualmente quebrado com BigQuery: problema de driver Simba com atualização do Windows

AdMob: MobileAds.initialize() - "java.lang.Integer não pode ser convertido em java.lang.String" para alguns dispositivos

Como posso compartilhar esquemas e utilitários de forma eficiente entre micro serviços em uma abordagem de monorepo

1 respostas

relate perguntas