K8Studio 普罗米修斯公制

Question

khteh

Asked: 2025-04-04 11:19:47 +0800 CST2025-04-04 11:19:47 +0800 CST 2025-04-04 11:19:47 +0800 CST

运行 Ollama 作为 k8s STS，使用外部脚本作为入口点来加载模型

772

我设法将 Ollama 作为 k8s STS 运行。我将其用于 Python Langchain LLM/RAG 应用程序。但是，以下 DockerfileENTRYPOINT脚本尝试MODELS从 k8s STS 清单中提取作为 ENV 导出的图像列表时遇到问题。Dockerfile 具有以下ENTRYPOINT内容CMD：

ENTRYPOINT ["/usr/local/bin/run.sh"]
CMD ["bash"]

run.sh：

#!/bin/bash
set -x
ollama serve&
sleep 10
models="${MODELS//,/ }"
for i in "${models[@]}"; do \
      echo model: $i  \
      ollama pull $i \
    done

k8s日志：

+ models=llama3.2
/usr/local/bin/run.sh: line 10: syntax error: unexpected end of file

David Maze 的解决方案：

          lifecycle:
            postStart:
              exec:
                command:
                  - bash
                  - -c
                  - |
                    for i in $(seq 10); do
                      ollama ps && break
                      sleep 1
                    done
                    for model in ${MODELS//,/ }; do
                      ollama pull "$model"
                    done

ollama-0          1/2     CrashLoopBackOff     4 (3s ago)        115s
ollama-1          1/2     CrashLoopBackOff     4 (1s ago)        115s

  Warning  FailedPostStartHook  106s (x3 over 2m14s)  kubelet            PostStartHook failed

$ k logs -fp ollama-0
Defaulted container "ollama" out of: ollama, fluentd
Error: unknown command "ollama" for "ollama"

更新Dockerfile：

ENTRYPOINT ["/bin/ollama"]
#CMD ["bash"]
CMD ["ollama", "serve"]

我需要定制Dockerfile以便可以安装 Nvidia Container Toolkit。

1 个回答

Voted

David Maze · Answer 1 · 2025-04-04T20:53:53+08:00

从机械层面来看，循环内的反斜杠for会造成问题。这会导致 shell 将各行合并在一起，因此您会得到一个命令echo model: $i ollama pull $i done，但没有独立的done命令来终止循环。

您将遇到的下一个问题是，这个入口点脚本是容器运行的唯一内容，当此脚本退出时，容器也会退出。您在后台启动 Ollama 服务器并不重要。如果您想以这种方式运行容器，您需要wait让服务器退出。这看起来像

#!/bin/bash
ollama serve &
pid=$!                       # ADD: save the process ID of the server
sleep 10
models="${MODELS//,/ }"
for i in "${models[@]}"; do  # FIX: remove backslashes
  echo model: "$i"
  ollama pull "$i"
done
wait "$pid"                  # ADD: keep the script running as long as the server is too

但是，这种启动后台进程然后wait为其设置权限的模型通常不是最佳方法。例如，如果 Pod 关闭，终止信号将发送到包装器脚本而不是 Ollama 服务器，您将无法干净地关闭。

在 Kubernetes 上下文中（您说您在 StatefulSet 中运行它），PostStart 钩子适合这里。这将允许您运行未修改的映像，但添加您自己的脚本，该脚本在容器启动时大约同时运行。在 Kubernetes 清单中，这可能看起来像：

spec:
  template:
    spec:
      containers:
        - name: ollama
          image: ollama/ollama  # the unmodified upstream image
          lifecycle:
            postStart:
              exec:
                command:
                  - /bin/sh
                  - -c
                  - |
                      for i in $(seq 10); do
                        ollama ps && break
                        sleep 1
                      done
                      for model in llama3.2; do
                        ollama pull "$model"
                      done

此设置将 shell 脚本内联写入 Kubernetes 清单中。它将其包装到/bin/sh -c可以以这种方式运行的文件中。这使用“exec”机制，因此脚本在同一容器中作为辅助进程运行。第一个片段最多等待 10 秒以让服务器运行，第二个片段是加载模型的循环。

运行 Ollama 作为 k8s STS，使用外部脚本作为入口点来加载模型

重新格式化数字，在固定位置插入分隔符

为什么 C++20 概念会导致循环约束错误，而老式的 SFINAE 不会？

VScode 自动卸载扩展的问题（Material 主题）

Vue 3：创建时出错“预期标识符但发现‘导入’”[重复]

具有指定基础类型但没有枚举器的“枚举类”的用途是什么？

如何修复未手动导入的模块的 MODULE_NOT_FOUND 错误？

`(表达式，左值) = 右值` 在 C 或 C++ 中是有效的赋值吗？为什么有些编译器会接受/拒绝它？

在 C++ 中，一个不执行任何操作的空程序需要 204KB 的堆，但在 C 中则不需要

PowerBI 目前与 BigQuery 不兼容：Simba 驱动程序与 Windows 更新有关

AdMob：MobileAds.initialize() - 对于某些设备，“java.lang.Integer 无法转换为 java.lang.String”

运行 Ollama 作为 k8s STS，使用外部脚本作为入口点来加载模型

1 个回答

相关问题