使用容器进行生成式 AI 开发
先决条件
完成 容器化生成式 AI 应用程序。
概述
在本节中,您将学习如何设置开发环境,以访问生成式 AI (GenAI) 应用程序所需的所有服务。这包括:
- 添加本地数据库
- 添加本地或远程 LLM 服务
Note您可以在 GenAI Stack 演示应用程序中看到更多容器化 GenAI 应用程序的示例。
添加本地数据库
您可以使用容器来设置本地服务,例如数据库。在本节中,您将更新 compose.yaml 文件以定义数据库服务。此外,您还将指定一个环境变量文件,以加载数据库连接信息,而不是每次都手动输入信息。
要运行数据库服务:
-
在克隆的仓库目录中,将
env.example文件重命名为.env。 该文件包含容器将使用的环境变量。 -
在克隆的仓库目录中,在 IDE 或文本编辑器中打开
compose.yaml文件。 -
在
compose.yaml文件中,添加以下内容:- 添加运行 Neo4j 数据库的指令
- 在服务器服务下指定环境文件,以便传入连接的环境变量
以下是更新后的
compose.yaml文件。所有注释已被移除。services: server: build: context: . ports: - 8000:8000 env_file: - .env depends_on: database: condition: service_healthy database: image: neo4j:5.11 ports: - "7474:7474" - "7687:7687" environment: - NEO4J_AUTH=${NEO4J_USERNAME}/${NEO4J_PASSWORD} healthcheck: test: ["CMD-SHELL", "wget --no-verbose --tries=1 --spider localhost:7474 || exit 1"] interval: 5s timeout: 3s retries: 5Note要了解有关 Neo4j 的更多信息,请参阅 Neo4j 官方 Docker 镜像。
-
运行应用程序。在
docker-genai-sample目录中, 在终端中运行以下命令。$ docker compose up --build -
访问应用程序。打开浏览器并访问 http://localhost:8000 上的应用程序。您应该看到一个简单的 Streamlit 应用程序。请注意,向 PDF 提问会导致应用程序失败,因为
.env文件中指定的 LLM 服务尚未运行。 -
停止应用程序。在终端中,按
ctrl+c停止应用程序。
添加本地或远程 LLM 服务
示例应用程序支持 Ollama 和 OpenAI。本指南为以下场景提供说明:
- 在容器中运行 Ollama
- 在容器外运行 Ollama
- 使用 OpenAI
虽然所有平台都可以使用上述任何场景,但性能和 GPU 支持可能会有所不同。您可以使用以下指南帮助您选择适当的选项:
- 如果您使用的是 Linux 和 Docker Engine 的原生安装,或 Windows 10/11 和 Docker Desktop,并且您有支持 CUDA 的 GPU,且系统至少有 8 GB RAM,请在容器中运行 Ollama。
- 如果您使用的是 Apple silicon Mac,请在容器外运行 Ollama。
- 如果前两个场景不适用于您,请使用 OpenAI。
为您的 LLM 服务选择以下选项之一。
在容器中运行 Ollama 时,您应该有一个支持 CUDA 的 GPU。虽然您可以在没有支持 GPU 的容器中运行 Ollama,但性能可能不可接受。只有 Linux 和 Windows 11 支持容器的 GPU 访问。
要在容器中运行 Ollama 并提供 GPU 访问:
-
安装先决条件。
- 对于 Linux 上的 Docker Engine,安装 NVIDIA Container Toolkit。
- 对于 Windows 10/11 上的 Docker Desktop,安装最新的 NVIDIA 驱动程序,并确保您使用的是 WSL2 后端
-
在
compose.yaml中添加 Ollama 服务和卷。以下是 更新后的compose.yaml:services: server: build: context: . ports: - 8000:8000 env_file: - .env depends_on: database: condition: service_healthy database: image: neo4j:5.11 ports: - "7474:7474" - "7687:7687" environment: - NEO4J_AUTH=${NEO4J_USERNAME}/${NEO4J_PASSWORD} healthcheck: test: [ "CMD-SHELL", "wget --no-verbose --tries=1 --spider localhost:7474 || exit 1", ] interval: 5s timeout: 3s retries: 5 ollama: image: ollama/ollama:latest ports: - "11434:11434" volumes: - ollama_volume:/root/.ollama deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu] volumes: ollama_volume:Note有关 Compose 指令的更多详细信息,请参阅 使用 Docker Compose 启用 GPU 访问。
-
在
compose.yaml文件中添加 ollama-pull 服务。此服务使用docker/genai:ollama-pull镜像,基于 GenAI Stack 的 pull_model.Dockerfile。 该服务将自动为您的 Ollama 容器拉取模型。以下是compose.yaml文件的更新部分:services: server: build: context: . ports: - 8000:8000 env_file: - .env depends_on: database: condition: service_healthy ollama-pull: condition: service_completed_successfully ollama-pull: image: docker/genai:ollama-pull env_file: - .env # ...
要在容器外运行 Ollama:
- 安装 并在您的主机上运行 Ollama。
- 在
.env文件中更新OLLAMA_BASE_URL值为http://host.docker.internal:11434。 - 使用以下命令将模型拉取到 Ollama。
$ ollama pull llama2
Important使用 OpenAI 需要 OpenAI 账户。OpenAI 是第三方托管服务,可能会产生费用。
- 在
.env文件中更新LLM值为gpt-3.5。 - 取消注释并更新
.env文件中的OPENAI_API_KEY值 为您的 OpenAI API 密钥。
运行您的 GenAI 应用程序
此时,您的 Compose 文件中包含以下服务:
- 用于主 GenAI 应用程序的服务器服务
- 用于在 Neo4j 数据库中存储向量的数据库服务
- (可选)用于运行 LLM 的 Ollama 服务
- (可选)用于自动为 Ollama 服务拉取模型的 Ollama-pull 服务
要运行所有服务,请在 docker-genai-sample 目录中运行以下命令:
$ docker compose up --build
如果您的 Compose 文件包含 ollama-pull 服务,则 ollama-pull 服务可能需要几分钟才能拉取模型。ollama-pull 服务将持续更新控制台状态。拉取模型后,ollama-pull 服务容器将停止,您可以访问应用程序。
应用程序运行后,打开浏览器并访问 http://localhost:8000 上的应用程序。
上传一个 PDF 文件,例如 Docker CLI 速查表,并询问有关 PDF 的问题。
根据您的系统和您选择的 LLM 服务,回答可能需要几分钟。如果您使用的是 Ollama 且性能不可接受,请尝试使用 OpenAI。
总结
在本节中,您学习了如何设置开发环境,以提供对 GenAI 应用程序所需的所有服务的访问。
相关信息:
下一步
在 GenAI Stack 演示应用程序 中查看更多的 GenAI 应用程序示例。