📋 服务信息

配置项
服务地址http://192.168.6.9:11434
API 基础路径http://192.168.6.9:11434/v1
已安装模型qwen2.5:0.5b (397 MB)
API Keyollama(或任意字符串,Ollama 不验证)

🔌 OpenAI 兼容接口

Ollama 提供与 OpenAI API 完全兼容的接口,可直接使用支持 OpenAI 的客户端和工具。

可用端点

端点说明
GET /v1/models列出可用模型
POST /v1/chat/completions聊天完成(推荐)
POST /v1/completions文本补全
POST /v1/embeddings嵌入向量

🚀 API 调用示例

1. curl 命令行

列出模型

curl http://192.168.6.9:11434/v1/models

聊天请求

curl http://192.168.6.9:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5:0.5b",
    "messages": [
      {"role": "user", "content": "你好,请介绍一下自己"}
    ],
    "temperature": 0.7,
    "max_tokens": 512
  }'

流式响应

curl http://192.168.6.9:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5:0.5b",
    "messages": [{"role": "user", "content": "你好"}],
    "stream": true
  }'

2. Python (OpenAI SDK)

from openai import OpenAI

# 创建客户端
client = OpenAI(
    base_url="http://192.168.6.9:11434/v1",
    api_key="ollama"  # 任意值即可
)

# 聊天请求
response = client.chat.completions.create(
    model="qwen2.5:0.5b",
    messages=[
        {"role": "system", "content": "你是一个有帮助的助手"},
        {"role": "user", "content": "你好,请介绍一下自己"}
    ],
    temperature=0.7,
    max_tokens=512
)

print(response.choices[0].message.content)

流式响应

from openai import OpenAI

client = OpenAI(
    base_url="http://192.168.6.9:11434/v1",
    api_key="ollama"
)

response = client.chat.completions.create(
    model="qwen2.5:0.5b",
    messages=[{"role": "user", "content": "你好"}],
    stream=True
)

for chunk in response:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

安装依赖

pip install openai

3. JavaScript/TypeScript (Node.js)

import OpenAI from "openai";

const client = new OpenAI({
  baseURL: "http://192.168.6.9:11434/v1",
  apiKey: "ollama"
});

const response = await client.chat.completions.create({
  model: "qwen2.5:0.5b",
  messages: [{ role: "user", content: "你好" }],
  temperature: 0.7,
  max_tokens: 512
});

console.log(response.choices[0].message.content);

安装依赖

npm install openai

4. HTTP 请求参数说明

请求体参数

参数类型说明默认值
modelstring模型名称必填
messagesarray消息列表必填
temperaturefloat温度 (0-2)0.7
max_tokensint最大输出 token 数无限制
streamboolean是否流式输出false
top_pfloat核采样阈值0.9
frequency_penaltyfloat频率惩罚0
presence_penaltyfloat存在惩罚0

消息格式

{
  "role": "user" | "assistant" | "system",
  "content": "消息内容"
}

📱 常用客户端配置

ChatGPT-Next-Web / LobeChat / Cherry Studio

配置项
API 接口地址http://192.168.6.9:11434/v1
API Keyollama
模型名称qwen2.5:0.5b

Open WebUI

docker run -d -p 3000:8080 \
  -e OLLAMA_BASE_URL=http://192.168.6.9:11434 \
  --add-host=host.docker.internal:host-gateway \
  --name open-webui \
  --restart always \
  openwebui/open-webui:main

🔧 服务管理命令

# 查看服务状态
sudo systemctl status ollama

# 重启服务
sudo systemctl restart ollama

# 查看日志
sudo journalctl -u ollama -f

# 停止服务
sudo systemctl stop ollama

# 启动服务
sudo systemctl start ollama

📦 Ollama 命令行工具

# 列出已安装模型
ollama list

# 运行模型(交互式)
ollama run qwen2.5:0.5b

# 拉取新模型
ollama pull qwen2.5:1.5b

# 删除模型
ollama rm qwen2.5:0.5b

# 查看模型详情
ollama show qwen2.5:0.5b

⚙️ 配置文件位置

文件/目录说明
/etc/systemd/system/ollama.service.d/override.confOllama 服务配置
/usr/share/ollama/.ollama/models/模型存储目录

当前服务环境变量

OLLAMA_HOST=0.0.0.0:11434
HTTP_PROXY=http://127.0.0.1:20171
HTTPS_PROXY=http://127.0.0.1:20171
NO_PROXY=127.0.0.1,localhost,::1,...

🔐 安全建议

  1. 局域网访问:当前配置允许局域网内所有设备访问
  2. 防火墙设置:如需限制访问,可配置防火墙规则
    sudo ufw allow from 192.168.6.0/24 to any port 11434
    
  3. 生产环境:建议使用反向代理(如 Nginx)添加认证和 HTTPS

📊 性能说明

由于运行在 ARM64 Cortex-A53 设备上:

  • 推理速度:约 1-5 tokens/秒(取决于问题复杂度)
  • 内存占用:约 500MB-1GB
  • 适用场景:简单问答、文本生成、基础自动化任务

📚 参考链接