前言
Ollama是一个强大的本地大语言模型管理工具,让我们可以轻松地在本地部署和运行各种开源大模型。本文将详细介绍Ollama的核心命令使用方法,帮助您快速上手本地AI模型的管理和使用。
1. 查看已安装模型 - ollama list
基本用法
ollama list
功能说明
ollama list
命令用于查看当前系统中已经下载和安装的所有模型。执行该命令后,系统会显示:
- 模型名称:已安装模型的完整名称
- 模型ID:每个模型的唯一标识符
- 大小:模型文件占用的磁盘空间
- 修改时间:模型最后更新的时间
输出示例
NAME ID SIZE MODIFIED
llama2:latest e8a35b5937a5 3.8 GB 2 days ago
qwen:7b f02dd72bb242 4.1 GB 5 hours ago
codellama:python 8d8f99ba5077 3.8 GB 1 week ago
使用场景
- 检查系统中有哪些可用模型
- 确认模型是否成功安装
- 管理磁盘空间,了解模型占用情况
2. 下载和运行模型 - ollama run
基本语法
ollama run [模型名称]
功能说明
ollama run
命令具有双重功能:
- 如果指定的模型尚未下载,会自动从官方仓库下载
- 启动模型并进入交互式对话界面
实际使用示例
# 下载并运行 Llama2 模型
ollama run llama2# 下载并运行 Qwen 7B 模型
ollama run qwen:7b# 运行代码专用模型
ollama run codellama:python
下载过程
当首次运行某个模型时,您会看到类似以下的下载进度:
pulling manifest
pulling e8a35b5937a5... 100% ▕████████████████▏ 3.8 GB
pulling 74a56173a4c1... 100% ▕████████████████▏ 1.4 KB
pulling c0b14696b9b1... 100% ▕████████████████▏ 136 B
verifying sha256 digest
writing manifest
removing any unused layers
success
3. 详细输出模式 - --verbose
参数
完整语法
ollama run [模型名称] --verbose
功能特点
使用 --verbose
参数可以获得详细的运行信息,包括:
- Token统计:输入和输出的token数量
- 处理速度:每秒处理的token数量
- 响应时间:模型响应的总耗时
- 内存使用:模型运行时的内存占用情况
实际示例
ollama run qwen:7b --verbose
详细输出示例
>>> 你好,请介绍一下你自己
你好!我是Qwen,是阿里云开发的大语言模型...total duration: 2.847292875s
load duration: 892.583µs
prompt eval count: 12 tokens
prompt eval duration: 346.084ms
prompt eval rate: 34.67 tokens/s
eval count: 45 tokens
eval duration: 2.499750917s
eval rate: 18.00 tokens/s
性能指标解读
- total duration: 总耗时
- load duration: 模型加载时间
- prompt eval count: 输入提示的token数量
- eval count: 生成回复的token数量
- eval rate: 生成速度(tokens/秒)
4. 创建自定义模型 - ollama create
基本语法
ollama create [自定义名称] -f [模型文件路径]
模型文件(Modelfile)
在创建自定义模型之前,需要编写一个Modelfile,定义模型的配置和行为。
Modelfile示例
# 基于现有模型
FROM qwen:7b# 设置系统提示词
SYSTEM """
你是一个专业的Python编程助手,请用中文回答编程相关问题。
始终提供清晰的代码示例和详细的解释。
"""# 设置模型参数
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER max_tokens 2048# 添加模板
TEMPLATE """{{ if .System }}<|system|>
{{ .System }}<|end|>
{{ end }}{{ if .Prompt }}<|user|>
{{ .Prompt }}<|end|>
<|assistant|>
{{ end }}"""
创建自定义模型步骤
- 创建Modelfile
# 创建模型配置文件
nano my-python-assistant.modelfile
- 执行创建命令
ollama create my-python-assistant -f ./my-python-assistant.modelfile
- 验证创建结果
# 查看新创建的模型
ollama list# 测试自定义模型
ollama run my-python-assistant
自定义模型的优势
- 个性化配置:根据特定需求调整模型行为
- 专业化应用:为特定领域或任务优化
- 一致性体验:确保模型在不同会话中保持相同的行为模式
5. 完整工作流程示例
以下是一个完整的Ollama使用流程:
# 1. 查看当前已安装的模型
ollama list# 2. 下载并运行新模型(如果需要)
ollama run qwen:7b# 3. 使用详细模式测试模型性能
ollama run qwen:7b --verbose# 4. 创建自定义模型配置文件
cat > my-assistant.modelfile << EOF
FROM qwen:7b
SYSTEM "你是一个helpful的AI助手"
PARAMETER temperature 0.8
EOF# 5. 基于配置文件创建自定义模型
ollama create my-assistant -f my-assistant.modelfile# 6. 验证自定义模型
ollama run my-assistant
总结
Ollama提供了简洁而强大的命令行界面来管理本地大语言模型:
ollama list
- 管理已安装模型ollama run
- 下载运行模型--verbose
- 获取详细性能信息ollama create
- 创建个性化模型
通过这些命令,我们可以轻松地在本地环境中部署、测试和定制各种开源大语言模型,为AI应用开发提供强大的支持。无论是个人学习还是企业应用,Ollama都是一个值得推荐的本地AI模型管理工具。