Ubuntu系统 | 本地部署ollama+deepseek

1、Ollama介绍

Ollama是由Llama开发团队推出的开源项目，旨在为用户提供高效、灵活的本地化大型语言模型（LLM）运行环境。作为Llama系列模型的重要配套工具，Ollama解决了传统云服务对计算资源和网络连接的依赖问题，让用户能够在个人电脑或私有服务器上部署和运行如Llama 3等主流大模型，从而实现更高的隐私保护、更低的延迟以及更强的定制化能力。

核心特点与技术优势

本地化部署与隐私保护
Ollama允许用户在无需互联网连接的情况下运行模型，所有数据处理均在本地完成，避免了敏感信息上传至云端的风险。这一特性尤其适用于医疗、金融等对数据安全要求极高的行业。

多模型格式支持
项目兼容多种模型格式，包括GGUF和GGML，支持Llama系列及其他开源模型的快速加载与优化。用户可通过简单命令切换不同模型版本，甚至自定义模型结构。

GGML（GPT-Generated Model Language）

定义：
GGML 是一个 张量计算库，最初由 Georgi Gerganov 开发，用于在 CPU 和 GPU 上高效运行大型语言模型（LLM）。它支持多种量化技术（如 INT4/INT8），以降低模型的内存占用和计算需求。

核心特点：

轻量化：代码库极小（编译后 <1MB），适合资源受限的设备。
跨平台支持：支持 x86、ARM、Apple Silicon、CUDA 等多种硬件架构。
量化技术：通过低精度量化（如 INT8、INT4）显著减少模型大小和推理资源消耗。
无依赖性：完全独立于 PyTorch、TensorFlow 等框架，无需外部依赖。
单文件部署：模型和代码集成在一个文件中，便于分发和部署。

局限性：

灵活性不足：难以添加新功能或元数据（如模型版本、架构信息）。
兼容性问题：引入新特性时可能破坏旧模型的兼容性。
手动调参：用户需频繁调整参数（如 rope-freq-base、gqa 等）。

典型应用场景：

在本地设备（如笔记本电脑、手机）上离线运行大语言模型。

边缘计算场景，要求低延迟、低资源消耗。

学术研究或实验性项目，需快速测试不同量化策略对模型性能的影响。

2. GGUF（GPT-Generated Unified Format）

定义：
GGUF 是 GGML 的 升级版文件格式，旨在解决 GGML 的局限性。它是一种二进制文件格式，专为高效存储和加载模型而设计，同时支持更丰富的元数据和扩展性。

核心特点：