AI 系列：DeepSeek 本地部署

2025-02-09

概要

这几个月 AI 一轮一轮迭代，DeepSeek 也因为大大降低成本，引起很大关注；最近使用了网页版本，今天尝试本地 MBP 上安装下。

1.确定版本

准备在 Macbook Pro 上安装下 deepseek 版本的大模型，需要先确定下模型版本。

在您的配备 16GB 内存的 MacBook Pro M2 上，运行 DeepSeek-R1 模型时，需要考虑模型的大小和内存占用。根据 Ollama 提供的信息，DeepSeek-R1 系列模型有多个版本，参数规模从 1.5B 到 70B 不等。其中，DeepSeek-R1:8b-llama-distill-fp16 模型的大小为 4.9GB，适合在 16GB 内存的系统上运行。

2.MBP 上，安装 deepseek 模型

在 MPB 上，先安装 Ollama ，直接下载对应版本：Ollama Download

然后，在 Ollama 上，查看对应 deepseek 模型：deepseek-r1

本地打开 Ollama 应用，然后，命令行下运行 deepseek-r1 的 8b 大模型： ollama run deepseek-r1:8b

// 直接运行对应 deepseek-r1 大模型，会自动下载对应参数
$ ollama run deepseek-r1:8b
>>> who are you?
<think>

</think>

Greetings! I'm DeepSeek-R1, an artificial intelligence assistant created by DeepSeek. I'm at your
service and would be delighted to assist you with any inquiries or tasks you may have.

运行起来，感觉水平高于普通高中生。

3.实现原理

两个方面：

术语：上面看到的不懂的简写\术语，简单整理下。
原理：DeepSeek 原理

3.1.术语

几个信息： deepseek-r1，其中 r1 的含义：first-generation reasoning models。

另外，Ollama 上，运行的 deepseek-r1:8b 模型，全称 DeepSeek-R1-Distill-Llama-8B，是从 llama 蒸馏出来的，细节参考Distill-Llama

DeepSeek 官网上，DeepSeek-R1 发布记录：DeepSeek-R1 发布，性能对标 OpenAI o1 正式版。

3.2.DeepSeek-R1原理

疑问：上面 DeepSeek-R1-Distill-Llama-8B 本质是，使用蒸馏技术、借助 DeepSeek-R1 模型，从 llama 训练出的 8b 模型吗？

问了 ChatGPT：完整细节

疑问： Ollama 上 DeepSeek-R1-Distill-Llama-8B 本质是，使用蒸馏技术、借助 DeepSeek-R1 模型，从 llama 训练出的 8b 模型吗？如何理解这句话？

您的理解基本正确。DeepSeek-R1-Distill-Llama-8B 模型是通过模型蒸馏技术，将原始的 DeepSeek-R1 模型的知识提炼并迁移到一个基于 Llama 架构的 8B（80亿参数）模型中。这种方法旨在保留大模型的性能，同时显著减少模型的参数数量和计算资源需求。

模型蒸馏技术（Model Distillation）是一种知识迁移方法，其核心思想是：

教师模型（Teacher Model）：一个大型且性能优异的模型，如原始的 DeepSeek-R1。

学生模型（Student Model）：一个较小的模型，如基于 Llama 架构的 8B 模型。

训练过程：通过让学生模型学习教师模型对相同输入的输出，学生模型逐渐掌握教师模型的知识和推理能力。

通过这种方式，学生模型能够在保持高性能的同时，降低计算资源的消耗。这对于在资源受限的环境中部署高效的 AI 模型尤为重要。

因此，DeepSeek-R1-Distill-Llama-8B 模型本质上是通过蒸馏技术，将原始 DeepSeek-R1 模型的知识迁移到一个更小的 Llama 架构模型中，以实现性能与效率的平衡。

再问一个：

训练过程中，教师模型的输入，是有固定范围吗？具体的输入都有哪些？

在模型蒸馏过程中，教师模型的输入通常与原始训练数据一致，并没有固定的范围限制。这些输入可以是与任务相关的各种数据，例如文本、图像或音频等。教师模型处理这些输入后，会生成相应的输出，如分类结果或概率分布。学生模型通过学习这些输出，旨在掌握教师模型的知识和推理能力。

需要注意的是，输入数据的多样性和质量对蒸馏效果有重要影响。高质量、多样化的输入数据有助于学生模型更全面地学习教师模型的知识，从而提升其性能。

因此，在模型蒸馏过程中，教师模型的输入并没有固定范围，而是根据具体任务和数据集而定。确保输入数据的多样性和质量，有助于学生模型更有效地学习和泛化。

再问一个：

疑问：上面 DeepSeek-R1-Distill-Llama-8B 本质是，使用蒸馏技术、借助 DeepSeek-R1 模型，从 llama 训练出的 8b 模型吗？

重新回答上面问题：

上面问题不准确，本质是 蒸馏技术 实现了 知识和推理能力的迁移，提升了原有 llama-8b 模型的能力

这个模型是将 DeepSeek-R1 的知识，采用蒸馏技术，迁移到一个 llama 训练出的 8b 模型上形成的。

蒸馏技术，本质是把一堆典型场景，输入到 DeepSeek-R1 得到输出，然后 llama-8b 模型，学习这些输入输出，以此获取推理能力。

上面典型场景，并没有固定的范围，因此，尽可能保证输入数据的多样性和质量，有助于 llama-8b 更有效的学习和泛化。

上面 DeepSeek-R1 就是 教师模型，基础的 llama-8b 是学生模型，通过蒸馏技术，将教师模型的知识和推理能力都迁移到学生模型，得到的新的最终模型。

DeepSeek-R1 完整原理细节：

原文：Understanding Reasoning LLMs
翻译：一图看懂DeepSeek R1，以及推理模型的四种训练方式

原文地址：https://ningg.top/ai-series-deepseek-intro-202502/

点击:联系我

点击查看评论(Note:可能被墙了)

微信公众号 ningg, 联系我