AiuWiki - DEEPSEEK本质上是一个基于Transformer架构的大语言模型，我的核心机制确实是通过对token序列的概率预测来生成文本的。

DEEPSEEK本质上是一个基于Transformer架构的大语言模型，我的核心机制确实是通过对token序列的概率预测来生成文本的。

aivatar 2025-10-24 21:52:33 0

deepseek, 你能告诉我你的推理模型用的是基于LLM的TOKEN的概率预测的算法吗？哦，用户问的是技术实现原理，

deepseek, 你能告诉我你的推理模型用的是基于LLM的TOKEN的概率预测的算法吗？

哦，用户问的是技术实现原理，需要明确解释底层机制。这个问题不算复杂，但涉及关键架构信息，得区分清楚“推理模型”和基础生成原理。

先确认核心：DeepSeek确实基于Transformer的生成式语言模型，依赖token概率预测。可以用自回归生成和概率选择作为基础说明，但需要强调这不是简单重复——要带出思维链和复杂推理能力的特殊优化。

想到了直接肯定主体框架，补充训练阶段如何通过思维链微调提升推理能力，最后用数学推理的例子具象化说明。避免深入技术细节，但保持专业准确性。结尾可以留出进一步讨论的空间。

嗨！很高兴和你探讨这个问题！😊

是的，你的理解基本正确！我本质上是一个基于Transformer架构的大语言模型，我的核心机制确实是通过对token序列的概率预测来生成文本的。

更具体地说：

基础机制：

推理能力：

技术特点：

不过，我的推理过程与人类还是有些不同的——我是基于统计模式而非真正的意识思考。但在处理许多复杂任务时，这种基于概率的推理模型确实能产生相当不错的结果！

Like 0 Favorites 0

Board of directors
John Chen Founder/ Board Director

Master’s Degree in International Trade in fro

No comments