大模型的分类

混合推理模型（Hybrid Reasoning Model）

混合推理模型是指结合多种推理方式（如神经网络+符号推理、检索+生成）的语言模型架构，用于提升模型的准确性和复杂任务处理能力。

常见的混合推理方式：

类型	描述	示例
🧠 神经 + 符号推理	结合大模型与符号逻辑系统（如规则树、规划器）	解决数学题、写代码
🔍 检索 + 生成（RAG）	模型先从知识库中检索相关信息，再生成回答	Bing Copilot、GPT+文档上传
🪜 逐步思考 + 工具调用	模型模拟人类逐步思考（CoT），中间步骤可调用外部API、计算器、代码解释器等	AutoGPT、Toolformer、OpenAI GPT-4o
🧭 多模型协同	使用多个模型分工处理子任务，例如一个负责理解，一个负责生成	LLM Agents、多模态推理系统

🎯 举例：

你问模型“上海到北京有多少公里？”

裸模型：根据训练时看到的语料“猜”一个数字（可能错）。

混合推理模型：先调用地图接口查询，再告诉你准确答案。

Retrieval-Augmented Generation（RAG），检索增强生成

在模型回答问题前，先从外部知识库中检索相关信息，再让模型生成答案。RAG融合了传统搜索与生成能力，适合知识密集型任务。

MoE（Mixture of Experts）模型与Dense模型

MoE 模型：每次训练/推理时只激活部分专家，参数量大但计算量相对较低。
Dense 模型：每次训练/推理时使用所有参数，计算量和参数量相同。

大模型的运行工具

Ollama vs vLLM

Ollama 是一个本地化运行大型语言模型的工具和平台，让你可以在自己的电脑上运行开源大模型，而无需联网调用 API。通常是个人部署使用。
vLLM 专注 高性能推理，尤其是批量请求和低延迟推理，优化 GPU 利用率，适合服务端大规模部署。

大模型的开发框架

LangChain

LangChain是一个开源的 Python/JavaScript 框架，旨在帮助开发者更容易地构建由大语言模型（LLM）驱动的应用程序，比如聊天机器人、智能搜索、自动问答、RAG系统等。
它的核心功能包括：
- Prompt 模板管理：统一管理和重用 Prompt。
- 链式调用（Chains）：支持将多个调用步骤串联，比如：用户问题 → 文档检索 → LLM生成答案。
- 工具集成（Tools/Agents）：集成搜索引擎、计算器、API 调用等，让 LLM 更智能。
- 向量数据库集成（Vector Store）：如 FAISS、Pinecone、Weaviate，用于实现 RAG（基于检索的生成）。
- Memory（记忆机制）：支持对话历史追踪和记忆。
LangChain 本身是一个「框架」，它通过不同的接口适配各种 LLM 提供商，比如：
- ChatOpenAI：适配 OpenAI 的 GPT 系列
- ChatAnthropic：适配 Claude
- ChatOllama：适配本地 Ollama 模型
- ChatHuggingFace：适配 Hugging Face 模型
- ChatCohere、ChatVertexAI 等也都支持

示例：

# 调用 OpenAI 的 GPT-4
from langchain.chat_models import ChatOpenAI
llm = ChatOpenAI(model_name="gpt-4")

# 调用本地 Ollama 的 llama2
from langchain_community.chat_models import ChatOllama
llm = ChatOllama(model="llama2")

大模型的分类

混合推理模型（Hybrid Reasoning Model）

Retrieval-Augmented Generation（RAG），检索增强生成

MoE（Mixture of Experts） 模型与Dense模型

大模型的运行工具

Ollama vs vLLM

大模型的开发框架

LangChain

MoE（Mixture of Experts）模型与Dense模型