大模型的分类

混合推理模型(Hybrid Reasoning Model)

  • 混合推理模型是指结合多种推理方式(如神经网络+符号推理、检索+生成)的语言模型架构,用于提升模型的准确性和复杂任务处理能力。

  • 常见的混合推理方式:

    类型 描述 示例
    🧠 神经 + 符号推理 结合大模型与符号逻辑系统(如规则树、规划器) 解决数学题、写代码
    🔍 检索 + 生成(RAG) 模型先从知识库中检索相关信息,再生成回答 Bing Copilot、GPT+文档上传
    🪜 逐步思考 + 工具调用 模型模拟人类逐步思考(CoT),中间步骤可调用外部API、计算器、代码解释器等 AutoGPT、Toolformer、OpenAI GPT-4o
    🧭 多模型协同 使用多个模型分工处理子任务,例如一个负责理解,一个负责生成 LLM Agents、多模态推理系统
  • 🎯 举例:

你问模型“上海到北京有多少公里?”

  • 裸模型:根据训练时看到的语料“猜”一个数字(可能错)。
  • 混合推理模型:先调用地图接口查询,再告诉你准确答案。

Retrieval-Augmented Generation(RAG),检索增强生成

  • 在模型回答问题前,先从外部知识库中检索相关信息,再让模型生成答案。RAG融合了传统搜索与生成能力,适合知识密集型任务。

MoE(Mixture of Experts) 模型与Dense模型

  • MoE 模型:每次训练/推理时只激活部分专家,参数量大但计算量相对较低。
  • Dense 模型:每次训练/推理时使用所有参数,计算量和参数量相同。

大模型的运行工具

Ollama vs vLLM

  • Ollama 是一个本地化运行大型语言模型的工具和平台,让你可以在自己的电脑上运行开源大模型,而无需联网调用 API。通常是个人部署使用。
  • vLLM 专注 高性能推理,尤其是批量请求和低延迟推理,优化 GPU 利用率,适合服务端大规模部署。

大模型的开发框架

LangChain

  • LangChain是一个开源的 Python/JavaScript 框架,旨在帮助开发者更容易地构建由 大语言模型(LLM)驱动的应用程序,比如聊天机器人、智能搜索、自动问答、RAG系统等。
  • 它的核心功能包括:
    • Prompt 模板管理:统一管理和重用 Prompt。
    • 链式调用(Chains):支持将多个调用步骤串联,比如:用户问题 → 文档检索 → LLM生成答案。
    • 工具集成(Tools/Agents):集成搜索引擎、计算器、API 调用等,让 LLM 更智能。
    • 向量数据库集成(Vector Store):如 FAISS、Pinecone、Weaviate,用于实现 RAG(基于检索的生成)。
    • Memory(记忆机制):支持对话历史追踪和记忆。
  • LangChain 本身是一个「框架」,它通过不同的接口适配各种 LLM 提供商,比如:
    • ChatOpenAI:适配 OpenAI 的 GPT 系列
    • ChatAnthropic:适配 Claude
    • ChatOllama:适配本地 Ollama 模型
    • ChatHuggingFace:适配 Hugging Face 模型
    • ChatCohere、ChatVertexAI 等也都支持
  • 示例:
    1
    2
    3
    4
    5
    6
    7
    # 调用 OpenAI 的 GPT-4
    from langchain.chat_models import ChatOpenAI
    llm = ChatOpenAI(model_name="gpt-4")

    # 调用本地 Ollama 的 llama2
    from langchain_community.chat_models import ChatOllama
    llm = ChatOllama(model="llama2")