【LLM】LLM的量化与微调方法

发表于2025-08-11|更新于2025-08-11|技术LLM

|总字数:632|阅读时长:2分钟|浏览量:|评论数:

引言

现代大语言模型（如 LLaMA、ChatGLM、Qwen）动辄拥有数十亿甚至上万亿参数。以 FP16 精度存储时：

模型规模显存占用

7B 参数 ~14 GB

13B 参数 ~26 GB

70B 参数 ~140 GB
这意味着多数人无法在消费级显卡（如 RTX 3090/4090，24GB）上加载完整模型，并且推理延迟高，难以部署到边缘设备
量化（Quantization） 就是解决这一问题的关键技术：通过降低模型权重的精度（如从 16 位压缩到 4 位），大幅减少模型体积和显存需求。

模型量化的概念

量化是将高精度数值（如 FP32/FP16）转换为低精度表示（如 INT8、INT4）的过程。
常见量化方式对比

精度每参数位数压缩比（相比 FP32）显存需求（以7B 模型为例）

FP32 32 bit 1x 28 GB

FP16 16 bit 2x 14 GB

INT8 8 bit 4x 7 GB

INT4 4 bit 8x 3.5 GB
4-bit 量化可将模型体积压缩至原来的 1/8，是当前最激进但实用的压缩方式。

GPTQ量化

GPTQ（GPT Quantization）是一种专为大语言模型设计的后训练量化（Post-Training Quantization, PTQ）方法，无需重新训练模型，仅用少量校准数据即可完成 4-bit 量化，而模型精度损失极小（<5%）
GPTQ 的核心思想
- 逐层量化：从第一层到最后一层依次处理
- 误差补偿：将当前层的量化误差传递给后续层进行修正
- 数据校准：使用 128~512 个样本优化每层的量化参数

QLoRA

QLoRA是目前最流行的在 4-bit 模型上进行微调的方法，论文出自 2023 年，专门解决如何在消费级 GPU 上微调大模型。
QLoRA 的核心思想：
- 加载一个 4-bit 量化的基础模型（如 4-bit LLaMA）
- 冻结这个模型的所有权重（不更新）
- 只训练一小部分新增的低秩适配器（LoRA layers）
- 这些 LoRA 层以 FP16 或 NF4（一种 4-bit 浮点格式）存储，但可训练
优点：
- 显存占用极低（7B 模型可在 16GB GPU 上微调）
- 保留了 4-bit 模型的体积优势
- 微调效果接近全参数微调

LoRA vs QLoRA

维度	LoRA	QLoRA
基础模型精度	FP16/BF16	4-bit（NF4/INT4）
显存需求	中等	极低
训练速度	快	略慢（量化开销）
精度保持	高	略低，但可接受
适用场景	有高性能 GPU	消费级 GPU 微调

LLM 量化 GPTQ 微调 LoRA QLoRA

相关推荐

【LLM】深入理解LLM的 Chat Template

为什么需要 Chat Template?大语言模型本质上是文本续写器(text continuation model)。它们并不天然理解”对话”这个概念,只能处理纯文本。因此,我们需要一种标准化的方式来告诉模型: 哪段文本是系统提示(system prompt) 哪段文本是用户输入(user input) 哪段文本是助手回复(assistant response) 如何处理工具调用(tool calls) Chat Template 就像是对话的格式说明书,确保训练和推理时使用完全一致的格式。 Chat Template 的结构让我们看一个来自 Qwen3-4B-Instruct 模型的真实例子: 1234567{ "chat_template": "{%- if tools %}\n {{- '<|im_start|>system\\n' }}...", "eos_token":...

【Agent】Agent Skills 介绍

今年 10 月，Anthropic 推出了 Claude Skills 能力，在 Claude 网页端、API 以及 Claude Code等产品都可以使用。Claude Skills 解决了什么问题呢？一句话来讲，Claude Skills 是一种基于文件系统的、可复用的知识包，运行在 Claude 的沙盒虚拟机（VM）环境中，用于向 Agent 注入流程化、确定性的内部知识（SOP）的标准化方案。什么是 Claude SkillsAnthropic 官方文档给出了 Agent Skills 的定义： Agent Skills are modular capabilities that extend Claude’s functionality. Each Skill packages instructions, metadata, and optional resources (scripts, templates) that Claude uses automatically when relevant.智能体技能（Agent...

【Agent】Agent Skill 实战

在上一篇博客中，我们介绍了 Agent Skills 的概念和原理。本文将聚焦于实战，介绍如何安装 Claude Code、加载和使用 Agent Skills，并以官方的 skill-creator 为例，演示如何创建自定义 Skill。 Claude Code 安装Claude Code 是 Anthropic 推出的命令行工具，可以在终端中直接与 Claude 交互，是使用 Agent Skills 的主要方式之一。安装 Claude Code 1npm install -g @anthropic-ai/claude-code 修改~/.claude/settings.json文件，使用中转站 12345678910111213141516{ "alwaysThinkingEnabled": true, "env": { "ANTHROPIC_AUTH_TOKEN": "sk-bHWPKD8Ns5", ...

【Agent】MCP协议介绍

什么是MCP？MCP（Model Context Protocol）是由Anthropic开发的开放标准协议，旨在让AI助手能够安全、标准化地连接到各种外部数据源和工具。简单来说，MCP就像是AI助手的“工具箱”，通过这个协议，AI 大模型可以访问文件系统、数据库、API服务等外部资源，大大扩展了AI的能力边界。 MCP架构原理MCP采用客户端-服务器架构： MCP Client：通常是AI助手（如Claude Desktop、Cline、Cursor等） MCP Server：提供特定功能的服务程序传输层：负责客户端和服务器之间的通信 MCP传输层模式1. Stdio (Standard Input/Output) 工作原理：使用标准输入/输出流进行进程间直接通信，提供最优性能且无网络开销需要自己装mcp server的环境配置示例1234567891011{ "mcpServers": { "github": { "command":...

【LLM】ChatGPT 训练范式

Stage 1: PT(Continue PreTraining)，增量预训练使用百科类文档类数据集，用来在领域数据集上增量预训练或二次预训练，期望能把领域知识注入给模型...

【LLM】LLM相关名词解释

大模型的分类混合推理模型（Hybrid Reasoning Model）混合推理模型是指结合多种推理方式（如神经网络+符号推理、检索+生成）的语言模型架构，用于提升模型的准确性和复杂任务处理能力。常见的混合推理方式：类型描述示例 🧠 神经 + 符号推理结合大模型与符号逻辑系统（如规则树、规划器）解决数学题、写代码 🔍 检索 + 生成（RAG）模型先从知识库中检索相关信息，再生成回答 Bing Copilot、GPT+文档上传 🪜 逐步思考 + 工具调用模型模拟人类逐步思考（CoT），中间步骤可调用外部API、计算器、代码解释器等 AutoGPT、Toolformer、OpenAI GPT-4o 🧭 多模型协同使用多个模型分工处理子任务，例如一个负责理解，一个负责生成 LLM Agents、多模态推理系统 🎯 举例：你问模型“上海到北京有多少公里？” 裸模型：根据训练时看到的语料“猜”一个数字（可能错）。混合推理模型：先调用地图接口查询，再告诉你准确答案。 Retrieval-Augmented...

评论

数据加载中