2026/4/6 10:43:31
网站建设
项目流程
由多模态大模型的范式引出多模态大语言模型并对多模态大语言模型的模型结构进行了详细的介绍如下图所示本篇将继续介绍多模态大语言模型的训练及其对应的数据工作。大模型的训练范式主要有预训练、指令微调和对齐训练等。不同的训练范式需要使用不同的训练数据一般需要进行针对性的数据构建。预训练预训练(pre-training)是对不同模态数据的对齐并从大量的训练数据中学习到世界知识。训练数据主要是模态数据及其描述数据caption对caption是图像/语音/视频等其他模态数据的自然语言描述。多模态大模型中包含多个预训练模块如LLM、文本编码器和模态编码器等。一般为了降低预训练难度在训练多模态大模型时会保持预训练模块参数不变只训练可学习的模态接口connector当然也可以将所有模块一起训练。预训练数据根据模态的不同主要有以下数据集指令微调指令微调(instruction-tuning)是为了让模型更好地理解人类的指令并且解决人类提出的任务其中的instruction指的是对任务的描述。指令微调后的模型zero-shot的性能更强能够根据新的指令解决从未见过的任务。指令微调数据一般为以下形式对于不同的任务指令微调的输入(上图中的Input)数据类型可能不一样如在VQA任务中输入数据为图片-文本对而在image caption中输入只是图片。指令微调数据的采集方式主要有三种分别是Data Adaptation, Self-Instruction, Data Mixture.Data Adaptation数据适应顾名思义为利用已有的高质量数据集构建适应指令微调任务的数据集也即构建指令样式(instruction-formatted)的数据集。获取指令的方式有两种一种是人工编写候选的指令集训练的时候从中拿一个还有一种是人工编写少量的种子指令集然后利用GPT基于这些种子指令集生成更多的指令。Self-Instruction该方式有点像few-shot。Self-Instruction需要首先人工标注一些样例然后利用LLMs生成指令遵循的数据。与Data Adaptation不同的是Self-Instruction能够生成单轮或多轮的对话数据更符合现实场景。举个例子对于一张图片标注bbox并且描述bbox中的图片内容caption然后设计prompt利用GPT-4根据这个样例生成新数据。同样也可以设计QA样例和reasoning样例利用LLM分别生成QA数据和reasoning数据。Data Mixture顾名思义文本的数据和其他多模态的数据混合使用文本的数据可以是language-only user-assistant conversation data。训练时既可以在混合的数据中随机采样成batch(mixed instruction tuning)也可以在文本数据后接上多模态的数据(sequential instruction tuning).对齐训练对齐训练主要是为了让模型与人类的偏好进行对齐主要是进行强化学习训练如RLHF和DPO。RLHFRLHF基于人类反馈的强化学习的训练过程通常包含监督微调、奖励模型训练、强化学习优化三个核心步骤。人类对监督微调得到的模型输出结果进行排序并利用排序结果训练奖励模型训练好的奖励模型可对任意生成文本给出评分为后续强化学习提供量化的奖励信号。强化学习优化阶段将监督微调得到的模型作为初始策略网络奖励模型对策略网络生成的多个候选回答进行打分然后使用策略梯度PPO算法最大化期望奖励从而更新模型策略。经过此步骤得到RLHF优化后的最终模型其输出质量与人类偏好高度对齐。DPODPO无须训练奖励模型直接利用人类偏好数据将其转化为优化目标通过最大化模型生成偏好输出的概率来调整模型参数。DPO依赖静态离线数据集适应新反馈的能力受限。{ messages: [ { role: system, content: This is a system }, { role: user, content: What your name? }, { role: assistant, content: My name is xxx. }, { role: user, content: How to learn Python? }, { role: assistant, chosen: Its so easy. First, you need to learn Python syntax..., rejected: Check python doc yourself } ] }计算输入为的条件下模型输出和的条件概率此时的条件概率数值为字符串或生成过程中所有token的条件概率连乘再代入偏好损失函数计算偏好损失通过梯度更新优化模型参数使得模型输出越来越偏向.和分别代表人类更倾向(chosen)和不倾向(rejected)的表达。模型每一次预测都是根据当前输入的x预测下一个token它是会预测出字典中所有token的概率当然也包括yw和yl中当前位置的token该概率就是该token的条件概率。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】