训练成本不到1000元，直降90%！NUS、清华发布VPGTrans：轻松定制类GPT-4多模态大模型

今天给各位分享训练成本不到1000元，直降90%！NUS、清华发布VPGTrans：轻松定制类GPT-4多模态大模型的知识，其中也会对训练成本不到1000元，直降90%！NUS、清华发布VPGTrans：轻松定制类GPT-4多模态大模型进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文导读目录：

1、有趣的发现

2、讨论：关于市场趋势几个有趣的发现

3、训练成本不到1000元，直降90%！NUS、清华发布VPGTrans：轻松定制类GPT-4多模态大模型

　　一天，我和弟弟去公园玩。在玩荡秋千的时候，我闻到了一股臭臭的味道。弟弟朝四周看了看，说：“我们去滑梯的顶端看一看，也许会有一些线索。” 　　到了滑梯顶端，我们东看看、西看看，什么也没看见。我对弟弟说：“我们还是去草丛里找找吧！”弟弟在前面寻找着，我原地不动在观察着。弟弟找了好一会儿，什么也没有找到，在他准备放弃的时候，我“砰”的一声往草丛里扔了一块大石头。“那儿有声音，我们去看看吧！”我得意洋洋地笑着说。　　原本以为弟弟什么发现也不会有，结果弟弟在草丛里翻来翻去，居然发现了一只黄毛的小猫。我心想：这只小猫一定饿坏了。　　我上楼拿了些猫食下来喂给小猫吃。小猫一开始不敢靠近食物，看了我们几眼，好像在说：“你们不会来捉我吧！”为了不让小猫害怕，我们躲到了滑梯后面。小猫看了看四周，慢慢地走到食物跟前，“呼哧呼哧”几口就把猫食全吃光了。　　吃完猫食后，小猫蹦着跳着回家去了，我和弟弟开心地笑了起来。　　南湾营小学三（3）班罗娅瑄　　指导老师王晶晶　　针对密室逃脱市场趋势将如何变化这个话题，今天想继续分享一些研究成果，与各位读者探讨，不过此类话题通常过于宏观，一般也没啥人愿意探讨。　　在研究市场趋势这个问题的时候，我们借助“百度指数”这项工具，进行基础数据的整理，然后将数据进行分类对比，用于对比分析。　　1、百度指数定义　　按照官方的定义，百度指数可以互联网用户对键词搜索关注程度及持续变化情况。　　算法说明：以网民在百度的搜索量为数据基础，以关键词为统计对象，科学分析并计算出各个关键词在百度网页搜索中搜索频次的加权。根据数据来源的不同，搜索指数分为PC搜索指数和移动搜索指数。　　通过输入“密室逃脱”，会显示出互联网用户对“密室逃脱”关键词的搜索关注程度及持续变化情况。　　2、数据是否可用　　百度指数作为加权处理后的数据，虽然没有明确的算法说明，但一般是基于网页及手机搜索关键词的搜索量进行了过滤和权重调整。我们首先需要从三个方面来判断下“百度指数”是否可用，确定可用的前提下才有进一步研究的必要。　　（1）季度占比　　通过对2011年-2021年至今的数据按照季度进行整理，汇总成表格和比例图，可以发现；各季度的占比第三季度最大，第四季度最小，第二季度略高于第一季度，基本上与实际经营情况符合。　　（2）月度占比　　通过对2011年-2021年至今的数据按照月季度进行整理，六月、七月、八月从全国范围来看占据了前三名的位置，二月份过年也处于前列位置；而三月、十一月、十二月是全年最冷淡的月份，与实际经营情况也比较符合。当然会出现不同地区差异化的情况，不过全国范围大面来看，基本符合实际情况。因此，数据基本可用，可以进一步使用进行分析。　　3、通过数据可以得到什么　　通过对2011年-2021年至今的全部数据进行整理后，我们发现了几个很有意思的现象。具体如下：　　（1）历史趋势　　通过对历史趋势绘制成曲线，从全国来看（部分地区应该会有时间上的轻微差异），自2011年起，密室行业高速发展，到2015年到达一个高潮然后回落，直至2018年跌至低点再次反弹走高。　　其中，2015年正是密室转型的关键的一年，也是从解密密室走向沉浸的变革之年。这背后代表着当时众多解密密室的消失和融入NPC密室的兴起。　　从图中可以看出，2020年疫情期间的数据显然没有参考价值，但是从斜率来看，就出现了很有价值和意思的事情，通过仔细观察可以发现，2013-2014年之间的斜率与2018-2019年的斜率非常相似，而2020年虽然疫情数据无法使用，但是从正常的经验来看，2020年如果不受疫情影响，相比2019年应当也会平滑上升，那其斜率理论上应当与2014-201年的斜率类似。因此，借助这个我们就可以判断出行业的周期基本为五年，先快速上升，再平滑增长，在不断下滑，直至下一个循环。　　同时，从这张图中，我们还可以看出随着年份的增长，峰值是在下降的，比如2014年的6647指数和2019年的5683指数相比，高了近1000个点，因此，也可以预判下当时没有疫情，2020年的峰值指数应当在6683点左右。这也说明了行业经历的高速发展，产能逐渐过剩，于是平均指数或者产能无法达到行业初期的峰值水平。　　（2）未来趋势　　刚才我们讲到了斜率的类似、峰值变低、行业周期，这对于预判未来几年的密室逃脱市场走势直观重要，在原图的基础上，笔者进行了绘制如下：　　从行业周期来看，近两年整体市场应该呈现下滑趋势，疫情破坏了行业周期，因此，在下滑过程中会出现延缓或者加速的情况，笔者在之前一篇文章中提到过，报复性消费消失，经济下行，总的感觉下来应该是会出现加速的情况。　　（3）本轮周期趋势的拐点　　通过选取几个主要时间节点，在区间范围内寻找本轮趋势的拐点不失为一个好办法，于是笔者选取了元旦、春节、清明、五一、六一、端午等几个关键时间点，收集该节日前后三日内最大一天的值作为数据源（因为不同年份的假日时间不同，同时比如春节，端午，往往放假的第二日的销量要大于节假日本身），形成的表格如下：　　从这张图中，我们可以明显的看出元旦、春节的2021年百度指数要高于平均值；而清明、五一、六一、端午的指数都低于平均值；这从一个方面也说明了，本轮趋势的拐点在春节至清明之间，也就是3月份是本轮周期的起始点，只不过很多人都没有明显感知到而已，但是趋势就这么悄无声息的变化了。　　在来看看，与2018年、2019年指数的差值，可以明显看出今年整体趋势不如2019年(2019年的数值偏高的原因，在于《密室大逃脱》综艺的播放引爆了很多流量)；但是今年还是比2018年最差的年份，要好一些，这也说明了，曲线还有继续下降的趋势。　　（4）哪些城市会先感知到变化　　在来研究下城市，不同的城市差异化自然很大，但总体避不过行业趋势的变化，不过很多城市由于各种原因，经济、政策、消费、竞争等等，还未感知到趋势的变化。这里笔者统计了几个城市的指数数据，具体如下：　　从这张图中可以看出，基本上各类城市相比2019年均有下滑，只是程度不同而已，但是有些目前还高于平均水平，甚至相较2018年有些还有很大的下降空间。因此许多城市的密室感知不到趋势的变化也是正常的。而那些相比2018年负数严重的地区，感知的可能更为明显，比如北京、太原、鞍山这类不同的一二三线城市。　　由于笔者精力有限，感兴趣的读者也可以自行按照此方法对标城市研究，这里笔者仅分别选取了几个一二三线城市进行说明。从数值来看，重庆、承德、淄博可能会在不久就能感知到趋势的变化；上海、西安、武汉可能在不久的不久后就能提前感知到这种变化，相对而言长沙、广州、深圳目前还需要相对较长的时间才能感受到这种下滑的趋势，不确定是否与南方的习俗、经济情况息息相关，毕竟广深长沙地方的娱乐生活还是要比北方甚至上海、北京强的多的。　　4、好了，结尾　　通过上面的发现和论述，主要结论就是行业步入下行周期，下行预计到2023年左右，全国范围会逐步感受到密室寒冬带来的影响。　　有位灰产厉害的投资人说过“人生发财靠康波”，人生、行业都是有周期的，这种周期为什么会存在，目前也很难解释，就理解为命数吧，好比太极一样，走过了至阳就到了至阴，走过了至阴又到了至阳。而机会和萌芽往往在逆周期的岁月中，祝各位和我自己一切安好！！！　　编辑：LRS 好困　　今年是AI技术爆发式发展的一年，以ChatGPT为代表的大语言模型（LLM）大火。　　语言模型除了在自然语言领域显示出巨大的潜力之外，也开始逐渐辐射到其他模态，比如文生图模型Stable Diffusion的背后也需要语言模型。　　从头开始训练一个视觉-语言模型（VL-LLM）往往需要消耗大量的资源，所以现有的解决方案都是把语言模型和视觉提示生成模型（Visual Prompt Generator, VPG）连接起来，但即便如此，继续调整VPG仍然需要几千个GPU小时和数百万的训练数据。　　最近，来自新加坡国立大学和清华大学的研究人员提出了一个解决方案VPGTrans，将现有的VPG迁移到现有的VL-LLM模型中，就能以低成本的方式获得目标VL-LLM模型。　　论文链接：https://arxiv.org/abs/2305.01278 　　代码链接：https://github.com/VPGTrans/VPGTrans 　　多模态对话模型Demo：https://vpgtrans.github.io/ 　　作者：张傲，费豪，姚远，吉炜，黎力，刘知远，Chua Tat-Seng 　　单位：新加坡国立大学，清华大学　　文章的主要创新点包括：　　1. 极低训练成本：　　通过我们提出的VPGTrans方法，可以快速（少于10%训练时间）将已有的多模态对话模型的视觉模块迁移到新的语言模型，且达到类似或更优效果。　　比如，相比于从头训练视觉模块，我们可以将BLIP-2 FlanT5-XXL的训练开销从19000+人民币缩减到不到1000元：　　图1：基于我们的VPGTrans方法的BLIP-2训练开销缩减对比　　2. 多模态大模型定制：　　通过我们的VPGTrans框架可以根据需求为各种新的大语言模型灵活添加视觉模块。比如我们在LLaMA-7B和Vicuna-7B基础上制作了VL-LLaMA和VL-Vicuna。　　3. 开源多模态对话模型：　　我们开源了VL-Vicuna，类GPT-4多模态对话模型，可实现高质量的多模态对话：　　图2：VL-Vicuna的交互实例　　一、动机介绍　　1.1 背景　　LLM在多模态理解领域掀起了一股从传统预训练视觉语言模型（VLM）到基于大语言模型的视觉语言模型（VL-LLM）的变革。　　通过为LLM接入视觉模块，VL-LLM可以继承已有LLM的知识，零样本泛化能力，推理能力和规划能力等。相关模型有BLIP-2[1]，Flamingo[2]，PALM-E等。　　图3：常用的VL-LLM架构　　现有的常用的VL-LLM基本采取图3所示的架构：在一个基座LLM基础上训练一个视觉soft prompt生成模块（Visual Prompt Generator, VPG），以及一个进行维度变换的线性层（Projector）。　　在参数规模上，LLM一般占主要部分（比如11B），VPG占次要部分（比如1.2B），Projector最小（4M）。　　在训练过程中，LLM参数一般不会被更新，或者仅仅更新非常少量的参数。可训练参数主要来自于VPG和projector。　　1.2 动机　　实际上，即便基座LLM的参数冻结不训，但由于LLM的大参数量，训练一个VL-LLM的关键开销依然在于加载基座LLM。　　因此训练一个VL-LLM依然无法避免极大的计算代价。比如，要得到BLIP-2（基座LLM为FlanT5-XXL）需要付出超过600个小时的A100训练时长。如果租用亚马逊的A100-40G机器，大概需要将近2万元人民币的费用。　　既然从零训练一个VPG代价如此昂贵，那么我们开始思考能否把一个已有的VPG迁移到新的LLM上来节省开销。　　图4：VPG迁移: 跨LLM大小迁移和跨LLM类型迁移　　如图4所示，我们主要探索了两种类型的VPG的迁移: 　　（1）跨LLM大小迁移（TaS）：比如从OPT-2.7B到OPT-6.7B。　　（2）跨LLM类型迁移（TaT）：比如从OPT到FlanT5。　　其中TaS的意义在于：在LLM相关科研中，我们通常需要在小LLM上调参，再扩展到大LLM。有了TaS，我们可以在调参之后，把小LLM上已经训好的VPG直接迁移到大LLM上。　　TaT的意义在于：不同功能种类的LLM层出不穷，比如今天有了LLaMA，明天又有了Alpaca和Vicuna。TaT可以让我们利用已有的VPG快速为新语言模型添加视觉感知能力。　　1.3 贡献　　（1）提出高效的方法：　　我们首先通过一系列的探究实验，探究了影响VPG迁移效率的关键因素。根据探索实验发现，我们提出了一个两阶段的高效迁移框架VPGTrans。该框架可以大幅度缩减训练VL-LLM所需的计算开销和需要的训练数据。　　比如，相比于从头训练，我们通过BLIP-2 OPT-2.7B到6.7B的VPG迁移，可以仅用大约10%的数据和计算时间就达成各个数据集相似或更好的效果（图1）。训练花销从17901人民币到1673元。　　（2）得到有趣的发现：　　我们同时提供了TaS和TaT场景下一些有趣的发现，并尝试给出解释: 　　a) TaS场景下，使用VPGTrans从小到大迁移不会影响最终模型效果。　　b) TaS场景下，越小的语言模型上训练的VPG，迁移到大模型时效率越高，最终效果越好。　　c) TaT场景下，越小的模型之间迁移的gap越大。在我们验证实验中，OPT350M和FlanT5-base使用VPGTrans互相迁移几乎和从头训练一样慢。　　（3）开源：　　我们使用VPGTrans得到了两个新的VL-LLMs：VL-LLaMA和VL-Vicuna，并开源在了社区上。其中VL-Vicuna实现了类GPT4的高质量的多模态对话。　　二、高效率的VPG迁移方案：VPGTrans 　　首先我们进行一系列的探索验证实验，分析如何最大化对于VPG的迁移效率。接着我们基于这些重要观察提出一个解决方案。　　2.1 探究实验　　我们选取BLIP-2架构作为我们的基础模型，预训练语料采用COCO和SBU，总共1.4M图文对。　　下游任务采用COCO Caption, NoCaps, VQAv2, GQA和OK-VQA的zero-shot设定进行评测(对caption任务并非严格zero-shot)。下面是我们的关键发现: 　　（1）直接继承一个训练好的VPG可以加速收敛，但效果有限：　　我们发现，直接迁移一个LLM上训练好的VPG到大LLM可以加速模型收敛，但加速效果有限，且收敛后模型效果相比于从头训练VPG会掉点（图5的VQAv2、GQA蓝线最高点均低于橘线）。　　我们猜测，这个掉点是由于随机初始化的projector会在训练起始阶段损伤VPG中已有的视觉感知能力。　　图5：VPG inherit (蓝线): 直接继承训练好的VPG。train from scratch (橘线):从头训练VPG。only linear (绿线):只训练linear projector不训练VPG。　　（2）先warm-up训练projector可以防止掉点，且进一步加速收敛：　　于是，我们固定住VPG和LLM，先warm-up训练projector 3个epoch，再解冻VPG进行下一步训练。　　我们发现，这样不仅仅可以避免掉点情况，还能够进一步加速VPG收敛（图6）。　　但值得强调的是，由于训练的主要开销在LLM（参数巨多），仅仅训练projector的开销不会比同时训练VPG和projector的开销小太多。　　所以，我们开始探究加速projector warm-up的关键技术。　　图6：先warm-up训练projector可以防止掉点+加速收敛　　（3）词向量转化器初始化可以加速projector warm-up：　　首先，VPG是通过把图像转化为LLM可以理解的soft prompt来产生效果的。而soft prompt的使用方式和词向量其实是非常相似的，都是直接输入语言模型来提示模型产生对应内容。　　所以，我们使用词向量来作为soft prompt的一个代理，训练了一个　　到　　的词向量转化器（一个线性层）。　　然后，我们将词向量转化器和　　上的projector融合作为projector的初始化。　　通过这个初始化，我们可以将projector的warm-up训练由3个epoch减为2个epoch。　　（4）projector可以在超大学习率下快速收敛：　　我们进一步实验发现，projector由于其参数量较少，可以使用5倍的正常学习率进行训练而不崩溃。　　通过5倍学习率的训练，projector warm-up可以进一步被缩短到１个epoch。　　（5）一个附加发现：　　虽然projector warm-up很重要，但仅训练projector是不够的。尤其在caption任务上面，仅仅训练projector的效果要比同时训练VPG的效果差一截（图5绿线在COCO Caption和NoCaps均远低于蓝线）。　　这也就意味着，仅仅训练projector会导致欠拟合，也就是无法充分对齐到训练数据。　　2.2 我们所提出的方法　　图7：VPGTrans框架: (1) 一阶段:projector的warm-up (2) 二阶段: 整体微调　　如图7所示，我们的方法共分为两个阶段：　　（1）第一阶段：我们首先使用词向量转化器和原有projector进行融合作为新projector的初始化，然后用5倍学习率训练新projector一个epoch。　　（2）第二阶段：直接正常训练VPG和projector。　　三、实验结果　　3.1 加速比　　表1：我们的VPGTrans的相比于从头训练在各个数据集的加速比　　如表1所示，我们测试了不同迁移类型下，VPGTrans在不同数据集上的加速比。　　VPGTrans在某指定数据集A上的加速比是通过从头训练达到A上最佳效果a的轮数除以VPGTrans在A上效果超过a的最小训练轮数得到。　　比如，从头在OPT-2.7B上训练VPG，在COCO caption达到最佳效果需要10个epoch，但从OPT-125M迁移VPG到OPT-2.7B，仅需1个epoch就能达到该最佳效果。则加速比为10/1=10倍。　　我们可以看到，无论是在TaS还是在TaT场景下，我们的VPGTrans都可以实现稳定的加速。　　3.2 有趣的发现　　我们选取了一个比较有趣的发现进行了说明，其他更多更有意思的发现请参照我们的论文。　　TaS场景下，越小的语言模型上训练的VPG，迁移起来效率越高，最后模型效果越好。参考表1，我们可以发现OPT-1.3B到OPT-2.7B的加速比要远小于OPT-125M、OPT-350M到OPT-2.7b的加速比。　　我们尝试提供了一个解释：一般越大的语言模型，由于其文本空间的维度更高，会更容易损害VPG（VPG一般都是类似于CLIP的预训练模型）本身的视觉感知能力。我们通过类似于linear probing的方式进行了验证：　　图8：仅训练linear projector层的跨LLM大小迁移 (模拟linear probing) 　　如图8所示，我们进行了OPT-125M，350M，1.3B，2.7B之间的跨LLM大小的迁移。　　在实验中，为了公平对比不同模型大小下训练过的VPG的视觉感知能力，我们固定住VPG的参数仅仅训练linear projector层。我们选取了COCO Caption上的SPICE指标作为视觉感知能力的衡量手段。　　不难发现，　　对于每一个给定的　　，几乎都符合　　越小，最终SPICE越高的一个现象　　。　　3.3 大规模实验　　前文实验主要是在小规模场景下验证猜想。为了证明我们的方法的有效性，我们模拟BLIP-2的预训练过程进行了大规模实验：　　表2：真实场景下的大规模实验结果　　如表2所示，我们的VPGTrans在大规模场景下依然有效。通过OPT-2.7B到OPT-6.7B的迁移，我们仅用10.8%的数据和不到10%的训练时长达到了相似或更优的效果。　　尤其是，我们的方法在BLIP-2以FlanT5-XXL为基座的VL-LLM实现了4.7%的训练成本控制。　　四、定制您的VL-LLMs 　　我们的VPGTrans可以快速为任意新的LLMs添加视觉感知模块，从而得到一个全新的高质量VL-LLM。在本工作，我们额外训练了一个VL-LLaMA和一个VL-Vicuna。其中VL-LLaMA的效果如下: 　　表3：VL-LLaMA的效果展示　　同时，我们的VL-Vicuna可以进行类GPT-4的多模态对话。我们和MiniGPT-4进行了简单的比较: 　　五、总结　　在这项工作中，我们对VPG在LLM之间的可迁移性问题进行了全面调查。我们首先探讨了最大化迁移效率的关键因素。　　基于关键观察，我们提出了一种新颖的两阶段迁移框架，即VPGTrans。它可以在显著降低训练成本的同时，实现相当或更好的性能。　　通过VPGTrans，我们实现了从BLIP-2 OPT 2.7B到BLIP-2 OPT 6.7B的VPG迁移。相较于从零开始连接VPG到OPT 6.7B，VPGTrans仅需10.7%训练数据和不到10%的训练时长。　　此外，我们展示并讨论了一系列有趣发现及其背后的可能原因。最后，我们通过训练VL-LLaMA和LL-Vicuna，展示了我们的VPGTrans在定制新的VL-LLM方面的实际价值。　　参考资料：　　https://arxiv.org/abs/2305.01278

训练成本不到1000元，直降90%！NUS、清华发布VPGTrans：轻松定制类GPT-4多模态大模型的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于训练成本不到1000元，直降90%！NUS、清华发布VPGTrans：轻松定制类GPT-4多模态大模型、训练成本不到1000元，直降90%！NUS、清华发布VPGTrans：轻松定制类GPT-4多模态大模型的信息别忘了在本站进行查找喔。

未经允许不得转载！ 作者:谁是谁的谁，转载或复制请以超链接形式并注明出处。

原文地址：http://ip556.cn/post/20578.html发布于：2026-03-08

训练成本不到1000元，直降90%！NUS、清华发布VPGTrans：轻松定制类GPT-4多模态大模型

自治区招生考试委员会办公室关于公布广西2023年普通高校招生录取最低控制分数线的通知

详尽的招标文件模板范本，清晰传达项目要求，参考学习更容易！

2023浙江高考录取通知书查询入口，附查询时间和具体查询方法

读魏书生《班主任工作漫谈》有感记录—第一章《做什么样的班主任》几点感想1