CVPR 2025
作者:bet356体育官方网站 发布时间:2025-05-03 14:19
合作单位包括Tsinghua大学,中国科学技术大学,上海北北大学和阿里巴巴。本文的第一套是尹东舒(Yin Dongshuo),他是Tsinghua University计算机科学系的博士后,博士学位。在中国科学院。他在国际期刊/会议上发表了论文,例如自然通讯,IEEE CVPR,IEEE IEEE ICCV,ACM MM,IEEE山雀等,并担任Neurips,CVPR,ICCV,ICLR,IEEE,IEEE TIP,IEEE和IEEE TMM等期刊的审查员。他赢得了“中国科学院奖的主任”,并与微软研究所的MSRA和阿里巴巴小组进行了科学合作。研究方向包括计算机视觉,出色的微调参数,视频生成,多模式和遥感解释。 MONA(多认知视觉适配器)是一种新的视觉适配器微调程序,旨在破坏表演的瓶颈传统的视觉识别任务的完整修复。纸张标题:5%100%:视觉识别任务中的全面性能性能纸张地址:https://arxiv.org/pdf/2408.08345代码地址:https://github.com/leiyi-hu/monamona通过多种认知远见滤镜和优化输入输入,只有5%的backOne of the backOne of the BackOne nontern of the backOne,全参数微调的效果超出了许多经典的视觉活动,例如示例细分,对象检测,旋转对象的发现等,大大降低了适应性和存储成本,并为良好调整视觉模型提供了新的想法。纸张突出显示了现代深入研究的发展,增加培训数据和模型量表已成为模型性能增长的重要点,但是随着它,模型的垂直应用以及提高了调整的成本和难度。传统的全尺度微调需要更新所有型号参数(例如1750亿GPT-3参数),计算非常昂贵。尽管以伯特为例,但单卡培训的100万个数据需要5-7个小时,从而限制了研究繁殖和实际应用。同时,随着模型参数从数十亿个级别转移到万亿级,直接维修不仅昂贵,而且性能损害也会导致过度拟合。此外,在多任务场景中,需要为每个任务保存该模型的完整副本,并且存储成本大大增加。 PEFT参数可以通过维护冻结并仅固定少量参数的伪装模型的参数来有效地使大型模型适应垂直应用。但是目前大多数PEFT方法都是,尤其是与全面微调相比,该过程的视野性能中的PEFT仍然没有危害。蒙娜(MonaHan 5%,通过更适合视觉信号处理和对预训练分布功能的动态优化的设计,为视觉微调提供了新的解决方案。本文的核心是给出-DIIN:(1)PEFT提高了视觉模型的上力限制(尤其是对于具有较大参数的模型); (2)在整个微调中将存在严重的过度拟合问题(尤其是对于小样本); 。对于特定业务,某些使用LVM或多模式大型模型(例如OCR等)的活动将调整视觉编码器的一部分,或者简单地修复线性层以适应流动数据。 MONA的存在可以进一步改善对LVM和多模式大型模型的视觉特征的理解和重建,尤其是对于某些小样本后培训问题。 MONA方法结合了诸如降低维度,多认知视觉滤波器,激活功能和维度UPS等模块简化跳过连接(跳过连接)以增强模型适应。这种结构设计为MONA提供了 - 在保持效率的同时,可以显着提高视觉活动的性能。蒙娜(Mona)的主要方法是引入多认知视觉过滤器,该滤波器通过深度独立的卷积和多尺度卷积内核(3×3,5×5,7×7)提高视觉信号的适配器处理能力。与传统的线性适配器不同,MONA是专门为视觉任务设计的,可以更好地处理二维视觉特征,并通过多尺度功能融合来改善模型对视觉信息的理解。优化正在向适配器的前部增加一个比例层,以调整输入特征的分布。该设计可以优化从固定层传递的特征分布,从而使其更适合AD Processingapter,从而提高效率在正确固定方面。实验论文结果绩效RMM在多个代表性视觉活动上进行了实验,包括:分割(可可)语义分割(ADE20K)对象检测(Pascal VOC)旋转对象检测(DOTA/Star)图像分类(Flowers102,Oxford-IIIIT PET,VOC2007)基于Backbone网络和预先培养的ImageN-Datactaset-2-2。与可可数据集的性能进行比较,与全参数微调相比,MONA方法提高了1%的地图,仅固定了少于5%的参数。在ADE20K数据集中,MONISA的MIOU提高了0.18%,表现良好。在Pascal VOC数据集中,Mona将APBOX提高了3.6%,显示出明显的性能。在旋转对象检测任务(DOTA/Star)中,MONA比许多MGA框架中的其他方法都多。蒙娜(Mona)在图像分类任务中也具有出色的性能。收敛性MONA评估正在更快地转换为所有方法,并显着超过了完整的修复。插件模块导入火炬。 # ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- Inner_dim = 64 Monaop类(nn.module):def __init __(self,in_features):super()。 5,填充= 5 // 2,组= in_features)self.conv3 = nn.conv2d(in_features,in_features,in_features,kernel_size = 7,padding = 7 // 2,groups = in_features) self.projector = nn.conv2d(in_features,in_features,kernel_size = 1,) def向前(self,x):身份= x conv1_x = self.conv1(x)conv2_x = self.conv2(x)conv3_x = self.conv3(x) x =(conv1_x + conv2_x + conv3_x)/3.0 +识别 身份= x x = self.projector(x) 还原身份Y + X Mona类(基本模块):def __init __(self,in_dim,因子= 4):super().__热__() self.project1 = nn.linear(in_dim,innin_dim)self.nonlineAr = f.gelu self.project2 = nn.linear(innion_dim,in_dim) self.dropout = nn.dropout(p = 0.1) self.adapter_conv = monaop(innion_dim) self.norm = nn.layernorm(in_dim)self.gamma = nn.parameter(torch.ones(in_dim) *1e-6)self.gammax = nn.parameter(torch.ones(in_dim)) def向前(self,x,hw_ shapes = none):身份= x x = self.norm(x) * self.gamma + x * self.gammax project1 = self.project1(x) Project1 = Project1.Shape H,W = HW_ Shape Project1 = Project1.Reshape(B,H,W,C).Permute(0,3,1,2)Project1 = Self.Adapter_Conv(Project1)Project1 = Project1 = Project1.Permute(0,2,2,3,1).Reshape(b,n,c).Reshape(b,n,c) hindinlinear = self.nonlinear(project1)nonlinear = self.dropout(nonlinear)project2 = self.project2(nonlinear) 返回结论MONA方法显着改善了视觉活动性能的有效调整通过多认知视觉过滤器和优化优化的ITIE,同时大大减少了参数调整的量。这种方法不仅转化为许多视觉活动中传统的全参数微调,而且为未来视觉模型的有效安排提供了新的方向。在预印本期间,MONA被认为是在医学,遥感和其他领域中使用的SOTA方法,这些方法通过许多单元的工作,例如Fudan大学,中国科学技术大学,南京大学和武汉大学。 Ang Bumona的源代码将进一步促进该领域的研究和应用。
电话
020-66888888