小扎亲自官宣Meta视觉大模型,自监督学习无需微调,多任务效果超OpenCLIP 世界新动态
无需文字标签,完全javascript自监督的Meta视觉大模型来了!
小扎亲自官宣,发布即收获大量关注度——
在语义分割、实例分割、深度估计和图像检索等任务中,这个名叫DINOv2的视觉大模型均取得了非常不错的效果。
(相关资料图)
甚至有超过当前最好的开源视觉模型OpenCLIP之势。
虽然此前Meta就发布过自监督学习视觉大模型DINO,不过这次AI识别图像特征的能力显然更进一步,准确分割出了视频中的主体:
可别以为DINOv2通过自监督学会的只有图片分割。事实上,它已经能根据不同类别、不同场景下的照片,准确识别出同种物体(狗)的头部、身体和四肢长在哪:
换而言之,DINOv2自己学会了找图像特征。
目前Meta官方不仅已经放出了开源代码,而且还给了网页版Demo试玩。有网友内涵:
准确识别不同画风的同种物体
事实上,DINOv2是基于上一代DINOv1打造的视觉大模型。
这个模型参数量是10亿级,也仍然是视觉Transformer架构(ViT),但与DINO不太一样的是,这次DINOv2在数据集上经过了精心挑选。
具体来说,DINOv2构建了一个数据筛选pipeline,将内容相似的图片精心筛选出来,同时排除掉相同的图片:
最终呈现给DINOv2的训练数据图片虽然没有文字标签,但这些图片的特征确实是相似的。
采用这类数据训练出来的视觉模型,效果如何?
这是DINOv2在8个视觉任务上的表现,包括语义分割、分类、深度估计等,其中橙色是自监督方法的效果,深粉色是弱监督方法的效果。
可以看见,经过自监督学习的视觉模型,表现上已经与经过弱监督学习的模型性能相当。
实际效果也不错,即便在一系列照片中,相同物体的画风并不相似,DINOv2也能准确识别它们的特征,并分到相似的列表中。
如(a)组中都具有翅膀的鸟和飞机、(b)组中的大象和大象雕塑、(c)组中的汽车和汽车玩具模型、(d)组中的马和涂鸦版马:
而且从PCA(主成分分析)图像效果来看,DINOv2不仅能准确分类,还能用不同颜色标出它们“相同”的部分,例如象鼻都是绿色、车轮都是红javascript色、马的尾巴是黄色等。
换而言之,DINOv2能理解这些图像中的相似之处,就像人会形容飞机“看起来像一只鸟”一样。
目前DINOv2已经放出Demo,我们也试了试它的实际效果。
Demo直接可玩
官网已经开放语义分割、图像检索和深度估计三大功能的试玩。
据Meta介绍,这几个任务中,DINOv2在大多数基准上超过了目前开源视觉模型中表现最好的OpenCLIP。
我们先来看看深度估计的效果。
值得一提的是,在效果更好的情况下,DINOv2运行的速度也比iBOT更快,相同硬件下只需三分之一的内存,运行速度就能比DINOv2快上2倍多。
这是Meta论文中与OpenCLIP在实际例子上的比较效果:
我们用这张猛男版新宝岛试一下,看起来还不错,即使是高糊图片也能比较好地估计出深度:
接下来是语义分割的效果,这里也先给出Meta论文中编程客栈的数据对比情况:
这里也给出OpenCLIP和DINOv2的对比,中间的图片是OpenCLIP的效果,右边是DINOv2分割的效果:
我们也用一张办公室的图片试了一下,看起来DINOv2还是能比较准确地分割人体、物体的,但在细节上会有一些噪点:
最后是图片检索。
官网上给出的图片效果还是挺不错的,输入铁塔照片,可以生成不少含铁塔的相似艺术图片:
这里我们也试了试,输入一张华强买瓜,给出来的艺术图片大多数与西瓜有关:
那么,这样的自监督视觉大模型可以用在哪里?
从Meta给出的视频来看,目前有一些比较环保的用途,例如用于估计全球各地的树木高度:
除编程客栈此之外,如同扎克伯格所说,DINOv2还能被用于改善医学成像、粮食作物生长等。当然这里小扎还进一步强调:
嗯,看来Meta的元宇宙路线还将继续……
试玩Demo地址:https://dinov2.metademolab.com/demos
项目地址:https://github.com/facebookresearch/dinov2
-
小扎亲自官宣Meta视觉大模型,自监督学习无需微调,多任务效果超OpenCLIP 世界新动态
站长之家 2023-04-18
-
微动态丨幼儿园孩子不建议报3类兴趣班,费钱又坑娃,家长别做无用功
急诊室老苗 2023-04-18
-
环球播报:112是什么电话?
互联网 2023-04-18
-
2尺是多少厘米(2尺4是多少厘米)
互联网 2023-04-18
-
2023上海车展:坦克400 Hi4-T正式亮相
网通社 2023-04-18
-
白宫指责巴西在乌问题上“鹦鹉般模仿俄中宣传”,巴西外长驳斥! 天天快看
环球网 2023-04-18
-
热点在线丨医疗手术器械行业发展现状分析2023
百度 2023-04-18
-
【聚看点】V观财报|中信建投:独立非执行董事被查,履职刚七个半月
中新经纬 2023-04-18
-
智慧能源分论坛将于28日举办
东方资讯 2023-04-18
-
全球播报:高山引来“幸福泉”——石门县壶瓶山镇龙池河村为村民引水记
华声在线 2023-04-18
-
小扎亲自官宣Meta视觉大模型,自监督学习无需微调,多任务效果超OpenCLIP 世界新动态
站长之家 2023-04-18
-
微动态丨幼儿园孩子不建议报3类兴趣班,费钱又坑娃,家长别做无用功
急诊室老苗 2023-04-18
-
环球播报:112是什么电话?
互联网 2023-04-18
-
2尺是多少厘米(2尺4是多少厘米)
互联网 2023-04-18
-
2023上海车展:坦克400 Hi4-T正式亮相
网通社 2023-04-18
-
白宫指责巴西在乌问题上“鹦鹉般模仿俄中宣传”,巴西外长驳斥! 天天快看
环球网 2023-04-18
-
热点在线丨医疗手术器械行业发展现状分析2023
百度 2023-04-18
-
【聚看点】V观财报|中信建投:独立非执行董事被查,履职刚七个半月
中新经纬 2023-04-18
-
智慧能源分论坛将于28日举办
东方资讯 2023-04-18
-
全球播报:高山引来“幸福泉”——石门县壶瓶山镇龙池河村为村民引水记
华声在线 2023-04-18
-
矩子科技(300802):4月17日北向资金减持9.61万股
证券之星 2023-04-18
-
功放电路原理讲解(功放电路)
互联网 2023-04-18
-
西宁曹家堡国际机场三期空管工程空管工作区开工建设
中国新闻网 2023-04-17
-
上海建工:拟提请股东大会授权发行不超150亿元债务融资工具-世界新视野
互联网 2023-04-17
-
全球今日讯!京东白条降额了怎么回事?盘点被系统降额的五个原因
希财网 2023-04-17
-
第二届千年金山红古树茶采摘节在重庆南川开幕|每日讯息
国际在线 2023-04-17
-
山阳县气象台解除大风蓝色预警【Ⅳ级/一般】
二三里资讯 2023-04-17
-
傅小东受贿被判刑10年
新华网 2023-04-17
-
固元膏价格多少钱一盒_固元膏价格
互联网 2023-04-17
-
全球速递!交通银行在第三届消博会期间举办“开放与创新”产业金融高峰论坛
证劵导报 2023-04-17
-
奥比中光:公司对结构光、iToF、双目、dToF、Lidar、工业三维测量技术进行全面布局 世界快播
红周刊综合整理 2023-04-17
-
世界滚动:重庆富民银行被罚 违反消费者金融信息保护管理规定等
中国经济网 2023-04-17
-
绿茶之乡如何念好“黄茶经”
安徽日报 2023-04-17
-
国家能源局印发《电力行业公共信用综合评价标准(试行)》-天天讯息
界面新闻 2023-04-17
-
雅思听力场景高频词汇(七) | 地图题
新东方在线雅思 2023-04-17
-
环球报道:人报甘头条 | 兰州马拉松预报名通道关闭,缴费工作已开启
人民日报客户端甘肃频道 2023-04-17
-
长江电力董秘回复:公司将通过“深耕存量、发掘增量”,进一步提升大水电引领能力:(一)四库联调拓展为六库联调 视讯
证券之星 2023-04-17
-
MOYNAT摩奈助力轻松享受瑜伽时刻,闻献DOCUMENTS推出电子香薰机|是日美好事物
界面新闻 2023-04-17
-
快看:沃尔沃汽车发布世界树智能安全体系 全新纯电旗舰SUV EX90迎来中国首秀
DoNews快讯 2023-04-17
-
张惠妹怎么突然瘦成这样,同框小S腿更细,20公分增高鞋却太抢眼
娱乐领头君 2023-04-16