近日,来自斯坦福、MIT、纽约大学和 Meta-FAIR 等机构的商榷东谈主员,通过新的商榷重新界说了最大流形色量默示法(MMCR)的可能性。
多视图自监督学习(MVSSL,或称为皆集镶嵌自监督学习)是一种雄壮的无监督学习要津。它开首创建无监督数据的多个调换或视图,然后以肖似监督的格式使用这些视图来学习有用的默示。
达成 MVSSL 的具体要津有许多,但梗概不错分为四类:对比、聚类、蒸馏 / 动量、冗余减少。
在这广大的要津中,最大流形色量默示(Maximum Manifold Capacity Representation,MMCR)是卓尔不群的一类。
MMCR 不解确使用对比,空虚践聚类,不应用蒸馏,也不解确减少冗余,但禁止却不错比好意思甚而特出其他跳跃的 MVSSL 要津。
而来自斯坦福、MIT、纽约大学和 Meta-FAIR 等机构的商榷东谈主员,正在通过新的商榷重新界说这个框架的可能性。
看成论文作家之一,LeCun 也发推抒发了我方的不雅点:
除非使用谨防机制,不然使用 SSL 考研皆集镶嵌架构会导致崩溃:系统学习到的默示信息不够丰富,甚而是恒定不变的。
东谈主们设想了多种要津来谨防这种崩溃。
一类要津是样本对比:确保不同的输入产生不同的默示。
另一类是维度对比:确保默示的不同变量对输入的不同方面进行编码。
两种类型的要津都不错从信息最大化参数中派生出来:确保默示面孔尽可能多的编码关系输入的信息。
方差-协方差正则化、MMCR 和 MCR2(来自伯克利大学马毅团队)都是 infomax 维度对比要津。
信息最大化维度对比要津的中枢念念想,是鼓舞编码器学习输入的默示,使其尽可能充分地应用默示空间,就像在有限的画布上尽可能展现丰富的细节。
为了更好地相识 MMCR,商榷东谈主员应用高维概率器具诠释了,MMCR 不错激发学习镶嵌的对皆和均匀性。
同期,这种镶嵌最大化了视图之间的互信息的下界,从而将 MMCR 的几何视角与 MVSSL 中的信息论视角筹商起来。
为了更好地应用 MMCR,商榷东谈主员对预考研亏损的非单调变化进行数学瞻望和实验证据,发现了肖似于双下落的举止。
此外,商榷东谈主员还发现了盘算上的 scaling law,不错将预考研亏损瞻望为梯度步长、批量大小、镶嵌维度和视图数目的函数。
最终,作家诠释了这个领先应用于图像数据的 MMCR 要津,在多模态图像文本数据上一样发达优异。
MMCR
MMCR 由纽约大学数据科学中心(NYU Center for Data Science,CDS)的商榷东谈主员于 2023 年提议。
该要津源于神经科学中的有用编码假说:生物嗅觉系统通过使嗅觉表征允洽输入信号的统计数据来优化,举例减少冗余或维度。
领先的 MMCR 框架通过调理「流形色量」(揣测给定默示空间内不错线性分离的对象类别数目的倡导)将这一想法从神经科学彭胀到了东谈主工神经网罗。
许多 MVSSL 要津要么明确源自信息论,要么不错从信息论的角度来相识,但 MMCR 不同。
MMCR 指出揣度高维互信息已被诠释是穷苦的,且靠拢互信息可能不会改善默示。MMCR 的基础在于数据流形线性可分性的统计力学表征。
不外 LeCun 等东谈主的这篇责任,将 MMCR 的几何基础与信息论旨趣筹商起来,探索了 MMCR 的更深档次机制,并将其应用彭胀到了多模态数据,举例图像文本对。
表面基础
MMCR 源自关系线性二元分类器性能的经典禁止。谈判 D 维度中的 P 点(数据),具有放浪分拨的二进制类标签;线性二元分类器大致生效对点进行分类的概率是些许?
统计力学盘算标明,在热力学极限下,容量 α= 2 时会发生相变。MMCR 将此禁止从点彭胀到流形:
最小化 MMCR 亏损落味着最大化平均矩阵的核范数。
直不雅上,圆善重建意味着合并数据的扫数视图都被网罗映射到相通的镶嵌,圆善均匀性意味着镶嵌均匀散播在超球面周围。
基于对 MMCR 镶嵌散播的新意志,咱们奈何将 MMCR 的统计力学几何不雅点与信息论不雅点筹商起来?
谜底是,MMCR 激发默示的最大化,对应于合并数据的两个视图的两个镶嵌分享的互信息的下限。
谈判某些输入数据两个不同视图的镶嵌之间的互信息。两个视图之间的互信息必须至少与两项之和一样大:一个镶嵌重建另一个的智商,再加上镶嵌的熵:
MMCR 的双下落
通过高维概率分析可知,瞻望最大流形色量默示的预考研亏损,也应该在其预考研亏损中发达出非单调双下落样举止。
(双下落:测试亏损看成数据总额和模子参数数目的函数发达出非单调变化)。
然则,本文的分析也标明,这种肖似双下落的举止应该发生在非典型参数(流形的数目 P 和维数 D)上,而不是数据的数目和模子的参数目。
具体来说,表面瞻望最高的预考研缺点应该正巧发生在阈值 P = D 处,预考研缺点落在阈值的两侧。
为了相比不同超参数对的点数 P 和数据维度 D 之间的亏损,这里使用 MMCR 预考研领域来界说预考研百分比缺点:
商榷东谈主员在 STL-10 上预考研了 ResNet-18,STL-10 是一个与 CIFAR-10 肖似的数据集,但折柳率更高 (96x96x3),况兼包含 100000 张图像的附加未瑰丽分割。
扫描规模 P:{64, 128, 256, 512, 1024} × D:{64, 128, 256, 512, 1024} × K:{2, 4, 8}(K 为视图数),禁止如上图所示。
Compute Scaling Laws
在许多 MVSSL 要津中,鼎新超参数接续会导致预考研亏损赓续顶,从而使开动之间的相比变得穷苦。
然则,MMCR 预考研百分比缺点产生的数目介于 0 和 1 之间,因此不错将不同超参数(P 和 D)时的考研情况放在一齐相比。
执行这么的相比会产生好奇赞佩好奇赞佩的训导风物:盘算 MMCR 预考研百分比缺点中的神经缩放定律。
通过绘图在 STL-10 上预考研的 ResNet-18 网罗,咱们不错明晰地看到预考研百分比缺点的幂律缩放与扫数点数 P 、镶嵌维度 D 和视图数目 K 的盘算量的关系。
一个环节细节是这些神经缩放弧线杰出了肖似双下落的举止:对角线子图(P = D 时)具有较高的预考研百分比缺点和较小的预考研百分比斜率。
MMCR 与多模态
谈判 OpenAI 的对比说话图像预考研模子 CLIP 实在立,两个不同的网罗在图像文本标题对上进行预考研,从两个不同的数据域 X 和 Y 取得数据。
X 和 Y 是配对的,使得 X 中的每个示例在 Y 中都有对应的正对,反之也是。从 MMCR 角度来看,X 和 Y 不错相识为合并底层对象的两个视图。
因此,最优变换镶嵌 f (X) 和 g (Y) 应映射到合并空间,况兼咱们不错应用对 MMCR 的检阅相识来考研这些最优网罗。
与常见的 MVSSL 不同,这里的 X 和 Y 在执行中可能代表极其不同的散播。
在上图的图像-文本对皆实验中,作家将多模态 MMCR 应用于 DataComp-Small,并将零样本 Imagenet 性能与法式 CLIP 标的进行相比。
不错发现,多模态 MMCR 在小批量(< 512)下发达优于 CLIP。
参考而已:
https://x.com/ylecun/status/1834666512856031537
告白声明:文内含有的对外跳转流畅(包括不限于超流畅、二维码、口令等面孔),用于传递更多信息,从简甄选技能,禁止仅供参考,IT之家扫数著述均包含本声明。
声明:新浪网独家稿件,未经授权不容转载。 -->