当前位置:首页 > 系统it > 网络资讯
网络资讯

一张图片产生五感的AI模型,究竟如何做到的?

时间:2023-08-26 22:03:43   作者:Admin辉辉   来源:51CTO网络   阅读:602   评论:0
内容摘要:最近,MetaImage在技术圈引起了极大的好评。在《IMAGEBIND:OneEmbeddingSpaceToBindThemAll》的论文中,通过一个嵌入空间,Meta的ImageBind将五种不同的模态与图像进行连接配对,非常精彩。1、“跨五感”的模型问世比如,给你看一张海滩的图片,你就会联想到海浪的声音、咸味的...

最近,MetaImage在技术圈引起了极大的好评。在《IMAGEBIND:One Embedding Space To Bind Them All》的论文中,通过一个嵌入空间,Meta 的 ImageBind 将五种不同的模态与图像进行连接配对,非常精彩。

1、“跨五感”的模型问世

比如,给你看一张海滩的图片,你就会联想到海浪的声音、咸味的空气和你周围的热浪,反过来,如果你听到打鼾,你可以想象一个人躺着进入深度睡眠中的画面。

这的确也很符合常识:人类可以根据图像想象出气味、声音以及空间的感觉,反之亦然。

那么 AI 能像人类一样将许多不同且不相关的模式绑定在一起吗?Meta AI发表的ImageBind论文就是解决了这个问题。

图片图片

为了“绑定”多种模式,而不仅仅是文本和图像,该论文的研究人员将图像作为主要数据,并测试了音频、热图(热像仪)、文本和 IMU(惯性测量,一系列加速度计、陀螺仪等)和深度。

为了将深度和文本等两种不相关的模式联系起来,研究人员使用了对比学习(Contrastive Learning)。将图像数据作为主要要求,论文中显示了代表任何给定数据中可用的图像实际链接的粗实线。

图片图片

接下来,研究人员展示了紧急链接是如何发生的,现在您可以获取音频和文本数据点并获得正确的图像或视频。这种能力以前并不存在;这是新兴(emergent Link)的。使用成对的对齐观察值(例如吠叫声和文本“狗”),它可以正确地将输出提供一张狗的图像。论文中给出的另一个例子是鹳的图像和海浪的声音结合了模态,并显示了鹳在水中的图像。

图片图片

这篇论文的基础在于,人们实际上并不需要数据对与图像连接在一起。例如,只需将深度或热图信息与文本(具有与图像的实际联结)配对,用户就可以创建包含所有这三个信息的图像。该论文将这种现象称为“快速对齐(emergent alignment)”。 

2、为什么不采用 Meta 的数据集

Meta 的 Facebook 拥有最大的图像和文本配对数据集之一。奇怪的是,研究人员没有使用他们自己的数据集,而是使用了 OpenAI 的CLIP数据集,然而,可能使用Meta自己在过去十年中收集的数据集来训练这个模型本应该是有意义的。另一方面,没有任何 GPT-4多模式架构的迹象。

但机器人研究员 Hugo Ponte 却不觉得这样,并认为 Meta 使用 CLIP 是一个明智之举。

首先,CLIP 是一个为图像和语言创建共享嵌入空间的模型,非常强大。在 CLIP 数据集上添加 ImageBind 使得该模型不仅适用于文本,而且几乎适用于论文中提到的所有其他模式。如果用户有音频、IMU、热图、深度和文本数据,开发者可以创建最接近该数据的图像。

Ponte 进一步分析了这篇论文和作者选择 CLIP 的原因——“我认为这是一个明智之举,这样,他们没有改变 CLIP 嵌入空间,这意味着你实际上可以返回到过去三年里发布的每一篇使用 CLIP 的论文,并可以直接插入 ImageBind 来替代使用。”

通过使用 ImageBind,我们可以将任何内容投射到 CLIP 中。“他们没有取代CLIP,而是扩展了 CLIP,这让它变得更好,因为 CLIP 也适用于对比学习,需要图像和图像显示的文本的配对示例。”Ponte 补充道。

此外,ImageBind 作者还采用了 Vision Transformer (ViT),这是一种当今常见的架构,可以为不同模式的相关概念创建类似的嵌入,例如将“狗”与狗的图像相关联。

3、下一步是什么

不出所料,Meta 也开源了代码,但有趣的是也给商业目的戴上了紧箍咒,不允许商用。然而,开发人员已经使用 ImageBind 构建了一个巧妙的搜索引擎演示。搜索引擎使用文本、音频甚至视觉输入检索人工智能生成的图像。

一张图片产生五感的AI模型,究竟如何做到的? 图1

Meta AI 负责人 Yann LeCun 表示,该模型没有公开发布可能是出于法律原因,也可能是因为它只是第一篇具有如此广泛模式的论文。这减缓了该论文的采用速度,仅在其上开发了几个演示。

然而,广泛的模式看起来像是向 Yann Lecun 的AGI 方法迈出的一步。到目前为止,该模型可以从不同的“感官”中学习,以生成模仿人类如何感知世界的正确图像。 

责任编辑:武晓燕来源: 51CTO技术栈
#免责声明#

【声明】:辉辉网络登载此文出于传递更多信息之目的,并不代表本站赞同其观点和对其真实性负责,仅适于网络安全技术爱好者学习研究使用,学习中请遵循国家相关法律法规。如有问题请联系我们,联系邮箱1665545192@qq.com,我们会在最短的时间内进行处理。

【声明】 本站提供的一切软件、教程和内容文章信息仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。本站信息来自网络收集整理,版权争议与本站无关。您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。如果您喜欢该程序和内容,请支持正版,购买注册,得到更好的正版服务。我们非常重视版权问题,如有侵权请邮件与我们联系处理。敬请谅解!


网站不盈利不挣钱,若有侵犯你的利益请联系删除,给你带来的不便,我们非常重视版权问题  邮箱:3653767872@qq.com




标签:图片  如何  产生  做到  一张  
相关评论
免责声明! - 版权声明
Admin邮箱:3653767872@qq.com
  粤ICP备2023090474号