计算机如何理解我们这个世界,多模态嵌入模型的讨论

人类学习的多感官性质

人类具有通过整合多种感官输入来学习和构建世界模型的非凡能力。我们的感官组合协同工作,为我们提供丰富多样的环境信息。通过组合和解释这些感官输入,我们能够形成对世界的连贯理解,做出预测,并非常有效地获得新知识。

通过多感官输入的学习过程始于人类发育的早期阶段。婴儿通过他们的感官探索世界,触摸,品尝,倾听和观察他们周围的物体和人。这种感官探索有助于他们将同一体验的不同视角联系起来,从而对他们的环境产生全面的理解。

在学习新概念时,这种多感官数据的融合也是为什么人类可以用很少的数据点学习的部分原因-使我们成为伟大的少数学习者。让我们想象一下,你正试图教一个孩子狗的概念。下次你在公园里看到一只狗时,你指出来说:“这是一只狗!“.假设这是一个单一的观察/数据点-在监督机器学习的意义上。从这个单一的数据点,孩子收到了丰富的信息:他们看到狗如何移动、相互作用以及对周围世界的反应,听到狗如何吠叫,看到狗身上的毛如何在风中飘动,可以触摸狗以查看它的感觉,甚至闻到狗的气味。因此,从这个单一的“数据点”中,孩子提取了非常丰富的多个相互依赖的数据模态的表示,这些数据模态非常清楚地定义了狗的概念。

随着时间的推移和年龄的增长,这种感官输入的融合变得更加精致和细致入微,并允许婴儿发展更高层次的抽象和对物体属性的理解,例如形状,质地和重量。

人类是如此优秀的多模态推理引擎,以至于我们在不知不觉中做到了这一点-让我们考虑一个实际的场景。想象一下,你在飞机上,只有你的无线耳机,不能插入飞行中的娱乐系统-一个困境,我发现自己在这些天往往不是! 所以你开始看一部无声的电影,在大多数情况下,你会发现你可以很好地理解正在发生的事情,尽管不完美。现在想象一下,你打开字幕,现在你可以理解几乎所有正在发生的事情,你甚至可以用你的想象力来填充声音效果,这些想象力是由你现有的数据模式支持的。

为了让我们的机器学习模型能够更自然地与数据交互,我们所做的方式,最终成为更通用和强大的推理引擎我们需要它们通过其对应的图像,视频,文本,音频来理解一个数据点触觉及其他表征-一旦嵌入到高维向量空间中,就需要能够保留所有这些数据模态背后的含义,如图1所示下面。例如,为了理解火车是什么,我们需要我们的ML模型“看到”和“听到”火车的移动,“感觉”火车附近地面的运动,并“阅读”它。这说起来容易,做起来难。拥有一个共同理解所有这些数据模态的模型是非常困难的,让我们讨论一下我们和真正的多模态模型之间的一些挑战。

应对学习多模态嵌入的挑战

1.缺乏丰富且一致的多模态数据集

收集和准备多模态数据集非常具有挑战性。每种模态都需要特定的数据收集技术和预处理步骤。此外,跨模态对齐和标准化数据对于确保兼容性至关重要。由于数据格式、时间对齐和语义对齐的差异,这是相当具有挑战性的。如果数据从不同的数据集拼接在一起并且没有正确对齐,则机器学习模型很难提取和学习模态之间的相互依赖性。

目前的方法通过获取多个丰富的数据集并在可能的情况下将它们融合在数据模态中来解决这个问题。例如,您可能能够将来自计算机视觉数据集的狮子的图像/视频与来自音频数据集的狮子的咆哮相结合,但可能无法与运动相结合,因为您可能没有狮子的运动数据。还尝试收集更丰富的多模态数据集,例如EGO 4D,其收集给定场景的多个数据模态。EGO 4D实际上通过捕获加速度计和陀螺仪数据来捕获运动/触觉数据,这些数据与活动的视频捕获在时间上对齐!这样做的问题是,生成丰富的多模态数据集是非常昂贵的,甚至在某些情况下是不切实际的。

2.模型架构

设计一个单一的模型,可以处理多模态数据的体系结构是困难的。通常,机器学习模型是数据的一个领域的专家,例如计算机视觉或自然语言。训练一个单一的,jack-of-all-modalities模型是非常困难的。

当前的多模态方法,如FAIR的ImageBind,Meta AI(结合了图像、语音、文本、视频、运动和深度/热数据)通过采用对每种模态的专家预训练模型,然后使用对比损失函数对它们进行微调,以绑定它们的潜在空间表示。这种方法的关键在于,不需要所有配对模态的组合来训练这样一个联合嵌入,只需要图像配对数据就足够对模态进行对齐和绑定。然而,其限制在于,为每种模态或任务添加和微调一个预训练模型变得过于昂贵且不具有可扩展性。

3.模型可解释性

理解和解释多模态模型的决策可能具有挑战性。不同模态的融合可能会在解释学习的表示和归因于每种模态的重要性上引入复杂性。例如,考虑在一个多模态模型的学习联合嵌入空间中搜索,什么样的加速度计运动数据最接近一个人关于全球化的演讲。这说明有些模态或数据对象并不自然地配对在一起。

ImageBind模型通过使用图像表示作为基准,并将所有其他概念拉近到图像表示,从而建立了其他模态之间的自然学习对齐。这些图像表示使用大规模的视觉-语言模型如CLIP进行初始化,从而利用这些模型的丰富图像和文本表示。一些这样的对齐直接解释(比较一个人演讲的视频和演讲的音频),而其他模态对则通过他们与中间模态的关系来解释(通过看他们如何都与视频/图像数据相关,来理解运动数据和文本数据的关系)。然而,在其他情况下,想要理解为什么两个例子靠得很近,如果不仔细查看训练集的话,可能无法给出合理的解释。

4.异构性与训练优化

处理模态不平衡(我们有很多图像和文本数据,而运动和触觉数据明显较少)使得很难同样好地学习所有模态;这需要在训练和优化融合机制期间仔细调整每个模态的贡献,以防止单个模态占优势。数据不平衡是一个考虑因素,但更重要的是要考虑模态带来多少独特的信息-这被称为异质性。准确评估异质性可以让您决定哪些模态差异足够大,可以单独处理,哪些模态对相互作用不同,因此应该进行不同的融合。

HighMMT已经被提出来处理涉及大量不同模态的高模态场景。HighMMT使用两种新的信息理论指标进行异质性量化,使其能够自动优先考虑包含独特信息或独特相互作用的模态融合。这导致单个模型可以扩展到来自5个不同研究领域的10种模式和15个任务,展示了ImageBind中没有的关键缩放行为:性能随着每种模态的增加而继续改进,并且在微调期间转换到全新的模态和任务。

总之,开发多模态模型的努力试图通过组合不同的输入(例如图像、文本和音频)来模仿人类学习,以提高机器学习系统的性能和鲁棒性。通过利用多感官输入,这些模型可以学习识别复杂的多模态模式,理解跨模式的上下文,并生成更全面和准确的输出,即使在没有一些模态的情况下。主要目标是给予这些模型能够以更自然的方式与数据交互,从而使它们成为更强大和通用的推理引擎。

编者:今天看到了一篇非常优秀的英文文章,翻译成中文与大家共享。文章英文标题《Multimodal Embedding Models》作者:Zain Hasan,内容和标题编者有适当调整。 原文地址:https://weaviate.io/blog/multimodal-models?utm_source=newsletter.weaviate.io&utm_medium=newsletter&utm_campaign=llamaindex-generative-feedback-loops-and-multimodal-embedding-models

举报
评论 0