当前位置：首页>学习笔记>多模态大模型学习笔记(七)——多模态数据的表征与对齐

多模态大模型学习笔记(七)——多模态数据的表征与对齐

2026-04-13 21:57:21

多模态数据的表征与对齐——特征、挑战与跨模态对齐

1 引言

多模态学习是指对文本、图像、音频、视频等多种异质信息来源进行协同建模与理解的机器学习范式，其核心支撑技术为多模态表征与跨模态对齐。

• 多模态表征：将不同结构的模态数据映射为可计算的稠密特征向量，实现异质数据的数值化统一；
• 跨模态对齐：在统一语义空间中建立异质模态的语义关联，让语义一致的跨模态特征相互匹配。不同模态之间的对齐、关联和转换，使模型能够把来自不同模态的信号放在同一语义空间里理解。

二者共同解决多模态数据异构性与语义割裂问题，是多模态大模型、跨模态检索、AIGC等技术的核心基础。

2 多模态数据的核心特征与异质性

2.1 典型模态的基础特征

不同模态的数据，其结构、语义和处理方式存在本质差异，这是多模态研究的起点。

2.1.1 文本（Text）

• 离散化：由一个个独立词语或字符组成，词汇表是有限的。例如，中文常用汉字约3500个，英文单词表也有明确边界。
• 序列性：词语按照特定的顺序排列，改变顺序会改变语义。例如，“我喜欢猫”和“猫喜欢我”是完全不同的意思。
• 抽象性：文本承载的是抽象的概念和信息符号，需要理解深层含义和上下文。例如，“苹果”既可以指水果，也可以指科技公司，需结合上下文判断。
• 里程碑架构：BERT、GPT等Transformer架构，通过自注意力机制捕捉文本的上下文依赖。

2.1.2 音频（Audio）

• 时序性：音频是一维的、连续的时序信号，时间维度是其核心特征。
• 频率特征：声音由不同频率的波组成，通常要转换成语谱图等二维表示处理，才能更好地提取特征。
• 上下文相关：环境音、语音、音乐的含义依赖于上下文。例如，同样的“啊”在不同语境下可以表示惊讶、痛苦或疑问。
• 里程碑架构：WaveNet、Wav2Vec、Whisper等，通过卷积或Transformer处理时序和频率信息。

2.1.3 图像（Image）

• 网格状：图像由像素组成，形成一个二维网格，每个像素点代表特定位置的颜色信息。
• 局部相关性：相邻像素之间通常有很强的相关性，构成了物体的边缘和纹理。这也是CNN能有效处理图像的原因。
• 密集性：像素值是连续的，在0~255之间，代表了丰富的视觉细节。
• 里程碑架构：AlexNet、ResNet、ViT等，从局部卷积特征发展到全局自注意力特征。

2.1.4 视频（Video）

• 时空性：既有帧的空间信息，也有帧的时间信息，是一个三维数据立方体（高×宽×时间）。
• 数据量庞大：含有大量的帧，处理起来计算量大，对算力要求极高。
• 多模态：本身就是多模态，包含视觉（图像帧）和听觉（音频），通常还带有文本字幕。
• 里程碑架构：I3D、VideoBERT、ViViT等，将图像模型扩展到时间维度。

2.1.5 传感器（Sensor）

• 时序性：连续的时间序列数据，如IMU的加速度、陀螺仪数据。
• 多样性：数据类型和格式差异大，包含加速度、温度、压力、LiDAR点云等。
• 底层性：通常是物理世界的原始测量值，需要复杂的处理提取出高层语义。
• 里程碑架构：AutoEncoder、LSTM、PointNet等，用于处理时序或不规则点云数据。

2.2 多模态数据的异质性

定义：多模态数据异质性指不同模态在数据结构、语义表达、数据分布上存在的本质差异，是多模态学习的核心前置问题。

1. 结构异质性：不同模态的数据维度与格式无天然对应关系。文本是离散符号，音频是连续波形，图像是二维像素矩阵，传感器是多维时序数据，结构上完全不同。
2. 语义异质性：同一语义可通过不同模态表达，模态间无直接语义映射。例如，“一只猫”可以用一张猫的图片、“喵”的叫声或“cat”这个词来表达，但这些数据本身没有直接的数学对应。
3. 分布异质性：各模态的数据分布、噪声特征、标注成本存在显著差异。图像数据分布复杂，文本标注成本高，传感器数据则充满了环境噪声。

3 多模态表征学习

3.1 表征学习定义

多模态表征学习：将原始异质模态数据通过编码器转换为低维、稠密、语义可分的特征向量，实现异构数据的统一数值化表达，为跨模态对齐提供基础特征支撑。

3.2 单模态表征

定义：针对单一模态原始数据，通过专用编码器映射为固定维度特征向量的过程。

数学表达：其中：

• ：单一模态原始数据（文本/图像/音频）；
• ：模态专用编码器（CNN/Transformer/RNN）；
• ：单模态表征向量，，为特征维度。

例如，对于一张猫的图片，通过ResNet编码器，可以得到一个512维的特征向量，这个向量就代表了这张图片的语义信息。

3.3 多模态联合表征

定义：将多种单模态特征通过映射函数投影至同一语义空间，生成融合多模态信息的联合特征。

数学表达：其中：

• ：种单模态表征向量；
• ：多模态联合投影函数；
• ：多模态统一语义空间的联合表征向量。

例如，将文本特征和图像特征输入到一个全连接层，得到一个新的联合特征，这个特征同时包含了文本和图像的信息。

4 跨模态对齐

4.1 跨模态对齐定义

跨模态对齐：在统一语义空间中，让语义相同的异质模态特征相互靠近、语义不同的特征相互远离，建立模态间精准语义关联的技术过程。

4.2 对齐核心度量：余弦相似度

定义：衡量两个特征向量在语义空间中方向一致性的指标，是跨模态对齐的核心相似度度量方式。它只关心向量的方向，而不关心其长度（即数值大小）。

数学表达：其中：

• ：两种异质模态的表征向量；
• ，数值越大代表跨模态语义对齐度越高。

示例：张三购物10次，买了6次零食、1次体育用品、1次办公用品、2次日用品。李四购物10次，买了8次零食、1次购物券、1次日用品。

统一特征空间：[零食, 体育用品, 办公用品, 日用品, 购物券]向量化：张三 ([6, 1, 1, 2, 0])，李四 ([8, 0, 0, 1, 1])

计算点积：计算模长：，余弦相似度：

这个高相似度表明，尽管具体购买物品不同，但两人的购物偏好（方向）是相似的。

4.3 对比学习跨模态对齐

定义：基于对比学习范式，利用大规模成对跨模态数据优化特征分布，实现语义对齐的主流方法（以CLIP图文对齐为例）。

CLIP采用双塔结构，分别对文本和图像进行编码，然后在统一的语义空间中进行对比学习。其核心思想是，让匹配的图文对（正样本对）的特征相似度尽可能高，而不匹配的图文对（负样本对）的相似度尽可能低。

对比损失函数为：

其中：

• ：第个样本的图像特征；
• ：温度系数，用于调节相似度分布，使模型更关注难分样本；
• ：批次内样本总量。

这个损失函数同时优化了文本到图像和图像到文本的检索任务，确保了模态间的双向对齐。训练完成后，CLIP可以实现零样本（zero-shot）跨模态检索与分类。

4.4 跨模态对齐技术路径

4.4.1 跨模态注意力机制（交互建模）

• 思想：强调不同模态之间的细粒度交互。与单模态self-attention不同，cross-attention可以让每个词对图像的不同区域施加注意力权重，或者反过来，让图像区域对文本片段进行加权，从而实现更精细的语义对齐。
• 优势：能捕捉图像区域与文本词语之间的一一对应关系；注意力权重可以直观地显示“模型在看哪里”；特别适用于VQA（视觉问答）、图文推理等需要深度交互的场景。
• 代表工作：LXMERT、ViLBERT。

4.4.2 联合嵌入与投影（对比学习）

• 思想：把不同模态投影到同一个语义空间中，让相同语义的样本在空间中更接近，不同语义的样本远离。对比学习（Contrastive Learning）是最典型的实现方式，它通过构造正负样本对，让模型自动学会“什么是匹配，什么是不匹配”。
• 优势：利用大规模成对数据对齐语义，减少人工标注成本；一旦训练完成，可以实现零样本（zero-shot）跨模态检索与分类；目前已被广泛应用在搜索、推荐、跨模态理解等实际场景。
• 代表工作：CLIP（OpenAI, 2021）。

4.4.3 模态转换与跨模态生成

• 思想：通过将一种模态的数据“翻译”或是“生成”为另一种模态的数据来隐式地学习它们之间的关系。这种方法不只是对齐或者检索，而是显式地“跨模态创造新内容”。
• 优势：生成的结果是新模态的数据，易于人类理解和评估；广泛应用于AIGC、多模态内容创作；当前最受关注的商业应用之一。
• 代表工作：DeepMind Veo 3（文本生成视频）。

4.5 相似度计算：工业界的选择

在统一的语义空间中，如何衡量两个样本的相似性？不同的距离度量有不同的适用场景。

4.5.1 余弦相似度 vs 欧式距离

• 余弦相似度：只关注向量的“方向”，衡量语义是否一致，不受数值幅度影响。例如，张三消费翻倍，购买比例不变，余弦相似度保持不变。
• 欧式距离：关注向量的“绝对距离”，在高维空间中易受“维度灾难”影响，放大数值偏差。例如，张三消费翻倍，欧式距离会翻倍。

工业界现象：观看短视频，明明喜欢看篮球新闻/集锦，推荐给用户却是足球新闻/集锦。

• 原因1：训练时，视频标题/标签噪声大（“XX球星精彩瞬间”），跨模态对齐不到位。
• 原因2：用欧式距离在高维embedding空间里度量，数值偏差会被放大，导致“看起来很近”的样本被推开。

结论：余弦相似度只看“方向”，能让“篮球”和“篮球”保持近邻，即使热度或播放量的数量级相差很多。

4.5.2 二阶段检索策略

工业界通常采用二阶段检索来平衡效率和精准度：

1. 粗排：先用余弦相似度快速找到Top-K候选，保证语义方向一致。
2. 精排：再用欧式距离等方法，筛掉方向相近但幅度差异大的样本，提升精准度。

例如，在推荐系统中，先用余弦相似度找到和用户兴趣相似的1000个候选视频，再用欧式距离从中筛选出最符合用户消费频次和客单价的10个视频。

4.5.3 其他距离度量

4.5.4 工业界多模态检索的实践流程

在工业级多模态检索系统中，单一相似度度量往往无法同时满足效率、召回率和精准度的要求，因此通常采用“粗排-评估-精排”的分层流程，以平衡性能与效果：

（1）余弦相似度粗排：快速筛选语义候选

工业界首先会使用余弦相似度对海量候选集进行粗排，核心目标是快速判断embedding的语义方向是否一致，过滤掉语义不相关的样本，保留Top-K（如Top 1000）候选。

• 优势：余弦相似度计算高效，仅需向量点积与模长运算，可在毫秒级完成百万级候选的筛选；同时只关注语义方向一致性，能有效保证召回率，避免漏检核心相关内容。
• 适用场景：跨模态检索、推荐系统的初筛阶段，如“以文搜图”“以图搜文”等场景的快速候选生成。

（2）检索指标评估：衡量用户感知的召回效果

粗排完成后，需通过检索指标（如Recall@10、Precision@5等）评估召回效果，其中Recall@10是工业界最常用的核心指标之一。

• Recall@10定义：在检索返回的Top 10个结果中，包含真实相关样本的比例，反映了用户实际感受到的“是否能找到想要的内容”。
• 作用：用于验证粗排策略的有效性，若Recall@10偏低，说明粗排过滤过严，需调整相似度阈值或候选数量，避免漏检关键内容。

（3）CLIP Score精排：补足语义质量评估

在部分对语义精准度要求高的任务（如AIGC内容筛选、图文匹配验证）中，会引入CLIP Score作为“质量打分”，弥补单一余弦相似度的不足。

• CLIP Score定义：由CLIP模型计算的图文相似度得分，衡量文本与图像在统一语义空间中的对齐程度，取值范围为0~1，得分越高代表语义贴合度越强。
• 作用：在粗排候选的基础上，通过CLIP Score对结果进行二次排序，筛选出更贴合用户语义需求的内容，同时可用于评估AIGC生成内容的质量（如文本生成图像的语义一致性）。通过“余弦相似度粗排→检索指标评估→CLIP Score精排”的分层流程，工业界多模态系统既能保证检索效率，又能兼顾召回率与语义精准度，实现了效率与效果的平衡。

5 跨模态对齐的核心挑战

5.1 语义鸿沟挑战

定义：异质模态对同一实体的语义表达存在偏差，导致表征无法完全等价，是跨模态对齐的本质难题。

例如，一张“猫”的图片和“猫”这个词，虽然语义相同，但图片包含了猫的颜色、姿态、背景等丰富信息，而文本则是高度抽象的符号。模型很难将这两种完全不同的信息源完美对齐。

5.2 模态异构适配挑战

不同模态的编码器结构、特征分布差异较大，统一空间映射易出现特征偏移与失真，难以兼顾各模态特征表达。

例如，文本编码器擅长处理抽象概念，图像编码器擅长处理视觉细节，将它们投影到同一空间时，很容易出现某一模态的特征被压制或扭曲的情况。

5.3 数据与噪声挑战

大规模成对标注跨模态数据稀缺，模态内原始噪声会直接破坏对齐精度，弱监督/无监督场景下对齐鲁棒性不足。

例如，在网络爬取的图文数据中，图片和文本往往不匹配（“标题党”），这些噪声数据会严重干扰模型的对齐学习，导致模型学到错误的关联。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

多模态大模型学习笔记(七)——多模态数据的表征与对齐

多模态数据的表征与对齐——特征、挑战与跨模态对齐

1 引言

2 多模态数据的核心特征与异质性

2.1 典型模态的基础特征

2.1.1 文本（Text）

2.1.2 音频（Audio）

2.1.3 图像（Image）

2.1.4 视频（Video）

2.1.5 传感器（Sensor）

2.2 多模态数据的异质性

3 多模态表征学习

3.1 表征学习定义

3.2 单模态表征

3.3 多模态联合表征

4 跨模态对齐

4.1 跨模态对齐定义

4.2 对齐核心度量：余弦相似度

4.3 对比学习跨模态对齐

4.4 跨模态对齐技术路径

4.4.1 跨模态注意力机制（交互建模）

4.4.2 联合嵌入与投影（对比学习）

4.4.3 模态转换与跨模态生成

4.5 相似度计算：工业界的选择

4.5.1 余弦相似度 vs 欧式距离

4.5.2 二阶段检索策略

4.5.3 其他距离度量

4.5.4 工业界多模态检索的实践流程

（1）余弦相似度粗排：快速筛选语义候选

（2）检索指标评估：衡量用户感知的召回效果

（3）CLIP Score精排：补足语义质量评估

5 跨模态对齐的核心挑战

5.1 语义鸿沟挑战

5.2 模态异构适配挑战

5.3 数据与噪声挑战

最新文章

热门文章

随机文章

多模态大模型学习笔记(七)——多模态数据的表征与对齐

多模态数据的表征与对齐——特征、挑战与跨模态对齐

1 引言

2 多模态数据的核心特征与异质性

2.1 典型模态的基础特征

2.1.1 文本（Text）

2.1.2 音频（Audio）

2.1.3 图像（Image）

2.1.4 视频（Video）

2.1.5 传感器（Sensor）

2.2 多模态数据的异质性

3 多模态表征学习

3.1 表征学习定义

3.2 单模态表征

3.3 多模态联合表征

4 跨模态对齐

4.1 跨模态对齐定义

4.2 对齐核心度量：余弦相似度

4.3 对比学习跨模态对齐

4.4 跨模态对齐技术路径

4.4.1 跨模态注意力机制（交互建模）

4.4.2 联合嵌入与投影（对比学习）

4.4.3 模态转换与跨模态生成

4.5 相似度计算：工业界的选择

4.5.1 余弦相似度 vs 欧式距离

4.5.2 二阶段检索策略

4.5.3 其他距离度量

4.5.4 工业界多模态检索的实践流程

（1）余弦相似度粗排：快速筛选语义候选

（2）检索指标评估：衡量用户感知的召回效果

（3）CLIP Score精排：补足语义质量评估

5 跨模态对齐的核心挑战

5.1 语义鸿沟挑战

5.2 模态异构适配挑战

5.3 数据与噪声挑战

学习笔记 |儿童眼发育异常

学习笔记-修学

最新文章

热门文章

随机文章