科研系学霸第59章 毕业论文选题(2/2)
多模态学习的核心是如何将不同模态视觉、语言的特征空间对齐,当前的方法通常使用的是交叉注意力机制,甚至是更为简单的点积或余弦相似度。
而最优传输Optimal Transport, OT是一种数学理论,致力于寻找将质量或概率从一种构型转移到另一种构型的最有效方式,从而最小化给定的成本。
他的想法就是将对齐问题建模为OT问题,当然,这个OT问题肯定会非常难,因为每一个特征的维度都是非常高的,而多模态的特征又非常多。
所以他就联想到了人类的大脑,人脑在处理不同感官信息视觉、听觉、触觉时,似乎在底层存在着一种统一的“意识流”,
各种模态的信息涌入后,被映射并在这个流中进行交换、融合和理解,比如闻着榴莲吃西瓜,就会产生一种通感。
而他要做的就是,如何将这个所谓的‘意识流’用数学的方法表现出来,他能想到的最为接近的理论就是OT理论。
至于为什么一定要将信息融合其实也很好理解,打个比方,你要向一个来自外星系、完全不懂地球文化的外星人解释什么是“苹果”,
你不能只给它看一张苹果的图片,或者只给它一个苹果吃。
因为这些信息对它来说都是割裂的、无法理解的,所以我们需要将每种信息变成一种感觉,比如苹果可能是甜的,酸的,可能是绿的,红的......
而人在学习一个陌生的事物时候也是差不多的流程,比如神农尝百草,先了解这个草药不同的特性,然后再给它下一个定义。
同理,要让AI理解世界,这个步骤也是需要的,你得先让AI理解,苹果的一些基本特性,这也是很多大模型都在做的一个步骤。
接下来的一步便是信息融合,也就是告诉AI一个更加高级的统一语义空间,告诉它,虽然信息的模态不同,但他们描述的都是同一种东西,这就是融合的步骤。
这也是现代多模态大模型能同时处理不同模态信息的原理。
只不过在将不同模态信息纳入这个统一语义空间的语义空间时,现在的方法仍然有很多的不足。
这个问题也是真正实现AGI路上的一块绊脚石。
更多章节可以点击:科研系学霸,本章网址:http://www.lonfuwx.org/lonfu/125267/58.html
推荐阅读:永夜序曲 重生60:从深山打猎开始致富 当修仙界遇上金融危机 AI伴游弄苍穹 官梯:从选调生开始问鼎权力巅峰 巨洪末世求生,我养鱼火遍求生圈 我都元婴了,你说我没穿越? 万古独行 权游:我有一个星露谷面板 火红年代:开局饥荒年,我有空间农场 穿成鳏夫,带着三个闺女去逃荒 赫律师白天冷脸,夜里哑声哄我叫宝宝