具身|打破大模型的“空中城堡”,BMVC最佳论文Runner-Up得主谈多模态与具身学习( 二 )
但在现实生活中,我们感受到的世界是3D立体的。比如,有一个人在说话,我们可以听出他是在我们的左边还是右边;有一辆车疾驰而过,我们也可以通过声音变化判断车的位置变化。“但是,我们平时看的很多视频中的声音都是单声道的。在这种情况下,我们感受不到立体空间,也就是丢失了一些空间信息。”
在发表于CVPR2019的论文“2.5D Visual Sound”中,高若涵及其团队将原始的单声道声音作为输入,然后分析视频中图像上的一些空间信息,将单声道的声音转化成双声道的声音。这项研究还获得了当年大会的最佳论文荣誉提名。
文章插图
论文地址:https://arxiv.org/pdf/1812.04204.pdf
然而,在提取图片和视频中的空间信息时,他们采取的办法是把图片用ResNet-18提取出一个视觉特征向量(visual feature vector)来表示空间信息,然后指导从单声道到双声道的预测。“但是这个特征向量有一定局限性,它相当于是一个black box,我们无从知晓它是如何提取空间信息的。”
因此在BMVC2021上发表的这项获奖研究中,他们想更为直接地学习几何等空间上的信息,而不是单纯用一个空间向量从图片里直接提取。“我们根据三个想法设计了一个多任务框架,能够更好地学到一些空间特征,从而更好地做单声道到双声道的转化。”
文章插图
论文地址:https://vision.cs.utexas.edu/projects/geometry-aware-binaural/
高若涵解释道,脉冲响应相当于是一个房间的迁移函数,包含了空间中关于声源的信息,其中包括声源位置、3D环境信息、照相机和麦克风的位置等。如果特征向量能够很好地提取空间的信息,它就能够很好的预测房间的脉冲响应。
脉冲响应只涉及一个损失函数,团队还提出了另外两个。一个和空间连贯性相关,可以让网络预测它最后生成的声音和视觉信息是否一致。
此外,在一个视频中,每帧画面是有一定连续性的,相邻的每个视频帧之间在空间信息上的变化非常小。因此,团队就利用了这样的监督信息,提出了另一个和几何一致性相关的损失函数,更好地学习了空间向量。
文章插图
模型框架图:为了从单声道音频生成准确的双声道音频,视觉效果提供了可以与音频预测共同学习的重要线索。本文提出的方法通过三个任务的设置,来学习提取空间信息(例如,吉他手在左侧)、声源位置随时间的几何一致性,以及来自周围房间推断的双耳脉冲响应的线索。
数据集短缺
在人工智能研究项目中,数据短缺是常有的事情,特别是在探索新任务的时候。在BMVC2021的项目中,高若涵也遭遇了同样的难题。当然,这并不是第一次。
在“2.5D Visual Sound”项目中,高若涵就发现:缺少双声道的视频,或者声音数据集很小,没办法训练出mono-to-binaural的模型。
最终他们决定自己收集一个数据集,并模仿具身学习自主组装了一个收集数据的仪器。
文章插图
团队利用了这个数据集训练出了模型,但还存在局限性,“收集这种数据集其实很难,我们最后也只收集了5个多小时的视频。”
在BMVC2021的项目中,此前收集的5个多小时的数据集已不足以支持继续研究。
“要解决数据集问题,要么我们就从现实生活自己收集,它的优点是很真实,但是这样收集成本很高。或者我们可以在一个虚拟模拟器上直接得到这样的数据集,但是可能会没有现实生活中那么真实。”
因此,高若涵和合作者们收集了一个虚拟数据集。“我们在一个虚拟环境里随意地放一些声源,还放了智能体,它在里面到处走动,然后进行搜集。我们录了一些视频下来,这样的数据大概能达到100多个小时,比之前的数据大了20多倍,这样就能够更好地帮助我们做算法的测试或者训练。”
- vivo|vivoX80Pro+曝光:打破传统束缚,性能与美的碰撞
- Linux|启中教育:直通车很烧钱?如何打破?
- 阿里巴巴|阿里自研赶跑外资,为马云省下几百亿,彻底打破外资垄断
- 光刻胶|徐州博康将光刻胶纯度提升10倍,打破日企垄断,华为加码3亿
- 芯片|清华大学不负众望,打破芯片领域技术限制,成功出货核心设备!
- 红米手机|打破技术封锁,K50电竞版加持国产A+原色屏,比DC调光更护眼
- 大数据|深度学习也能不玩大数据?小企业训练大模型有新解
- 用户|数据分析八大模型:同期群模型
- 华为|正式发布,华为官宣新消息!外媒:这是要彻底打破
- 半导体|又一领域打破垄断,良率99.99%,性能逼近三星,华为率先提供支持