Meta AI实验室2023年最重要的10个工作兼风爷快评
开篇的话
ChaGPT的诞生,成为人类的AGI元年,犹如按下了AI研究的快进键。2023短短一年,AI社区诞生了数之不尽的明星项目和璀璨的开源成绩。在OpenAI不再Open之际,开源社区一度陷入对AI巨头不可追赶的绝望,直到Meta平地一声雷,接连开源包括 SAM、Llama2等重磅开源产品,让社区快速跟上了对大模型最前沿工作的进展。
风爷心目中,Meta地位迅速超赶谷歌成为,世界上最伟大的大企业之一。
Meta AI 2023年度十佳
接下来是 Meta自己选的:
在 2023 年的尾声,我们为您呈现了今年我们分享的十大最令人瞩目的人工智能研究成果,每一项都开辟了探索新天地的大门。
1️⃣ Segment Anything (SAM)
这是通往图像分割领域首个全面模型的重要一跃。
探索细节:bit.ly/3tyeJKu

SAM 确实非常强大,文章一发布,基于它的应用和改造,数之不尽,风起云涌。大幅推进了CV在分割领域的进展。
2️⃣ DINOv2
利用自我监督学习训练计算机视觉模型的首创方法,其成就匹配甚至超越了业界标准。
探索细节:bit.ly/3TGTEIb

和SAM不同的是DinoV2实际上是真正意义的CV大模型,旨在覆盖所有CV子领域的下游任务。文章还是比较谦虚,是非常重要的工作
3️⃣ Llama 2
我们最新一代的开源大型语言模型,为研究和商业应用提供免费使用的新选择。
探索细节:bit.ly/3RY66C6

Llama 2 的开源,让国产大模型的自主研发成为可能。赶英超美不是梦。在ClosedAI的大模型下溃不成军的开源大模型,正式走上了AI安全的道路。
4️⃣ Emu Video & Emu Edit
在文本到视频生成和文本指令控制的图像编辑方面的创新 AI 研究,推动生成性技术的质量新高。
探索细节:bit.ly/3RZVZwU
5️⃣ I-JEPA
一种自我监督的计算机视觉模型,它通过预测来学习理解世界,是 杨立昆老师 愿景中的一部分,旨在使 AI 如同动物和人类一样学习和推理。
探索细节:bit.ly/3TA9oNk
6️⃣ Audiobox
我们在音频生成领域的全新基础研究模型,为音频魔法的未来奠定了基础。
探索细节:bit.ly/47ib6pQ
7️⃣ 脑解码 - 迈向实时重构视觉感知
使用 MEG 技术,这个 AI 系统能够以史无前例的时间分辨率解码大脑中的视觉表征。
探索细节:bit.ly/3vpgDNR
8️⃣ 开放催化剂演示
这项服务为材料科学研究者提供了一个新平台,使他们能够快速模拟催化材料的反应性,超越现有计算方法。
探索细节:bit.ly/3vphiij
9️⃣ 无缝通信
这一新型 AI 翻译模型系列,提供准确保真和近乎实时的流式翻译服务。
探索细节:bit.ly/3toBDE8
很强大TTS/ASR开源,没仔细测,这个领域也有效逼迫OpenAI对Whisper的开源和改进。

🔟 ImageBind
这是首个能同时处理六种模式数据的 AI 模型,它的出现使机器更接近于人类综合多感官信息的能力。
探索细节:bit.ly/3NLUaBc“
为多模态模型打开了一条不错的思路,但是对齐方法有点勉强。但是确实为社区的多模态模型实现了对GPT的短暂“领先”。(它的出现催生了类似于LLaVa的多模态模型,出生在GPT4-V之前。)可以看到这是多么疯狂的一年,数之不尽的模型进展,如长江只浪,延绵不绝。
