谷歌苹果华人大佬创业,融资3.5亿,或憋多模态模型大招

谷歌苹果华人大佬创业,融资3.5亿,或憋多模态模型大招

智东西(公众号:zhidxcom)

编译|万贵霞

编辑|云鹏

智东西1月14日消息,据美国科技媒体The Information报道,两位科技大厂前AI研究员——谷歌DeepMind前成员戴明博(Andrew Dai)与苹果前研究科学家杨寅飞(Yinfei Yang),联合创立了Elorian公司。该公司专注于开发能够同时理解和处理文本、图像、视频及音频的AI模型。

目前,Elorian正在推进一轮规模达5000万美元(约合人民币3.5亿元)的种子轮融资,Striker Venture Partners有望成为本轮领投方,双方洽谈已进入关键阶段。

戴明博出身于高知家庭,他父亲是机构学和机器人学领域大佬戴建生。作为Elorian的CEO,他之前在谷歌DeepMind任职超过14年,负责数据驱动型预训练相关工作。他深耕深度学习领域20年,曾在剑桥大学、爱丁堡大学攻读学位,是机器学习方向的博士。

Elorian另一位联合创始人杨寅飞,学生时期曾在南京邮电大学Echo实验室,参与差分进化算法参数控制相关研究,毕业作品Apollo3D(阿波罗3D)获苏州机器人世界杯第五名。他还参与癫痫诊断研究,开发MRI图像配准与可视化系统,之后在美国宾夕法尼亚大学攻读硕士学位。

在AI创业从“拼应用”转向“拼底层能力”的背景下,具备长期基础模型研究经验的华人科学家正加速走向创业前台,Elorian成为近期视觉AI赛道中备受关注的案例之一。

一、前谷歌DeepMind与苹果研究员联合创业

据The Information报道,Elorian公司由戴明博与杨寅飞联合创立。

戴明博与杨寅飞的领英个人资料显示,二人目前就职于一家“隐形(Stealth)”状态的公司,戴明博是该公司的CEO。

业内普遍认为,这家“隐形”公司很可能是Elorian。

▲“隐形(Stealth)”的领英主页资料(图源:领英)

▲“隐形(Stealth)”的领英主页资料(图源:领英)

1、戴明博,深耕DeepMind 14年,担任Gemini预训练工作

据戴明博领英个人资料显示,他在谷歌DeepMind工作超过14年,是Gemini数据领域的联合负责人,担任Gemini预训练工作。

此前,戴明博曾参与谷歌SGE的建模工作,在谷歌大脑(Google Brain)从事自然语言处理研究,在谷歌健康(Google Health)从事电子健康记录研究,并参与了Google Now的开发。

▲戴明博(图源:领英)

▲戴明博(图源:领英)

在领英自我介绍中,戴明博写到自己在深度学习领域拥有丰富经验,研究方向包括自然语言理解和大型语言模型

戴明博2003-2006年在英国剑桥大学计算机科学专业学习;2007-2012年在爱丁堡大学攻读机器学习博士。

他过去20年来一直从事预训练相关研究,主要集中在开发评估AI模型训练数据质量的技术,并确保模型使用来自各种不同来源的数据进行训练。

据相关报道,戴明博出生高知家庭,曾祖父毕业于金陵大学(南京大学前身),爷爷毕业于厦门大学土木工程系。戴明博的爸爸是国际机构学和机器人学研究领域知名专家、南方科技大学机器人研究院院长戴建生

▲戴明博在福建莆田的家庭合照,右下1为戴建生,左上1为戴明博(图源:公众号angrysprite不可言喻)

▲戴明博在福建莆田的家庭合照,右下1为戴建生,左上1为戴明博(图源:公众号angrysprite不可言喻)

可能受父亲影响,戴明博专业攻读机器学习,投身谷歌DeepMind,且创立了Elorian公司。

2、杨寅飞,横跨谷歌苹果,主攻视觉和语言多模态模型领域

杨寅飞领英显示,2022年1月加入苹果,担任苹果公司AI机器学习部门的研究科学家

▲杨寅飞(图源:谷歌杨寅飞主页)

▲杨寅飞(图源:谷歌杨寅飞主页)

学生阶段,杨寅飞在南京邮电大学Echo实验室担任研究助理,参与设计了一种控制差分进化算法参数的新方法。

本科时完成的毕业作品Apollo3D(阿波罗3D),用于Robocup足球模拟器中的Simu-Robot动作设计,曾获苏州机器人世界杯第五名。

▲杨寅飞的毕业作品Apollo3D图像演示(图源:Source Forge)

▲杨寅飞的毕业作品Apollo3D图像演示(图源:Source Forge)

2010年5月至10月,杨寅飞参与跨校跨国合作研究,结合AI与脑磁图(MEG)开展癫痫诊断软件研究,验证机器学习方法在癫痫诊断的应用可行性。

具体实现为开发一套MRI图像配准与可视化系统,利用SAM-kurtosis算法处理CTF脑磁图系统数据。项目源码已开源并发布在Source Forge。

▲MRI图像可视化系统CTF-SAM-OUT的图像演示(图源:Source Forge)

▲MRI图像可视化系统CTF-SAM-OUT的图像演示(图源:Source Forge)

2011年5月至2012年5月,任美国天普大学Longin Jan Latecki教授研究助理,后者为计算机与信息科学系博士生导师。

▲2012年,Longin Jan Latecki教授发表论文《基于足迹检测的跟踪方法,实现对非静态目标物体的导航》,杨寅飞担任第二作者(图源:天普大学主页)

2012年至2013年,杨寅飞在宾夕法尼亚大学攻读硕士,研究方向涵盖计算机视觉、机器人学和自然语言处理。

2013-2017年,先后在亚马逊和Redfin担任研究工程师,专注于机器学习和计算机视觉研究。

随后在谷歌工作超过4年,研究自然语言处理相关技术,包括语义检索、多语言表示及多模态表示。

2022年加入苹果AI机器学习部门,主要研究视觉和语言基础模型。2023年12月离开苹果,与戴明博筹划创立Elorian。

二、Elorian能同时理解图像、视频和音频,计划融资3.5亿元

戴明博在The Information电话采访中表示,Elorian专注于构建能够通过同时处理图像、视频和音频来对物理世界进行视觉解读和分析的AI模型。

他还提到,虽机器人技术是Elorian潜在应用之一,但公司设想了许多其他应用,具体细节尚未透露。杨寅飞暂未对此发表评论。

视觉推理模型因具备多模态功能整合能力,专为机器人系统等复杂AI应用场景设计,可大幅节省开发人员拼接各类AI模型的工作量。

部分研究人员向外媒表示,这项技术对于需要解读和理解图像以执行高级任务的AI智能体极具价值。

在融资方面,外媒援引戴明博及另一位知情人士消息称,Elorian正与投资者洽谈,拟进行约5000万美元(约合人民币3.5亿元)的种子轮融资。

知情人士透露,由风投公司CRV前普通合伙人Max Gazor于去年10月创立的风险投资公司Striker Venture Partners可能领投本轮融资。

结语:视觉推理AI成为巨头与创企关注焦点

从最早仅处理文本的大型模型,到如今可同时理解图像、视频与音频的多模态系统,视觉推理研究领域已成为谷歌、OpenAI、Anthropic等大型AI提供商及初创公司的核心关注点。

Elorian的出现正是这一浪潮的缩影。其能否在视觉推理关键赛道实现差异化突破,仍需时间检验。

来源:The Information

https://news.sina.cn/ai/2026-01-14/detail-inhhhtem8190051.d.html

参考资料

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Sitemap Index