①在人工智能从技术探索转向技术应用趋势下,空间智能作为一种融合了多模态大模型、虚拟现实等前沿技术的新方向,展现出了巨大潜力。 ②天娱数科首席数据官吴邦毅表示,人工智能下一个阶段是实现AGI,而AGI释放的更大生产力蕴含在制造领域,发展空间智能是让AGI从桌面迈入工业应用的关键。
财联社8月29日讯(记者 崔铭)人工智能的演进正从初期的技术探索阶段,转向技术应用阶段。在此趋势下,空间智能作为一种融合了多模态大模型、虚拟现实等前沿技术的新方向,展现出了巨大的潜力和商业价值。
2024深圳(国际)通用人工智能大会期间,天娱数科首席数据官吴邦毅在接受财联社记者专访时表示,人工智能下一个阶段是实现通用人工智能(AGI),而AGI释放的更大生产力蕴含在制造领域,发展空间智能是让AGI从桌面迈入工业应用的关键。
以下是访谈实录(有删改):
财联社:随着AI技术的广泛应用,您认为人工智能发展的下一个阶段会是什么?
吴邦毅:人工智能正处在一个快速发展和广泛应用的阶段,同时也在积极探索实现更高级别的通用智能的可能性。我们对人工智能下一阶段的普遍共识是实现AGI。那时,AI的认知、理解、驱动、决策能力可以与人类匹敌甚至超越人类。然而,目前AGI主要集中在内容创作、客服、编程等桌面应用,在工业领域应用可以说凤毛麟角。
我们判断人工智能下一阶段的发展机遇,蕴含在新型工业化变革中,AGI释放的更大生产力蕴含在制造领域。
财联社:相对于AGI桌面应用,为什么工业应用会比较匮乏?如何弥合工业场景应用存在的空间计算鸿沟?
吴邦毅:人工智能在工业场景应用匮乏的本质原因在于工业场景是3D空间,而目前绝大部分大模型为语言、图形、视频等2D模型,在工业场景应用时存在空间计算鸿沟。 相较于2D智能,3D空间智能在理解真实世界方面具备更全面的感知、理解、交互与决策能力,重新定义人、机器与真实世界、虚拟世界之间的关系,拥有更强的泛化能力和涌现特性。
一方面,通过3D数据捕捉深度信息,它能让AI对物理世界人与物的形态、结构和位置有更准确的理解,从而生成更具真实感的场景,提供更直观的可视化效果,让虚拟世界更真实;另一方面,空间智能可以在三维场景中像人类一样对视觉信息进行高级推理,超越二维视觉的局限,让真实世界更智能,将为多个产业特别是具身智能、智能制造、低空经济等产业带来颠覆式的变革。
因此,发展空间智能是让AGI从桌面迈入工业应用的关键。
财联社:可以详细说说在具身智能、智能制造、低空经济等产业,3D空间智能将如何与产业结合?
吴邦毅:如果说空间智能是让AGI从桌面迈入工业应用的关键,那么3D大模型则是发展空间智能的关键。
3D大模型为空间智能提供了多模态数据融合、空间计算、复杂场景处理、交互性增强、3D生成式AI等多方面的支持,是推动空间智能技术发展的关键。
在具身智能、人形机器人领域,将3D多模态大模型与机器人技术相结合,使机器人不但具备理解、记忆、推理等认知水平,还能认识和理解真实的3D物理世界,在作业场景中具备自主决策、行动与操作能力。
在智能制造领域,将3D大模型与人、机、物、环境的多源异构3D数据相结合,对整个生产环节进行3D重构,精确分析、交叉比对、识别瓶颈、辅助管理决策,提高生产制造、仓储物流的效率,降低成本,助力产业升级和模式创新。
在低空经济领域,将3D大模型与飞行器技术相结合,使飞行器在飞行活动中可以智能感知和识别、自主导航和避障,再通过对低空空域自然环境、飞行活动、基础设施等进行3D重构,构建空间智能系统,破解低空管理中感知能力弱、智能化程度低、应用成本高等难题。
财联社:天娱数科在构筑空间智能的领域有哪些尝试和布局?目前进展如何?
吴邦毅:到目前为止,天娱数科布局空间智能领域已有3年多的时间,从最开始入局时的AI数字人,到如今的3D大模型、空间智能MaaS平台,我们稳步推进着空间智能技术和应用场景的创新。
公司融合智者千问大模型与3D数据集、可视算法,构建了空间智能MaaS平台,实现了跨类型数据的智能解析。通过“1+1+N”模式,构建了1个全国最大规模的高质量3D数据集,开发了1个国产高性能3D空间智能大模型,通过DaaS、MaaS模式实现在具身智能、人形机器人、智能制造、低空经济等N个场景的应用。
MaaS平台汇聚两大核心功能,一是AI+3D可视化功能,可为多元产业提供XR虚拟场景、游戏开发、AI客服、智能数字人等多种数智产品与服务,目前已广泛应用与文旅、展会、金融、教育、影视、游戏等行业;二是AI+3D数据集功能,可为企业提供垂类模型训练、数据智算、具身智能等AI数据服务。
目前,空间智能MaaS平台已为中国日报、内蒙古阿拉善电视台、云南农职院、五芳斋、天河城、杨国福、华润雪花等多家企业客户提供了3D虚拟场景、AI数字人智能交互服务。
财联社:要实现3D空间智能在工业领域的广泛应用还面临哪些挑战?天娱数科有哪些应对方案?
吴邦毅:首先要强调的是,3D多模态大模型极端依赖大规模、高质量的3D数据训练,3D数据集对于提供真实人物、场景的展示、丰富的交互体验和决策支持至关重要。
但当前,3D数据集在质量和数量上都面临着一些挑战,高质量3D数据集匮乏是产业痛点,全球范围内,3D数据都处于极端重要,又极端缺乏的状态。
其次,3D数据的获取和处理成本相对较高,涉及到高端设备如深度相机的数据采集,以及繁琐的数据处理工作。这不仅需要大量的时间、人力和资金投入。而且,3D数据的标准化程度低,导致数据的兼容性较差,共享和复用难度大,也对空间智能技术的发展形成了掣肘。
3D数据集正在成为竞争的核心节点,在可见的未来,它决定3D多模态大模型和空间智能的发展,以及全球科技竞争的走势。
我们已经在数据的采、存、管、研、用各个阶段形成了一体化解决方案。空间智能MaaS平台通过收集多样化的数据类型,利用LightStage超高精度光场扫描、手持深度摄像头等先进设备,捕捉详尽的三维数据。
与此同时,平台还运用了NeRF、3D高斯等前沿技术,从扫描数据、视频、图像乃至文字中生成高质量的3D模型,使虚拟场景和物体更加逼真。这些数据与图像、文本等其他模态信息相互融合,形成了全方位、多维度的数据集。
目前,平台已拥有超80万组3D数据、35万组多模态数据,建立了海量的数据资源优势。