“AI不再只是看见,而是开始思考。” 商汤科技亚太区业务总裁史军近日指出,人工智能已从视觉AI 1.0的“感知时代”正式跨入2.0的“决策时代”。核心驱动力在于多模态大模型的导入,让AI具备逻辑推理与辅助决策能力。史军预期,随着机器人技术与大模型结合,工业AI即将迎来关键爆发期。

回顾1.0时代,计算机视觉主要聚焦人脸识别、自动驾驶感知及工业品检。史军在接受专访时透露,当时开发一套高精度瑕疵检测算法,耗资可能接近1000万元人民币,且产线一旦调整,算法就得从头开发,高昂成本阻碍了大规模普及。
进入CV 2.0阶段,商汤主打“原生多模态”,将视觉与语言信息从训练阶段深度整合。AI能理解复杂情境,例如从“看见咖啡杯”进阶到“理解品牌”,进而辅助机器人完成精准抓取。
在工业应用层面,史军分享了与动力电池大厂的合作案例。在极高速生产线上,商汤技术可精准检出电池表面的细微刮痕,避免火灾隐患。2.0时代,大模型具备处理“长尾算法”的能力,以更低成本、更短时间推导衍生应用,让AI进入生产核心环节。
大模型也为机器人注入“大脑”。过去机器人只有动作精准的“小脑”,导入多模态大模型后,开始拥有L4级自动化潜力。未来工厂变更产线设计,无需拆除机台,只需通过语言指引调整机器人逻辑,即可灵活应对不同班次需求。
谈及国际竞争,史军直言,纯短期内很难超越ChatGPT,因此商汤选择深耕视觉与多模态结合。公司近期开源了“NEO”多模态大模型底层架构,以提升行业整体技术水平。大模型并未颠覆传统视觉技术,而是让视觉功能更强大,创造更大市场空间。