从拧螺丝开始,浙江给机器人办了所“职校”

2026-03-10 13:32:46 世界浙商

 

台上一分钟,台下十年功。具身智能机器人的应用亦是如此。

走进长三角(德清)具身智能数据采集训练场,你会看到这样一幕:

“车间”内,机器人对准一颗螺丝,缓缓拧紧,指尖的传感器微微闪烁,记录下每一次旋转的力度与角度;“咖啡馆”里,机器人端起咖啡杯,萃取、拉花,转身又拿起清洁刷,细细刷过台面的每一处边角;“客厅”中,机器人俯身整理,将高矮不一的杯子层层叠放,摆件归位的动作轻缓又准确……

德清国际地信城内一家机器人主题咖啡店里,机器人“咖啡师”正在制作咖啡。受访者供图

这幅画面,像极了未来生活的预演。只不过,机器人们还在“上学”阶段。仔细看就能发现,这些动作并不流畅:一个抓取要停顿两秒,一次转身要调整数次,叠被子的角折过来又展开,远不如春晚舞台上那些“功夫机器人”般行云流水。它们每一个笨拙的动作,都被传感器同步记录——视觉、力觉、触觉、听觉,全部转化为数据,送入仿真系统,成为它们“成长”的养料。

今年春晚,很多人有一个直观感受:机器人“活”了。去年还在扭秧歌,今年已经能在舞台上打醉拳、耍双节棍、连续后空翻,甚至和真人演员对打零失误。

但现实世界的复杂,远非演播厅的标准化场景可比。

“具身智能机器人的运动能力已经很强,但在理解环境和自主决策方面,还远不如一个三岁孩子。”浙江无问智行科技CEO刘盛翔说。

所以,它们得从头学起。就像人类孩子要上幼儿园、小学、中学,机器人也要经历一场漫长的“基础教育”。

正是为了教会这些“孩子”如何服务人类,一座专门为机器人办的“专业学校”在浙江应运而生。3月5日,长三角(德清)具身智能数据采集训练场暨业界首个物理AI数据基座平台正式投入使用。

训练场上,从“零”开始

长三角(德清)具身智能数据采集训练场是支撑新型人工智能服务的关键基础设施,由浙江无问智行科技有限公司建设运营。训练场室内总面积达8000平方米,一期已建成3000平方米,1∶1还原了多类真实应用场景,有超过百台数据采集设备,几十个机器人正在这里“上学”。

长三角(德清)具身智能数据采集训练场。受访者供图

在训练场二楼的工业区,数据采集员刘明华正在给机器人“上课”。他戴上VR眼镜、握住手柄,与身旁的具身智能机器人建立连接——透过眼镜,他看到的是机器人头部摄像头传回的画面:一张工作台,一块需要打磨去毛刺的家具板材。“我们做一个动作,机器人的手臂就会跟着做。”他缓缓移动手臂,操控机器人抓取打磨工具,定位到板材表面,开始往复式打磨。打磨完一面,再翻转板材打磨另一面。这套完整的操作流程,他每天要重复5小时左右。

“我刚接触这份工作时,确实会联想到流水线工人。”他摘下眼镜,揉了揉手腕,“但后来想明白了,我们的重复不是机械劳动,而是为了让机器人学会这些技能的必要手段。”同一个打磨动作,要在不同条件下反复练习——板材是实木还是颗粒板,表面平整还是带有纹理,颜色深一点还是浅一点,尺寸大块还是小块。这些对人类来说微小的差异,对机器人而言都是必须从零开始攻克的难题。

和机器人朝夕相处,他有过恐惧,但更多的是热情。“刚开始会想,如果机器人什么都能做,那人还能做什么?但接触久了,想法慢慢转变了:很多危险或繁重的工作交给机器人,人类就能从这些事务中解放出来。从这个角度看,我们不是在‘教会’它们取代人类,而是在‘训练’它们服务人类。”

他把手柄放回工位,“十年后我可能还在机器人背后做数据采集。因为无论机器人怎么迭代,基础数据永远需要人一点点采出来。”

在训练场,机器人的每一次动作,视觉、深度、力觉、触觉、声音等数据都会被同步采集。这些数据经过详细标注后,会被送入仿真系统,在虚拟环境中反复训练,再加入不同光线、不同角度、不同材质的干扰变量,生成海量训练样本。最后,经过仿真训练的模型再回到真实场景进行验证,形成完整闭环。

用通俗的话说,机器人在这里“反复练习”。一次真实操作的数据,可在仿真环境中扩展为大量训练样本,大幅降低企业成本,加快模型迭代速度。从真实中来,到真实中去——这套“三步走”的训练方式,正是训练场的核心设计。

长三角(德清)具身智能数据采集训练场内,机器人正在整理货架上的物品。受访者供图

训练场承担了两个角色。无问智科CTO于春磊打了个比方:一是“教练员”,源源不断地给机器人的“大脑”提供数据燃料,让它在真实场景里自我迭代;二是“裁判员”,通过专业的测试环境,评判机器人的“大脑”到底够不够聪明。

在一墙之隔的街头,它们的“学业”成果已经开始接受检验。3月5日,就在训练场所在的德清国际地信城,一家机器人主题咖啡店开门迎客。店内的“咖啡师”是一只机械臂——研磨、萃取、打奶泡、拉花,全程不到90秒。顾客扫描二维码上传图片,机器人还能把图案打印在奶泡上,实现“咖啡私人定制”。

“3个月前,机械臂操作还不够协调,现在操作流畅多了。”“只此莫干”联合创始人王洋说。这家德清本土品牌与训练场联合打造了这家店,店内机器人服务的每一个动作,同步用于具身智能数据采集。商业运营与技术训练,在这里合二为一。

跨越高墙,让机器人走进现实世界

咖啡店里的机械臂已经运转自如,但训练场内,更多的机器人还在为一个抓取动作反复练习。这让人不禁追问:既然硬件日益强大、算法持续迭代,为什么还要专门为机器人建一所“学校”?

地平线创始人、无问智科首席顾问余凯表示,春晚上机器人的稳、准、美,正是基于大量真实加仿真数据迭代的结果,“这背后,是高质量物理交互数据的千锤百炼,是感知—决策—行动—反馈闭环的极致打磨。”而具身智能要真正走出实验室,面前还横亘着三道高墙。

第一面墙,是数据的巨大空白。

人机交互。图源:视觉中国

如今我们熟知的AI,无论是善解用户心意的豆包、主打高效推理的DeepSeek,都属于数字世界的AI——它们学习的都是互联网上现成的文字和图片,那是二维的、静态的知识。而具身智能要学习的,是三维世界里的物理规律:拿起鸡蛋和拿起铁块,力觉反馈完全不同;帮老人起身和帮小孩递东西,交互逻辑也截然相反。这些关于力度、材质、平衡、因果关系的“物理经验”,需要数百PB级的多模态数据来支撑。

但行业目前积累的,不足百分之一。

那些长尾的、复杂的、非结构化的场景——比如从一堆杂物中精准捏起一枚鸡蛋,在昏暗光线下避开障碍,在不同材质的桌面上擦拭污渍——几乎是一片无人涉足的荒漠。互联网上那些海量的文字和图片,能教会AI吟诗作对,却教不会机器人如何感知一枚鸡蛋的脆弱。因为这些信息在二维世界里根本不存在,只能在真实的物理空间中,由人戴着传感器,一次一次地“教”出来。

具身机器人正拿起一个鸡蛋。受访者供图

德清训练场的第一个使命,正是在这片荒漠里开垦绿洲。每一次抓取、每一次转身、每一次擦拭产生的数据都被同步记录,把那些互联网上没有的“物理经验”,一点点沉淀为结构化的数据资产。

第二面墙,是数据质量的参差。

物理世界AI对数据质量的要求,远高于数字世界。一个标注错误的图片,可能只让AI认错一只猫;但一条力度数据失真的操作记录,却可能让机器人捏碎鸡蛋、撞倒老人。然而当前行业现状是:各家自采数据,格式五花八门;标注各有一套,标准混乱;仿真环境与真实世界严重脱节,在虚拟世界里跑得飞快的模型,一到现实就处处碰壁。

用这样的数据喂出来的机器人,就像读了一堆错别字课本的学生,看似学了不少,真到用的时候却总是出错。

训练场的回应,是坚持“从真实中来,到真实中去”的闭环——数据在真实场景采集,送入仿真系统扩增训练,再加入光线、角度、材质等干扰变量生成海量样本,最后返回真实世界验证效果。每一次循环,都在检验和提升数据的质量。

第三面墙,是数据成本的昂贵。

一条高质量的操作数据,长度可能仅有几十秒,但有时需耗费数小时采集,再经过清洗、标注、管理等工序,才能成为可用的训练样本。据业内人士测算,物理AI的数据采集标注成本,是数字AI的十倍以上。一个单一场景的投入,动辄数百万到数亿元。如果每一家企业都要自己找工厂、租咖啡馆、搭产线来采集数据,那具身智能就永远是“巨头的游戏”。

训练场的角色,正是一个“共享校园”。

它面向全行业开放,让机器人企业可以共用场景、共摊成本。目前,训练场已联合浙江大学以及云深处科技、灵心巧手、地平线、星动纪元等30余家国内人工智能领军企业,让芯片、本体、算法等不同环节的企业在同一平台上协同创新,打破“数据孤岛”。

一场竞赛,全国竞速培养机器“打工人”

2026年开年,具身智能赛道热得发烫。多家投融资统计平台数据显示,今年前两个月,行业已披露的融资总额接近150亿元,国家大基金首次出手,现身银河通用机器人新一轮融资。

政策层面的信号更为清晰。今年全国两会上,“具身智能”被明确列为未来产业之一,与未来能源、量子科技、脑机接口、6G等并列写入政府工作报告。报告同时首次提出“打造智能经济新形态”,强调“促进新一代智能终端和智能体加快推广”“建设高质量数据集”。

一边是资本狂飙,一边是顶层设计定调。喧嚣之下,一个更现实的问题摆在各地面前:人工智能浪潮奔涌的当下,各地该如何抓住具身智能这个风口?

记者梳理公开资料发现,北京、上海、天津、郑州、广州、无锡、青岛等多个城市已陆续建成规模化、专业化的训练场。

北京人形机器人创新中心打造的具身智能数据训练基地。图源:北京亦庄微信公众号

从全国版图看,产业分工已初现雏形。北京依托高校院所,侧重基础科研;上海聚焦标准制定,打造产业生态;深圳发挥供应链优势,发力硬件应用;杭州立足数字经济与智造基底,打造数据采集与场景验证标杆。更多的城市则结合本地制造业基础,深耕垂直场景。

训练场建起来了,但机器人能不能真正干活,是另一回事。从“实验室炫技”到“真实世界干活”,这道鸿沟横亘在所有企业面前。一位创业者坦言,相比去年,今年投资人会非常现实地追问你的落地场景和转化率。

场景从哪来?答案是开放。珠海今年1月发布首批22个具身智能应用场景清单,覆盖巡检、安防、工业、智能服务、文旅导览五大领域,全部源自一线真实需求。珠海科技产业集团负责人表示,将构建“智能基座+垂类应用+场景落地”的产业生态体系,让更多技术创新有场景可试、有市场可闯。

珠海具身智能应用创新生态发布会现场。图源:界面新闻

光有场景还不够。如果各家数据各唱各的调,机器人永远学不会“说同一种语言”。

全国政协委员、天娱数科董事长贺晗在今年两会的提案中强调,当前国内各研究机构和企业的数据采集平台、传感器接口、数据格式各自为战,形成了大量“数据孤岛”。他建议启动国家级“具身数据要素工程”,建设若干“国家级具身智能数据采集与预训练中心”,把格式统一起来,让数据能在企业间、平台间跑起来。

这与今年2月工信部最新发布的《人形机器人与具身智能标准体系(2026版)》形成呼应——通过统一接口、性能与测试规范,推动上游零部件模块化、通用化发展,打破不同厂商产品的兼容壁垒。

从实验室展示到真实场景应用,具身智能仍在跨越一道漫长的门槛。无论是训练数据、硬件成本还是行业标准,许多基础问题仍待解决。但在资本、政策与产业需求的共同推动下,一个更现实的问题已经摆在企业和城市面前:谁能率先让机器人在真实世界中稳定、持续地干起活来。

那些还在“上学”的机器人,总有一天会毕业。到那时候,它们或许不会再出现在春晚舞台上——因为它们已经是生活里的一部分,就像手机、汽车一样平常。

来源:潮新闻