B体育官方网站首页入口

你的位置:B体育官方网站首页入口 > B体育 > B体育 对标英伟达EgoScale数据旅途,清华系孵化星忆科技拿到首轮融资
B体育 对标英伟达EgoScale数据旅途,清华系孵化星忆科技拿到首轮融资
发布日期:2026-03-29 09:40    点击次数:110

B体育 对标英伟达EgoScale数据旅途,清华系孵化星忆科技拿到首轮融资

文|任倩

具身数据层的寰球竞赛正在赶快升温。NVIDIA Research 在 2026 年发布 EgoScale 数据与锤真金不怕火框架,在 Ego-centric 东说念主类操作视频上锤真金不怕火 VLA 模子,用 20,854 小时带动作标注的第一东说念主称东说念主类视频,不雅察到数据边界和考证耗费之曲折近对数线性的 scaling law。1X 集聚东说念主类第一视角及家庭举止数据,通过 Sunday 神气采集百万小时级家庭场景视频。光轮智能给与仿真合成数据和东说念主类视频数据(EgoSuite)的夹杂阶梯,声称累计录用冲破 100 万小时,估值飙向十亿好意思金。

几个月内,行业矜恤点已不再仅仅"谁采得更多",而是"谁能把 Human-centric /Ego-centric 数据简直作念成高目田度、高精度、低成本、可锤真金不怕火的钞票"。

这背后是一场明确的数据范式挪动。以前一年,寰球头部玩家险些同期把眼神转向 Human-centric data:不是更大边界的第三东说念主称素材,也不仅仅好意思丽而稀缺的真机遥操作,而是更接近东说念主类确实操作散播的数据。而其中 Ego-centric ——以东说念主类第一视角、确什物理交互和多模态感知为中枢——正赶快成为最要害的一条采集阶梯。

原因在于,机器东说念主最终要学会的,不是看懂宇宙,而是在确什物理宇宙里把动作作念对。第三东说念主称视频短少构兵与限制细节,仿真难以竣工隐敝确什物理长尾,纯遥操数据又好意思丽且稀缺。简直稀缺的,是一种既充足确实、又充足概括,同期还能被边界化坐褥并被模子告成消化的数据。就在这一拐点上,一家遴选从多模态交融与穿着式高精度采集切入这一难点的公司,驱动浮出水面。

「暗涌 Waves」独家获悉,聚焦 Ego-centric 数据采集的创业公司星忆科技完成千万级首轮融资,由清华系水木创投领投,泉士本钱行为孵化方历久为公司提供产业及本钱援救,并参与本轮投资;神州通誉系钥卓本钱、资深产业天神团队等跟投。Maple Pledge 枫承本钱历久出任公司私募股权融资照顾人。

星忆科技孵化自清华大学筹算机系,首创东说念主宋知珩曾任智元机器东说念主全尺寸双足东说念主形整机居品崇拜东说念主,并崇拜关连数采与遥操体系栽种;在此之前,他是镁伽机器东说念主前 20 号职工,建立翻新利用职业部并担任居品崇拜东说念主,携带研发团队五次完成 0 到 1 新址品开发,牵头研发从双臂合营机器东说念主到桌面级智能诱导,终了公司首个万台量产与过亿营收。

若是说 human-centric/ego-centric 数据正在成为具身智能的新地基,那么星忆最隆起的场所,不仅仅押中了标的,而是它恰好把这一标的最难接皆的几段链路放进了磨灭个组织里。其中枢成员隐敝具身数据、模子、穿着诱导、复杂系统与数据工程等要害法子,造成了"数据—模子—居品—生意化"皆接的材干结构。

团队技术班底来自清华、北航等高校,同期吸纳了埃夫特、海康威视等资深产业众人,在具身智能、多模态感知、三维手部和会、编造现实、东说念主机交互与筹算机视觉等标的均有历久征询,累计在 CVPR、ICCV、ECCV、NeurIPS、IJCAI 等外洋顶级会议和期刊发表论文 70 余篇,承担多项国度级科研神气。

对标英伟达 EgoScale 技术旅途,星忆构建的是面向具身智能与宇宙模子的数据采集软硬件体系。其互异化在于:不作念二指夹爪式 UMI 阶梯,而是作念高目田度基础上的高精度;不单采集视觉,而是同期交融视觉、触觉与姿态;不单提供器用,而是试图买通从采集到锤真金不怕火的竣工闭环。

宋知珩认为,简直有价值的真机数据,不是谁采得多,而是谁能同期欢快五个条目:确实、精确、高目田度、低成本、可锤真金不怕火。在他看来,星忆面前最隆起的上风聚首在精度与目田度两头,而低成本与可锤真金不怕火性则决定这条阶梯能否简直走向边界化。

前不久,「暗涌 Waves」在北京中关村见到了宋知珩和星忆自研的多模态数据采集穿着诱导,他和咱们聊了聊数据集采技术阶梯的根分内歧、毫米级姿态标注的难点以及从数据供应商到物理宇宙接口的漫漫长路。

以下为对话——

Part01

从采得多到采得准

「暗涌」:作念数据的公司相配多,也有融资体量比你们大许多的,星忆科技的定位是什么?

宋知珩:咱们是具身智能的物理数据基础法子。通过自研的高精度穿着诱导与数据引擎,将东说念主类小巧的"坐褥力素养"滚动为机器东说念主可学习的"数字养料"。

中枢只好一件事:让机器东说念主具备在确实复杂的宇宙中完成概括操作的材干。不是让机器东说念主舞蹈,而是让它能像外科医师相同抓稳手术刀。

「暗涌」:为什么遴选在此时此刻、从数据这个法子切入创业?你在智元看到了什么?

宋知珩:我在智元担任全尺寸双足东说念主形整机居品崇拜东说念主,也崇拜数采与遥操。咱们概况明晰地看到,通盘行业卖得最多的场景仍然是展厅、商演、科研、数采,很难造成可复制的坐褥力闭环。

中枢卡点即是高质料的确实数据不及:模子既短少对物理宇宙的有用表征,也短少可挪动的操作先验,而咱们作念的,即是补这一层。从外部看,咱们是对标 EgoScale;从咱们里面看,这是很早就造成的一条判断:具身智能最终缺的,不仅仅模子和实质,要害是建立最高效的数据旅途。英伟达把这条阶梯公开作念热,也证明这正在成为行业共鸣。

「暗涌」:为什么 EgoScale 这样火爆?为什么具身实质公司都在积极矜恤这条技术阶梯?EgoScale 框架到底相当在那边,冲破点又是什么?

宋知珩:EgoScale 之是以赶快走红,中枢在于它考证了一条相配有劝诱力的旅途:通过超大边界的东说念主类第一视角数据,终了从东说念主类举止到机器东说念主操作材干的高效挪动。这件事对具身智能相配弥留,因为以前机器东说念主锤真金不怕火历久受限于真机数据好意思丽、采集慢、隐敝场景有限,永恒难以简直作念大边界。

EgoScale 的冲破,在于它不是节略堆数据,而是构建了一套更系统的锤真金不怕火框架。通过分阶段锤真金不怕火,它先从海量东说念主类第一视角操作数据中学习通用的举止先验,再进一步向机器东说念主动作空间挪动,权贵升迁了机器东说念主在聪敏操作任务中的得胜率。这样的设想,使它有契机冲破传统"小样本、重遥操作、强依赖实质数据"的甩掉。

更要害的是,这条阶梯自然适配具身行业面前最中枢的诉求:一方面,东说念主类数据比机器东说念主数据更容易边界化获取;另一方面,这种框架对于不同形态、不同目田度的机器东说念主实质都具备较强的泛化后劲。对于实质公司来说,谁能更高效地取得可挪动、可膨胀、可复用的数据和锤真金不怕火范式,谁就更有契机不才一阶段的材干竞争中占据先机。这亦然为什么通盘行业都在高度矜恤 EgoScale。

「暗涌」:你们和 EgoScale 有区别吗?在那边?

宋知珩:有的,咱们不仅有更多的模态,触觉对于概括操作是必不可少的,同期咱们对场景有着更高的兼容性,不局限在实验室,是 EgoScale in the wild,对场景险些无拘谨,概况告成在确实的坐褥场景中佩带咱们的诱导采集,这对于算法和穿着满足性都是更高的挑战。

星忆 EgoKit 多模态数采套件及星忆 HBR Engine 数据引擎|图片开始:企业供图

「暗涌」:若何和会"宇宙顶尖"?

宋知珩:决定上限的,不仅仅模子参数,而是 teacher signal 的质料:多模态采集、细粒度手部和会和高精度标注,这些才是高质料具身数据的第一性。思象一下,若是示范动作自己存在抖动、偏移和时序差错,模子学到的不会是材干,而是差错。

东说念主体姿态预计许多时间是厘米级问题,手部则往往要投入毫米级:要津点更密、庇荫更多、手物构兵更复杂,技术难度不是线性增多,而是成倍高涨。

也正因此,手部和会是具身数据里最难的一层之一,是 L4-L5 级别的技术,咱们正巧有寰球最佳的这方面材干,而东说念主体姿态是 L2,咱们把这一层作念深作念透的基础上,进取再膨胀到上肢乃至全身,旅途反而更顺。

「暗涌」:为什么一定要作念多模态交融(视觉 + 触觉 + 姿态),单纯视觉不够吗?大模子不是还是能看懂宇宙了吗?

宋知珩:不是模子不够明智,而是它从来莫得简直"触摸"过确实宇宙。概括操作至少需要三类信息:三维视觉、体魄姿态,以及触觉。

三维视觉告诉你物体在那边,姿态告诉你手和臂是若何到达那里的。而简直投入构兵一会儿后,决定成败的往往是触觉:有莫得构兵、是否打滑、该用多骄贵、什么时间该收力。触觉提供的是构兵景色、摩擦变化和微滑移信息,它是视觉的相当,亦然力控的早先。

「暗涌」:据说你们能作念到戴手套情况下的手势识别,这很难吗?Meta 和 Apple 不是也在作念?

宋知珩:极难。Meta 用肉色手套,践诺上如故让模子把它当成"更粗壮的东说念主手"来识别。咱们不错用玄色手套,模子能在特征空间里识别出这是手,并精确分解姿态。Apple 的手势技术很强,但公开阶梯仍以裸手交互为主。

为什么这弥留?因为触觉最当然的载体即是手套,BSports若是不行在穿着景色下清醒完成手部和会,就没法把视觉、触觉和姿态简直交融起来。这背后难的不仅仅识别自己,而是多模态系统要在精度、时延和成本之间同期栽种。

「暗涌」:你们提到"毫米级标注",具体能达到什么精度?成本比较传统时势如何?

宋知珩:敌手部这样高密度、强庇荫的任务来说,传统东说念主工标注和通用开源算法都很难同期兼顾精度与一致性。咱们概况在长序列、强构兵条目下,把数据引擎的标注材干清醒推到毫米级,何况比东说念主类众人的标注材干具备更强的一致性。

成本上,东说念主工标注一秒钟视频(30 帧)三个视角,哪怕 0.1 元标一张图也要 3 块钱一秒,一分钟 180 块。咱们弘远的标注引擎,成本是传统东说念主工的几百分之一,但精度更高。这即是"低成本 + 高质料"的双飞轮。

「暗涌」:为什么不作念仿真数据?英伟达不是也在推仿真到现实的挪动?

宋知珩:仿真在预锤真金不怕火、战术搜索和并行试错上很有价值,但一朝投入确实宇宙的复杂构兵,sim-to-real gap 依然权贵。

比如,把一根像面条相同会弯、会回弹、会打滑的柔性排线,准确插进毫米级接口并一次完成扣合,这类任务波及构兵、形变、摩擦、庇荫和畅通响应修正,很难在仿真中被竣工回应。英伟达推动 sim-to-real,标的固然是对的,但践诺不是"用仿真替代确实",而是让仿真更接近确实,仍需大都确实数据连接对皆和校准。

咱们判断,简直有价值的真机数据要同期欢快五个条目:确实(物理交互)、精确(概括操作)、高目田度(泛化性)、低成本(可边界化)、可锤真金不怕火(圭表化处理)。五个条目不可偏废,仿真数据在"确实"这一关就过不了。

「暗涌」:你们的数据采集经由具体是怎么的?若何保证低成本?

宋知珩:传统真机遥操需要租场合、买诱导、雇东说念主,成本极高。

咱们是一个流式过程:采集员或工东说念主佩带咱们的穿着套件在确实产线或场景操作,数据引擎及时捕捉视觉、触觉、位置、轨迹,并进行毫秒级对皆,造成可进一步张量化的多模态锤真金不怕火数据。随后,咱们的离线器用链会自动进行"毫米级标注",过滤无效噪声,造成不错告成用于具身模子锤真金不怕火的高质料数据。

「暗涌」:确实环境不可控,如何保证数据质料和安全性?数据会开源吗?

宋知珩:咱们有一套内嵌的"质料审计引擎",自动剔除抖动、丢帧和逻辑分歧理的动作。对于开源,星忆有明确的节拍:咱们将会在本年陆续开源 1000 至 10000 小时的高精度数据集。咱们认为,具身智能的茁壮不行靠"闭关锁国",咱们要推动行业共建地基。

「暗涌」:你提到过两个"金字塔"——一个是机器东说念主材干的金字塔,一个是数据的金字塔。它们诀别意味着什么?星忆科技切入的是哪一层?

宋知珩:咱们里面照实会用两个"金字塔"来和会具身智能。

第一个是材干金字塔:从下往上,实质是底座,其上是通顺智能,再往上是融会智能;而融会智能若是连续拆分,又不错分红交互智能和功课智能。前者处置"能不行听懂、会不会抒发",后者处置"能不行在确什物理宇宙里完成有主义、有拘谨的操作任务"。简直决定具身系统上限的,是功课智能这一层。

第二个是数据金字塔,底层是互联网数据,边界最大,提供语义和知识先验;再往上是仿真 / 合成数据,合乎预锤真金不怕火、战术搜索和并行试错;再往上是以第一东说念主称东说念主类数据为代表的多模态确实数据;最顶层则是真机遥操数据。越往上,数据量越小,但越接近确实任务、确实构兵和确实限制闭环。

数据金字塔|图片开始:企业供图

越往上走,数据越少,但价值密度越高。行业今无邪正缺的,不是又一层大而泛的数据,而是能投入复杂构兵、又能被模子有用消化的高质料确实数据。

Part02

从数据供应商到物理宇宙接口

「暗涌」:你们跟其他作念数据采集的公司比如作念 UMI(通用操作接口)的、作念真机遥操的,践诺区别是什么?

宋知珩:UMI 阶梯的弥留酷好,在于线路了东说念主类演示不错成为机器东说念主学习的弥留进口;DexUMI 这类责任又把这条阶梯往更高目田度激动了一步。

但星忆和这类阶梯的区别,不在于是否定同这个标的,而在于主义函数不同:它们优先处置的是低门槛、可挪动、可膨胀;而星忆优先处置的,是在高目田度前提下,把视觉、触觉、姿态这些决定概括操作上限的信号,简直采全、采准、采成可锤真金不怕火的数据钞票。 

咱们认为二指夹爪是工业化留传的产物,只可在特定场景高效完成特定任务,但 AGI 要求泛化材干——用一套实质在复杂物理宇宙作念多样操作。这要求终局扩充器具备高目田度。咱们不作念二指夹爪,作念"高目田度基础上的高精度"。东说念主手有 21 个目田度,UMI 的二指夹爪拿不稳手术刀,也按不了打火机,但高目田度的聪敏手不错。 

星忆与这类阶梯的区别,不在于能不行低成本采到数据,而在于能否在更高目田度前提下,把精度、可锤真金不怕火性和边界化同期作念出来。 

「暗涌」:是以你们的居品和工作亦然 tob 的。

宋知珩:是的。旅途相配明晰:第一步,工作于高校和顶级实验室(科研需求),也包括数采厂;第二步,切入机器东说念主实质和模子厂商(锤真金不怕火需求);第三步,触达最终场景方(落地需求)。咱们要建立一个从数采器用到在线引擎再到场景落地的竣工生意闭环。售卖穿着硬件和数据集,这是两类圭表居品。对于只思快速升迁模子锤真金不怕火后果的客户,不错告成买制品数据集,咱们有相应的技术援救,不错快速地匡助客户完成对应的模子锤真金不怕火。

「暗涌」:清华系和华为系都在作念具身,你们若何界说我方的私有性?会不会合计你们只作念数据,穷苦端到端的材干?

宋知珩:华为系更擅长从通讯、工程体系和底层架构去和会系统。咱们不节略归结为派别互异,要害在于如何界说具身智能里最难、最稀缺的问题。

实质不错买,算法不错跑开源,但具备真机响应的高精度高质料动作数据是买不到的。它瑕瑜圭表化的、强依赖物理响应的。咱们要把这种最难边界化的"工匠本事"数字化、圭表化,让它能像自来水相同供应给整个大脑厂商。

「暗涌」:数据边界的天花板有多高?有东说念主说需要百亿条数据,有东说念主说 10 亿条就够了,你若何看?

宋知珩:这是一个效用问题。作念模子的东说念主思减少数据需求,作念数据的东说念主思提高质料和边界,最终会在中间 match。

早期学界认为需要百亿到千亿条,也即是一亿到十亿小时,咱们认为最终会落在一亿小时这个量级。但这一亿小时不是"加权平均",而是最高质料的数据——就像东说念主类基因花了四五亿年演化,预锤真金不怕火大模子需要这些高质料数据造成"具身基因",然后再通过真机强化学习升迁特定任务材干。

「暗涌」:有东说念主说机器东说念主行业的尽头是国度级数据基础法子,你招供吗?你们会站队吗?

宋知珩:与其说是站队,不如说是抱团。这个行业很难单打独斗,需要国度队、产业生态一齐打造。

「暗涌」:你判断具身智能什么时间能简直落地?星忆在这个过程中饰演什么脚色?

宋知珩:3 年进工场,5 年进家庭。

工场指特定场景的单一任务,通过真机强化学习提高正确率到 99% 以上;家庭指不同环境,需要模子具备泛化材干,同期又有安全、逃匿等方面的要求。当今行业举座仍处于 POC 阶段,纯端到端有筹画的准确率常常只好 70% – 80%,尚不及以相沿清醒落地,仍需依赖东说念主工监督或 rule-based 机制进行兜底。

在寰球具身智能疆域中,Physical Intelligence 和 Generalist 更聚焦模子与通用战术的表层冲破,而星忆切入的,是更难被替代的一层:以高质料、边界化的确什物理数据蓄积,界说 AGI 时间的通用举止接口。

「暗涌」:你们的团队树立很跨界——清华学术配景、智元和镁伽量产素养,这种组合如何滚动为竞争力?

宋知珩:许多东说念主把具身智能和会成模子、硬件或场景的单点竞争,但更底层的竞争,是把确实宇宙素养滚动为机器东说念主材干的系统效用竞争。咱们团队简直的竞争力,在于将学术、工程和产业最难接上的链路,在团队里面充分买通:咱们既懂确实宇宙素养如何被采集、对皆、表征并千里淀为可锤真金不怕火钞票,也懂模子如何基于这些钞票完成学习,并在确实场景中连接考证、校准和回流。

单点材干不错补,闭环材干很难长出来。下一阶段具身智能简直拉开差距的,不是谁能作念出一个更亮眼的模子、一个更好的硬件,或者一个更能传播的 Demo,而是谁能最初把高圭表数据钞票的边界化坐褥材干建立起来B体育,并把它作念成一套从确实宇宙连接学习、连接回流、连接长出材干的系统。谁先把这套系统作念出来,谁才更有契机界说下一阶段具身智能的产业旅途。

极速飞艇pk10官网入口