2026-05-21 23:36:56
5月20日,京東宣布全國(guó)首個(gè)具身智能數(shù)據(jù)采集社區(qū)在宿遷運(yùn)行,采集員多為社區(qū)居民,月收入3000元到3500元不等。除社區(qū)外,京東還設(shè)有零售商超、物流倉(cāng)儲(chǔ)等場(chǎng)景的數(shù)據(jù)采集區(qū)域。多場(chǎng)景數(shù)據(jù)采集旨在提高模型泛化能力。當(dāng)前具身智能賽道深陷“數(shù)據(jù)荒漠”,京東等已開(kāi)始數(shù)據(jù)采集工作,誰(shuí)積累足夠數(shù)據(jù),誰(shuí)就可能搶占未來(lái)主動(dòng)權(quán)。
每經(jīng)記者|王郁彪 每經(jīng)編輯|許紹航
5月的宿遷室外氣溫雖不算太高,但面積不大的制衣廠廠房?jī)?nèi)還是有些熱。工人們正趕著新一批的貨,她們中有幾個(gè)人頭戴相同的黑色設(shè)備,這是用來(lái)采集訓(xùn)練具身智能模型數(shù)據(jù)的儀器。經(jīng)過(guò)上傳、清洗、質(zhì)檢、標(biāo)注等流程后,合格的數(shù)據(jù)會(huì)輸入具身智能模型,讓模型更加理解真實(shí)的物理世界。

圖:工人頭戴數(shù)據(jù)采集設(shè)備工作,來(lái)源:每經(jīng)記者 王郁彪 攝
今年年初,京東曾宣布,將發(fā)動(dòng)內(nèi)部超10萬(wàn)名各類職業(yè)員工,以及外部最多50萬(wàn)各行業(yè)人員,同時(shí)在宿遷發(fā)動(dòng)超10萬(wàn)市民,參與具身智能數(shù)據(jù)采集工作。希望在兩年內(nèi)積累超1000萬(wàn)小時(shí)人類真實(shí)場(chǎng)景視頻數(shù)據(jù)。5月20日,京東宣布全國(guó)首個(gè)具身智能數(shù)據(jù)采集社區(qū)已在宿遷運(yùn)行。
對(duì)制衣廠的工人們來(lái)說(shuō),目前數(shù)據(jù)采集的工作相對(duì)輕松,還能獲得一定的收入。在宿遷,數(shù)采工作的主力軍還有寶媽等居家群體。其一日的任務(wù)量是完成6個(gè)小時(shí)數(shù)據(jù)的采集,他們將日常做家務(wù)的動(dòng)作記錄下來(lái),整體每月收入在3000元到3500元不等。
機(jī)器人真正想要走向產(chǎn)業(yè)化,用于負(fù)責(zé)感知、決策和執(zhí)行的“大腦”能力的突破是關(guān)鍵,這已是行業(yè)共識(shí)。然而“大腦”的訓(xùn)練需要燒掉海量數(shù)據(jù)燃料。為了具身智能數(shù)據(jù)大廈的落成,有人已經(jīng)開(kāi)始在造“磚”了。
具身數(shù)據(jù)采集社區(qū)位于宿遷市湖濱新區(qū)。從今年4月數(shù)據(jù)采集社區(qū)試運(yùn)行以來(lái),有不少社區(qū)居民報(bào)名參與。《每日經(jīng)濟(jì)新聞》記者了解到,采集員經(jīng)過(guò)專業(yè)技術(shù)人員培訓(xùn)后,在日常家務(wù)過(guò)程中就能完成數(shù)據(jù)采集工作。
正常進(jìn)行擦桌子、疊衣服、整理收納、地面清潔等勞動(dòng)時(shí),他們只需頭戴京東自研的JoyEgoCam采集終端即可獲取上肢軌跡、力度分布、人與家居環(huán)境的交互關(guān)系等關(guān)鍵參數(shù)。
通過(guò)可穿戴設(shè)備,普通人也可以在工廠、物流、零售、醫(yī)療以及家庭等環(huán)境中完成數(shù)據(jù)采集,從而降低數(shù)據(jù)采集門檻,拓展采集場(chǎng)景。這也是當(dāng)下行業(yè)共同的解決方案。
一位居家采集人員告訴每經(jīng)記者,數(shù)采機(jī)會(huì)配備內(nèi)存卡,內(nèi)存卡儲(chǔ)滿數(shù)據(jù)需要6個(gè)小時(shí)的采集工作。月收入在3000元到3500元,多勞多得。除數(shù)采人員外,衍生出來(lái)的還有數(shù)據(jù)標(biāo)注師、模型訓(xùn)練師等。
采集回來(lái)的數(shù)據(jù)需要經(jīng)過(guò)上傳、清洗、質(zhì)檢、標(biāo)注、訓(xùn)練、驗(yàn)證等流程,最終成為“數(shù)據(jù)燃料”,輸入到具身智能模型中。
每經(jīng)記者注意到,除社區(qū)外,京東具身智能數(shù)據(jù)采集中心內(nèi),還設(shè)有零售商超、物流倉(cāng)儲(chǔ)等場(chǎng)景的數(shù)據(jù)采集區(qū)域,相對(duì)居家等場(chǎng)景,產(chǎn)線上的數(shù)據(jù)采集工作需要一定的專業(yè)度,需要操作更復(fù)雜的設(shè)備,更全面的記錄視覺(jué)、觸覺(jué)、空間軌跡等全維度數(shù)據(jù)。

圖:京東機(jī)器人數(shù)據(jù)采集中心,來(lái)源:每經(jīng)記者 王郁彪 攝
京東具身智能數(shù)據(jù)采集負(fù)責(zé)人告訴每經(jīng)記者,這些數(shù)據(jù)采集完成后,經(jīng)過(guò)完整的數(shù)據(jù)清洗,形成可用的數(shù)據(jù)集,用來(lái)做模型預(yù)訓(xùn)練。相關(guān)模型借助這些數(shù)據(jù)完成學(xué)習(xí)后,初步具備執(zhí)行各類任務(wù)的泛化能力。最后再把模型搭載到機(jī)器人本體后,機(jī)器人依靠模型推理能力,去執(zhí)行各類不同任務(wù)。
除社區(qū)居家場(chǎng)景外,每經(jīng)記者還實(shí)地探訪了宿遷的康養(yǎng)中心、果園等。在養(yǎng)老院,采集員記錄協(xié)助老人起身、喂藥、康復(fù)訓(xùn)練等照護(hù)動(dòng)作,為服務(wù)機(jī)器人提供人類照護(hù)行為樣本。
果園內(nèi),每經(jīng)記者了解到,其采集內(nèi)容覆蓋果蔬采摘的手眼協(xié)調(diào)軌跡、農(nóng)具握持與操作的力學(xué)數(shù)據(jù)、田間不規(guī)則地形下的行走與避障動(dòng)作等,以適應(yīng)農(nóng)業(yè)作業(yè)的復(fù)雜環(huán)境等特征。
制衣廠的采集員則在縫紉、裁剪、質(zhì)檢等工位作業(yè),記錄手部精細(xì)操作、多工位流轉(zhuǎn)等數(shù)據(jù),為工業(yè)柔性操作模型提供小樣本、高精度、可復(fù)用的訓(xùn)練素材。
那么,具身智能模型的訓(xùn)練究竟需要什么樣的數(shù)據(jù)?
具身智能公司帕西尼數(shù)采負(fù)責(zé)人對(duì)每經(jīng)記者表示,數(shù)據(jù)收集需要多場(chǎng)景數(shù)據(jù)的支撐。多場(chǎng)景的數(shù)據(jù)收集、植入訓(xùn)練的是模型的泛化能力。就是當(dāng)你告訴機(jī)器人去做任務(wù)A、B、C的時(shí)候,它通過(guò)對(duì)A、B、C數(shù)據(jù)的學(xué)習(xí),哪怕它之前沒(méi)有做過(guò)D任務(wù),但是經(jīng)過(guò)模擬訓(xùn)練之后,D任務(wù)也能做。
“我們之前拿到了京東的視覺(jué)EGO數(shù)據(jù)集(EGO數(shù)據(jù)集是指多個(gè)以?第一人稱視角?為核心的視頻數(shù)據(jù)集集合)之后,配合我們(機(jī)器人)觸覺(jué)的數(shù)據(jù)收集,對(duì)人類的日常工作模塊進(jìn)行了補(bǔ)齊?!彼硎尽?/p>
此外,對(duì)于具身智能數(shù)據(jù)采集,他認(rèn)為最重要的有兩點(diǎn),一是需要覆蓋到人類的感知層面,二是在數(shù)據(jù)收集時(shí)維持人類原本的意圖?!拔覀?cè)谑占臅r(shí)候不以收集為目標(biāo),而是記錄人類以當(dāng)前意圖去完成這個(gè)任務(wù)時(shí),他做出的所有動(dòng)作。雖然我們看到的數(shù)據(jù)是動(dòng)作,但實(shí)際上更深層次,需要訓(xùn)練模型理解做這個(gè)任務(wù)時(shí)人類的行為和意圖。”他進(jìn)一步表示。
覓蜂科技董事長(zhǎng)兼CEO(首席執(zhí)行官)、智元機(jī)器人合伙人姚卯青此前公開(kāi)表示,訓(xùn)練類似ChatGPT-5級(jí)別的系統(tǒng)所需語(yǔ)料達(dá)百億小時(shí)量級(jí),而具身智能可用數(shù)據(jù)僅在50萬(wàn)小時(shí)量級(jí),規(guī)模差距懸殊,還存在標(biāo)準(zhǔn)缺失、質(zhì)量不一、供需錯(cuò)配等問(wèn)題。

圖:機(jī)器人訓(xùn)練場(chǎng)景,來(lái)源:每經(jīng)記者 王郁彪 攝
與大語(yǔ)言模型相比,具身智能的數(shù)據(jù)積累無(wú)疑還處于早期階段。每經(jīng)記者此前也從京東方面了解到,其認(rèn)為具身智能要達(dá)到真正可用,至少需要1000萬(wàn)小時(shí)級(jí)別的真實(shí)場(chǎng)景交互數(shù)據(jù)。然而,當(dāng)前行業(yè)數(shù)據(jù)規(guī)模僅約100萬(wàn)小時(shí),數(shù)據(jù)缺口高達(dá)10倍。
融資規(guī)模不斷被刷新,量產(chǎn)步伐全面提速,市場(chǎng)規(guī)模水漲船高,一年比一年熱鬧的具身智能賽道,卻深陷“數(shù)據(jù)荒漠”困境,這背后必然有很多不可控因素。如今,京東、智元等已經(jīng)開(kāi)始做具身智能數(shù)據(jù)的采集工作。數(shù)據(jù)采集完成后,這些數(shù)據(jù)如何真正融入機(jī)器人的“大腦”?
京東具身智能相關(guān)負(fù)責(zé)人告訴《每日經(jīng)濟(jì)新聞》記者,底層硬件設(shè)備完成物理世界真實(shí)數(shù)據(jù)采集后,需要被送至“工具層”,可以理解為用一個(gè)“工具箱”進(jìn)行數(shù)據(jù)處理、模型訓(xùn)練以及仿真評(píng)測(cè)等。
“再往上就是模型層,也就是所謂的‘大腦’,包含VLA模型(視覺(jué)—語(yǔ)言—?jiǎng)幼髂P停?、VLN模型(視覺(jué)—語(yǔ)言導(dǎo)航)、世界模型等核心能力。最頂層就是應(yīng)用層,就是這些技術(shù)最終落地的場(chǎng)景,比如家政服務(wù)、物流配送、醫(yī)療輔助、零售服務(wù)、工業(yè)制造等?!痹撠?fù)責(zé)人透露。
機(jī)器人如何在物流、家庭、工業(yè)等現(xiàn)實(shí)場(chǎng)景中真正“落地生根”并發(fā)揮作用?這仍是一個(gè)需要無(wú)數(shù)機(jī)器人整機(jī)企業(yè)、具身智能數(shù)據(jù)公司反復(fù)探索并傾注全部心血去解答的課題與過(guò)程。這場(chǎng)關(guān)于具身智能基礎(chǔ)設(shè)施的競(jìng)賽沒(méi)有終點(diǎn),誰(shuí)先打通道路、積累足夠的數(shù)據(jù)“燃料”,誰(shuí)就更有可能在機(jī)器人“大腦”時(shí)代的賽跑中,搶占未來(lái)十年的主動(dòng)權(quán)。
封面圖片來(lái)源:每經(jīng)記者 王郁彪 攝
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
瞄準(zhǔn)未來(lái)產(chǎn)業(yè),成都落下量子科技產(chǎn)業(yè)版圖關(guān)鍵一子
當(dāng)AI深度重塑經(jīng)濟(jì)增長(zhǎng)模式,我們?nèi)绾胃谩榜{馭”它?
蓉光閃耀,聚愛(ài)同行!150余場(chǎng)全國(guó)助殘日活動(dòng)開(kāi)啟成都美好初夏
對(duì)話柏林駐華商務(wù)聯(lián)絡(luò)處首席代表李怡燃:中德經(jīng)貿(mào)合作向好,雙方企業(yè)攜手開(kāi)發(fā)第三市場(chǎng)將是新趨勢(shì)
對(duì)話謝菲爾德外事負(fù)責(zé)人尼克·漢密爾頓:百聞不如一見(jiàn),成都和謝菲爾德有許多相似的地方
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP