不久前,年僅 18 歲的創業者 Eddy Xu 在社交媒體上宣布,其創辦的 Build AI 正式開源 Egocentric-10K 數據集,這是一個包含 10,000 小時第一人稱視角視頻的數據集,記錄了 2,153 名工廠工人在真實車間環境中的實際操作場景。數據集總容量達 16.4 TB,包含超過 10.8 億幀畫面,已在 Hugging Face 平臺發布,采用 Apache 2.0 許可證,允許商業使用和修改。
圖片
圖丨相關推文(來源:X)
Eddy Xu 在推文中寫道:“歷史上最大的第一人稱視角數據集,機器人學習的數據擴展時代已經到來。”
Egocentric-10K 的視頻全部來自真實工廠車間,而非實驗室環境。工人們佩戴頭戴式攝像設備,在日常工作中記錄下從零件加工、分揀、組裝、包裝到檢驗的完整流程。數據統計顯示,96.42% 的工作涉及至少一只手的操作,76.34% 需要雙手協同,91.66% 包含主動的物體操縱動作。這些數字明顯高于此前公開的同類數據集——例如 Ego4D 的手部可見率為 67.33%,EPIC-KITCHENS 則為 90.37%。
圖片
圖丨與其他數據集的比較(來源:X)
視頻以全高清 MP4 格式存儲,按工廠和工人分類組織。每個視頻片段都附帶 JSON 格式的元數據,包括工廠編號、工人編號、視頻時長、分辨率、幀率等信息。數據集采用 WebDataset 格式,支持流式加載和部分下載,研究者可以根據需要選擇特定工廠或工人的數據進行訓練。
Build AI 的創始人 Eddy Xu 的成長軌跡相當傳奇。2021 年,還在讀初三的他就帶領 Great Neck 的機器人團隊 1569A OMEGA 參加 VEX 機器人世界錦標賽,在 2 萬支參賽隊伍中獲得第 32 名。這支隊伍在隊員家的地下室里運營,沒有家長或專業教練指導,也沒有資金贊助。
圖片