驚人的場景: AI 人形機器人的震撼
AI 人形機器人與真人互動 (GPT-4 生成)
Figure AI 演示影片
仿梵高風格示意圖 (GPT-4 生成)
根據 OpenAI 開發者論壇上的貼文,OpenAI ChatGPT 加上機器人等於Figure 01 (ChatGPT + Robot = Figure 01) 。
在演示影片中, Figure 01 在 ChatGPT支援下,不僅會看會聽還能夠和人類進行自由的對話,既能識別出靜態物體,還能判斷人類動作。在持續的多輪對話中,Figure 01 展現出其在上下文回溯、推理、多工處理等方面的能力。
在場景中一個真人 (A 君) 與機器人隔桌而立。機器人的桌前中央盤子上放著一顆蘋果,一個空杯,桌上一旁則有一個烘乾架,上面放著三個盤子與一個倒置的杯子;開始時,
A 君問機器人,「你現在看到甚麼?」
答: 「桌子中央盤子上放著一顆紅色蘋果,桌上一旁則有一個烘乾架,上面放著一個盤子與杯子 (複數) ,同時你站在附近,一 手按在桌上」,
A 君: 「能給我一些東西吃嗎?」
答: 「好的」,接著拿起蘋果遞給A君,
A君將一旁籃子裡的紙團垃圾倒在機器人前桌上,
A 君: 「請解釋你的動作以及為何收拾垃圾」,
機器人將垃圾撿起放回籃子,並答: 「我遞蘋果給你,因為這是我唯一能提供給你的食物」,沒有答有關垃圾的問題,
A 君: 「從你看到的,你面前的盤子應放到哪裡?」
答: 「我面前的盤子與杯子應放到烘乾架中」,
A 君: 「很好,你能放好它們嗎?」
答: 「當然」,接著正確的照作,
A 君: 「好,你認為你的表現如何?」
答: 「我想我做得不錯,我把蘋果遞給你,清好垃圾,杯盤也放到適當位置」,
A 君: 「我同意,謝謝你」,
答: 「不客氣,如你有其他需要幫忙的地方,只要說一聲」,
由以上場景及對話,可見Figure 01聽得懂人類指令並自主決策執行。它能夠做到:1)詳述其周圍環境;2)在決策時運用常識推理。例如,「桌子上的餐具,像那個盤子和杯子,很可能接下來會被放到烘乾架上」;3)將含糊的高級指令,如「「能給我一些東西吃嗎?」,轉化為符合情境的適當行為,比如「遞給A君一個蘋果;4)用簡單的英語解釋為什麼它執行了某個特定的動作。例如,「我遞蘋果給你,因為這是我唯一能提供給你的食物」。
另一方面,從演示視頻中,也可看出AI 機器人尚不夠完美,譬如說機器人的桌前有一個杯子,烘乾架上面放著三個盤子與一個杯子,而機器人的答案沒有提桌上的杯子,認為烘乾架上面只有一個盤子與不只一個杯子,同時沒有答關於垃圾的問題,另外反應稍慢 (約三秒),這可能是傳訊的問題。
根據報導,OpenAI 賦能 Figure 01以視覺推理和語義理解,神經網路演算法快速輸出動作指令。Figure 01 所有行為都是通過學習獲得的(非遙控操作),並且以實際速度(1.0 倍速)執行,Figure 01將攝像頭拍攝的圖像和通過機載麥克風記錄的語音轉錄文本輸入到一個由 OpenAI 訓練的多模態模型中,如GPT-4,這個模型能夠同時理解圖像和文本資訊,Figure 01 機載相機以 10hz 的頻率拍攝畫面,隨後神經網路以 200hz 的頻率輸出 24 個自由度動作(包括腕部姿勢和手指關節角度)。
Figure AI 創立於2022年,總部位於美國加州,是一家致力於研發自主通用人形機器人的初創公司。2023年10月,Figure AI 正式推出 Figure 01 ,Figure 01 身高約 170 cm、體重 60 KG,可實現 20KG的有效載重,移動速度 1.2米/秒,續航達到 5小時。2024年2月底,Figure AI 宣佈完成了 6.75 億美元的B 輪融資,公司估值升至 26 億美元,投資方包括:Microsoft、OpenAI 創業基金、輝達、Jeff Bezos、Parkway Venture Capital、Intel Capital 和 Align Ventures 等。
A 君問機器人,「你現在看到甚麼?」
答: 「桌子中央盤子上放著一顆紅色蘋果,桌上一旁則有一個烘乾架,上面放著一個盤子與杯子 (複數) ,同時你站在附近,一 手按在桌上」,
A 君: 「能給我一些東西吃嗎?」
答: 「好的」,接著拿起蘋果遞給A君,
A君將一旁籃子裡的紙團垃圾倒在機器人前桌上,
A 君: 「請解釋你的動作以及為何收拾垃圾」,
機器人將垃圾撿起放回籃子,並答: 「我遞蘋果給你,因為這是我唯一能提供給你的食物」,沒有答有關垃圾的問題,
A 君: 「從你看到的,你面前的盤子應放到哪裡?」
答: 「我面前的盤子與杯子應放到烘乾架中」,
A 君: 「很好,你能放好它們嗎?」
答: 「當然」,接著正確的照作,
A 君: 「好,你認為你的表現如何?」
答: 「我想我做得不錯,我把蘋果遞給你,清好垃圾,杯盤也放到適當位置」,
A 君: 「我同意,謝謝你」,
答: 「不客氣,如你有其他需要幫忙的地方,只要說一聲」,
由以上場景及對話,可見Figure 01聽得懂人類指令並自主決策執行。它能夠做到:1)詳述其周圍環境;2)在決策時運用常識推理。例如,「桌子上的餐具,像那個盤子和杯子,很可能接下來會被放到烘乾架上」;3)將含糊的高級指令,如「「能給我一些東西吃嗎?」,轉化為符合情境的適當行為,比如「遞給A君一個蘋果;4)用簡單的英語解釋為什麼它執行了某個特定的動作。例如,「我遞蘋果給你,因為這是我唯一能提供給你的食物」。
另一方面,從演示視頻中,也可看出AI 機器人尚不夠完美,譬如說機器人的桌前有一個杯子,烘乾架上面放著三個盤子與一個杯子,而機器人的答案沒有提桌上的杯子,認為烘乾架上面只有一個盤子與不只一個杯子,同時沒有答關於垃圾的問題,另外反應稍慢 (約三秒),這可能是傳訊的問題。
根據報導,OpenAI 賦能 Figure 01以視覺推理和語義理解,神經網路演算法快速輸出動作指令。Figure 01 所有行為都是通過學習獲得的(非遙控操作),並且以實際速度(1.0 倍速)執行,Figure 01將攝像頭拍攝的圖像和通過機載麥克風記錄的語音轉錄文本輸入到一個由 OpenAI 訓練的多模態模型中,如GPT-4,這個模型能夠同時理解圖像和文本資訊,Figure 01 機載相機以 10hz 的頻率拍攝畫面,隨後神經網路以 200hz 的頻率輸出 24 個自由度動作(包括腕部姿勢和手指關節角度)。
Figure AI 創立於2022年,總部位於美國加州,是一家致力於研發自主通用人形機器人的初創公司。2023年10月,Figure AI 正式推出 Figure 01 ,Figure 01 身高約 170 cm、體重 60 KG,可實現 20KG的有效載重,移動速度 1.2米/秒,續航達到 5小時。2024年2月底,Figure AI 宣佈完成了 6.75 億美元的B 輪融資,公司估值升至 26 億美元,投資方包括:Microsoft、OpenAI 創業基金、輝達、Jeff Bezos、Parkway Venture Capital、Intel Capital 和 Align Ventures 等。
沒有留言:
張貼留言