最新大型語言模型 O3
科學、編碼及數學能力強大
抽象推理測評得高分
訓練費用高昂
O1比博士級科學家得分高
據執行長奧特曼(Sam Altman)表示,O3展現強大的感知性能,將其它努力追趕中的 AI模型例如 Google 的 Gemini pro 1.5 版本、亞馬遜投資的 Anthropic之 claude3-5 模型拋在後面。
在全球寫程式競賽平台 Code Forces,以寫程式又快、錯誤又少為優勝標準,O3 拿下2727分超高分,在全部榜單裡面為第 175名,超越 99.99%的人類工程師。
在數學能力 AIEM 2024 評比當中,O3在「Competition Math」中拿到幾乎滿分的 96.7(準確率),打破AI 模型在歷史上記錄,也是 AI第一次能在此測評中接近滿分。
更可怕的是,在抽象推理 ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)測評中得分高達 87.5%,接近人類的 85%。
在2019 年到 2020年的 ChatGpt 2和 ChatGpt 3在這項抽象推理能力測評得分為 0,ChatGpt 4 得分是 2%,到今年ChatGpt 4o版本的得分大爆發,也不過到達 5%而已,許多使用者已感到驚奇。OpenAI 的 O1和 O1 Pro 版模型一下子拉高到 50%水準,這意味著通用人工智慧 AGI 到來的日子已不久了。
相比 O1,O3在理解複雜任務、邏輯推理、多模態支持、可控性等方面的性能有顯著提升,在多個基準測試中達到或接近飽和點。O3 mini 則平衡了性能與成本,在某些場景下性能優於 O1。根據 OpenAI的安全研究計畫,目前 O3仍處於早期安全測試階段,並面向公眾開放測試申請。
科學、編碼及數學能力取得新突破:O3憑藉自然語言程式搜索與執行機制,以及鏈式思維和自我調整思考時間等創新技術,在處理複雜任務和新任務適應性上具有顯著優勢。面對前沿數學難題,O3正確率25.2%,而以往所有模型都未達 2%。
另一方面,專家們分析,O3仍有諸多局限:
模型成熟度方面:O3系列僅發佈展示版本。O3-mini 外部安全測試申請開放中,O3則連測試員也還得繼續等待。
技術層面:仍然依賴自然語言指令而非可執行的符號程式,指令的模糊性增加了理解難度;無法像人類那樣通過與現實世界的互動來學習和適應,使其無法通過直接執行來評估自己生成的解決方案的有效性。
性能層面:在某些基礎任務上仍會出現失誤。在即將發佈的 ARC-AGI-2測試中,預計其得分可能降至 30%以下(而普通人類仍能保持 95%以上的得分)。
效率層面:高昂的計算成本,大量的計算資源消耗,在某些任務上的效率低於人類。O3在低計算量模式下每個任務需要 17-20美元,高計算量模式下每個任務需數千美元,而對比 O1的費用在 10美元以下。
據11月美國風投公司Menlo Ventures發佈的《2024年企業生成式人工智慧的現狀》報告顯示,OpenAI 份額卻已從去年的 50%降至34%,而 Anthropic推出 Claude 3.5 Sonnet後,市場份額翻倍至24%。在推理模型方面,谷歌 Gemini2.0 Flash Thinking 的思考速度比 O1快5倍。在視頻生成模型方面,盲測資料顯示谷歌 Veo2和快手的可靈 1.5表現趕超 Sora。
另外值得注意的是,中國大陸「深度求索」 (DeepSeek) 公司於12月26日發布 DeepSeek v3開源模型,性能對齊美國閉源模型,多項評測成績超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,並在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲,而性價比最高,號稱「AI 拚多多」。導致 OpenAI CEO 奧特曼也發推文指稱「複製總比創新容易」。
DeepSeek v3 利用降規的 H800 GPU,用 2.664M H800 GPU 小時,約五百六十萬美元,在14.8T token 資料進行初次預訓,以後則須花 0.1M H800 GPU 小時,僅為其他領先模型的十分之一到百分之一。
DeepSeek v3 的成功,可能預示著一個有趣的轉折:軟體創新正在突破硬體限制。這反倒讓美國限制中國的戰略變得很諷刺。如果軟體技術越來越強,那用什麼硬體可能都不重要了。
沒有留言:
張貼留言