標籤

2024年12月29日 星期日

AI 新大型語言模型 O3 與 DeepSeek v3

AI 新大型語言模型 O3 與 DeepSeek v3

最新大型語言模型 O3

科學、編碼及數學能力強大

抽象推理測評得高分

訓練費用高昂

O1比 GPT-4o強大

O1比博士級科學家得分高

O1與 O3比較

數學與博士級科學

前沿數學

DeepSeek v3 表現優異

DeepSeek v3 性價比高

Open AI 於 12月 20日發表最新大型語言模型 O3,強大能力領先目前所有 AI模型。選擇名稱「O3」是為了避免與現有的英國行動電信商 O2發生商標衝突。此型號有兩個版本:O3 和 O3-mini。

據執行長奧特曼(Sam Altman)表示,O3展現強大的感知性能
將其它努力追趕中的 AI模型例如 Google 的 Gemini pro 1.5 版本、亞馬遜投資的 Anthropic之 claude3-5 模型拋在後面。

在全球寫程式競賽平台 Code Forces,以寫程式又快、錯誤又少為優勝標準,O3 拿下2727分超高分,在全部榜單裡面為第 175名,超越 99.99%的人類工程師。

在數學能力 AIEM 2024 評比當中,O3在「Competition Math」中拿到幾乎滿分的 96.7(準確率),打破AI 模型在歷史上記錄,也是 AI第一次能在此測評中接近滿分


更可怕的是,在抽象推理 ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)測評中得分高達 87.5%,接近人類的 85%。

在2019 年到 2020年的 ChatGpt 2和 ChatGpt 3在這項抽象推理能力測評得分為 0,ChatGpt 4 得分是 2%,到今年ChatGpt 4o版本的得分大爆發,也不過到達 5%而已,許多使用者已感到驚奇。OpenAI 的 O1和 O1 Pro 版模型一下子拉高到 50%水準,這意味著通用人工智慧 AGI 到來的日子已不久了。

相比 O1,O3在理解複雜任務、邏輯推理、多模態支持、可控性等方面的性能有顯著提升,在多個基準測試中達到或接近飽和點。O3 mini 則平衡了性能與成本,在某些場景下性能優於 O1。根據 OpenAI的安全研究計畫,目前 O3仍處於早期安全測試階段,並面向公眾開放測試申請。

科學、編碼及數學能力取得新突破:O3憑藉自然語言程式搜索與執行機制,以及鏈式思維和自我調整思考時間等創新技術,在處理複雜任務和新任務適應性上具有顯著優勢。面對前沿數學難題,O3正確率25.2%,而以往所有模型都未達 2%。

另一方面,專家們分析,O3仍有諸多局限: 
模型成熟度方面:O3系列僅發佈展示版本。O3-mini 外部安全測試申請開放中,O3則連測試員也還得繼續等待。
技術層面:仍然依賴自然語言指令而非可執行的符號程式,指令的模糊性增加了理解難度;無法像人類那樣通過與現實世界的互動來學習和適應,使其無法通過直接執行來評估自己生成的解決方案的有效性。
性能層面:在某些基礎任務上仍會出現失誤。在即將發佈的 ARC-AGI-2測試中,預計其得分可能降至 30%以下(而普通人類仍能保持 95%以上的得分)。
效率層面:高昂的計算成本,大量的計算資源消耗,在某些任務上的效率低於人類。O3在低計算量模式下每個任務需要 17-20美元,高計算量模式下每個任務需數千美元,而對比 O1的費用在 10美元以下。

據11月美國風投公司Menlo Ventures發佈的《2024年企業生成式人工智慧的現狀》報告顯示,OpenAI 份額卻已從去年的 50%降至34%,而 Anthropic推出 Claude 3.5 Sonnet後,市場份額翻倍至24%。在推理模型方面,谷歌 Gemini2.0 Flash Thinking 的思考速度比 O1快5倍。在視頻生成模型方面,盲測資料顯示谷歌 Veo2和快手的可靈 1.5表現趕超 Sora。

另外值得注意的是,中國大陸「深度求索」 (DeepSeek) 公司於12月26日發布 DeepSeek v3開源模型,性能對齊美國閉源模型,多項評測成績超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型,並在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲,而性價比最高,號稱「AI 拚多多」。導致 OpenAI CEO 奧特曼也發推文指稱「複製總比創新容易」。

DeepSeek v3 利用降規的 H800 GPU,用 2.664M H800 GPU 小時,約五百六十萬美元,在14.8T token 資料進行初次預訓,以後則須花 0.1M H800 GPU 小時,僅為其他領先模型的十分之一到百分之一。

DeepSeek v3 的成功,可能預示著一個有趣的轉折:軟體創新正在突破硬體限制。這反倒讓美國限制中國的戰略變得很諷刺。如果軟體技術越來越強,那用什麼硬體可能都不重要了。

沒有留言:

張貼留言