清華行思與隨筆: AI 新大型語言模型 O3 與 DeepSeek v3

2024年12月29日星期日

AI 新大型語言模型 O3 與 DeepSeek v3

AI 新大型語言模型 O3 與 DeepSeek v3

最新大型語言模型 O3

科學、編碼及數學能力強大

抽象推理測評得高分

訓練費用高昂

O1比 GPT-4o強大

O1比博士級科學家得分高

O1與 O3比較

數學與博士級科學

前沿數學

DeepSeek v3 表現優異

DeepSeek v3 性價比高

Open AI 於 12月 20日發表最新大型語言模型 O3，強大能力領先目前所有 AI模型。選擇名稱「O3」是為了避免與現有的英國行動電信商 O2發生商標衝突。此型號有兩個版本：O3 和 O3-mini。

據執行長奧特曼（Sam Altman）表示，O3展現強大的感知性能，將其它努力追趕中的 AI模型例如 Google 的 Gemini pro 1.5 版本、亞馬遜投資的 Anthropic之 claude3-5 模型拋在後面。

在全球寫程式競賽平台 Code Forces，以寫程式又快、錯誤又少為優勝標準，O3 拿下2727分超高分，在全部榜單裡面為第 175名，超越 99.99％的人類工程師。

在數學能力 AIEM 2024 評比當中，O3在「Competition Math」中拿到幾乎滿分的 96.7（準確率），打破AI 模型在歷史上記錄，也是 AI第一次能在此測評中接近滿分。

更可怕的是，在抽象推理 ARC-AGI（Abstraction and Reasoning Corpus for Artificial General Intelligence）測評中得分高達 87.5％，接近人類的 85％。

在2019 年到 2020年的 ChatGpt 2和 ChatGpt 3在這項抽象推理能力測評得分為 0，ChatGpt 4 得分是 2％，到今年ChatGpt 4o版本的得分大爆發，也不過到達 5％而已，許多使用者已感到驚奇。OpenAI 的 O1和 O1 Pro 版模型一下子拉高到 50％水準，這意味著通用人工智慧 AGI 到來的日子已不久了。

相比 O1，O3在理解複雜任務、邏輯推理、多模態支持、可控性等方面的性能有顯著提升，在多個基準測試中達到或接近飽和點。O3 mini 則平衡了性能與成本，在某些場景下性能優於 O1。根據 OpenAI的安全研究計畫，目前 O3仍處於早期安全測試階段，並面向公眾開放測試申請。

科學、編碼及數學能力取得新突破：O3憑藉自然語言程式搜索與執行機制，以及鏈式思維和自我調整思考時間等創新技術，在處理複雜任務和新任務適應性上具有顯著優勢。面對前沿數學難題，O3正確率25.2%，而以往所有模型都未達 2%。

另一方面，專家們分析，O3仍有諸多局限:

模型成熟度方面：O3系列僅發佈展示版本。O3-mini 外部安全測試申請開放中，O3則連測試員也還得繼續等待。

技術層面：仍然依賴自然語言指令而非可執行的符號程式，指令的模糊性增加了理解難度；無法像人類那樣通過與現實世界的互動來學習和適應，使其無法通過直接執行來評估自己生成的解決方案的有效性。

性能層面：在某些基礎任務上仍會出現失誤。在即將發佈的 ARC-AGI-2測試中，預計其得分可能降至 30%以下（而普通人類仍能保持 95%以上的得分）。

效率層面：高昂的計算成本，大量的計算資源消耗，在某些任務上的效率低於人類。O3在低計算量模式下每個任務需要 17-20美元，高計算量模式下每個任務需數千美元，而對比 O1的費用在 10美元以下。

據11月美國風投公司Menlo Ventures發佈的《2024年企業生成式人工智慧的現狀》報告顯示，OpenAI 份額卻已從去年的 50%降至34%，而 Anthropic推出 Claude 3.5 Sonnet後，市場份額翻倍至24%。在推理模型方面，谷歌 Gemini2.0 Flash Thinking 的思考速度比 O1快5倍。在視頻生成模型方面，盲測資料顯示谷歌 Veo2和快手的可靈 1.5表現趕超 Sora。

另外值得注意的是，中國大陸「深度求索」 (DeepSeek) 公司於12月26日發布 DeepSeek v3開源模型，性能對齊美國閉源模型，多項評測成績超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他開源模型，並在性能上和世界頂尖的閉源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲，而性價比最高，號稱「AI 拚多多」。導致 OpenAI CEO 奧特曼也發推文指稱「複製總比創新容易」。

DeepSeek v3 利用降規的 H800 GPU，用 2.664M H800 GPU 小時，約五百六十萬美元，在14.8T token 資料進行初次預訓，以後則須花 0.1M H800 GPU 小時，僅為其他領先模型的十分之一到百分之一。

DeepSeek v3 的成功，可能預示著一個有趣的轉折：軟體創新正在突破硬體限制。這反倒讓美國限制中國的戰略變得很諷刺。如果軟體技術越來越強，那用什麼硬體可能都不重要了。

清華行思與隨筆

標籤

2024年12月29日星期日

AI 新大型語言模型 O3 與 DeepSeek v3

沒有留言:

張貼留言

標籤

2024年12月29日 星期日

AI 新大型語言模型 O3 與 DeepSeek v3

沒有留言:

張貼留言

2024年12月29日星期日