OpenAI、DeepSeek、Google 都搶攻推理 AI 模型!一文解釋其優點、限制及市面上的主要選擇

OpenAI、DeepSeek、Gemini 都搶攻推理 AI 模型!一文解釋其優點、限制及市面上的主要選擇
OpenAI、DeepSeek、Gemini 都搶攻推理 AI 模型!一文解釋其優點、限制及市面上的主要選擇

就在本週稍早,Elon Musk 旗下的 AI 公司 xAI 發表了最新的 Grok 3 模型,其主打的能力之一,便是具備「推理」(Reasoning)的能力。這個功能最近的曝光率似乎相當高,早前的 DeepSeek-R1 也是以具備推理能力做為其「先進模型」的標桿。不過,推理模型到底哪裡好?為什麼包括 OpenAI、Google、xAI、DeepSeek 等在內的 AI 科技公司,都在朝這個方向推出產品呢?就讓我們來好好探討與解答一番吧!

2025/3/26 更新Google 發表 Gemini 2.5 AI 模型

什麼是推理模型?

OpenAI、DeepSeek、Gemini 都搶攻推理 AI 模型!一文解釋其優點、限制及市面上的主要選擇
OpenAI、DeepSeek、Gemini 都搶攻推理 AI 模型!一文解釋其優點、限制及市面上的主要選擇

在了解推理模型之前,要先對大型語言模型(LLM)的運作方式有點了解。以最簡單的方式來說,本質上 LLM 其實是「文字預測機」,它可以跟據你的問題(稱為提示,或 prompt),以及目前已經生成的文字,來預測下一個字應該是什麼最為合適。雖然聽起來很不可思議,但目前我們用的絕大部份「AI」,都只是在這樣的基本原則下運作,它不具備任何「思考」能力,甚至不會理解你的提示文的內容,只是單純是一個被訓練來預測下一個字的電腦模型。

然而這主要的缺點,就是 LLM 無法對問題的回答方式做計畫,也沒有當生成的文字不符需求時,刪掉重來的選項,更無法對已經生成的文字進行糾錯,讓 LLM 很容易跑題、幻想、或甚至「愈錯愈離譜」。當然,最先進的 LLM 都有相應的技巧來控制 LLM 的回應,但其背後原理所產生的限制並不是那麼容易跨越的。

推理模型便是突破這限制的其中一個策略。它的原理是讓 LLM 並非直接輸出結果,而是先輸出一個「思考過程」。如此一來,由於模型並非輸出結果,因此就能考慮如何完成提示的任務、採取什麼樣的步驟,並自我檢查答案等,讓它更適用於科學研究、編程、解題、或是有多個步驟,須依序執行的任務。

推理模型有什麼優點?

推理模型的主要優點有三個。首先,就是前面所說的,它能解決傳統 LLM 的諸多弊端,特別是當要處理的工作有嚴謹的步驟性時,推理模型能將一個複雜的大問題,拆解成一個一個的段落,並且逐個段落進行處理。這除了能避免問題範圍太大時,會發生的失焦之外,也能將前一段的輸出做為後一段的輸入使用,讓獨立的段落間有聯貫性。同時,這也允許模型在某一個段落的輸出有誤,或者不符合需求時,可以重複執行該段落,直到有合適的結果為止。這種一直設想新的方案、執行、並試錯的過程,就是一般說它具有「推理」或「思考」能力的由來。

第二個優點,是這種模型可以更好地利用時間來換取更好的結果。和傳統的大型語言模型相比,推理模型可以以生成更多文字的方式,將更多的運算力投入到產生更佳的結果上。

而第三個優點,則是思考模型能以文字「輸出」其思考過程。面對極其複雜的問題,特別是科學相關問題時,這讓使用者可以檢查 AI 的「思路」是否正確,或是如果結果有誤的話,可能是哪裡出了問題。這讓 AI 不會完全是個黑盒子,而是讓使用者可以針對性的對其「思路」進行修正。

推理模型有什麼限制?

然而,雖然有著上面的諸多優點,推理模型依然還是個 LLM,也就繼承了 LLM 的許多限制。這當中最重要的,是要記得就算是推理模型,它依然本質上還是靠機率在生成文字,並不是說它真的能「理解」問題,或是能對問題產生獨到的見解。

同時,模型很難超越其訓練資料來源,目前雖然有些情況下模型可以參考多個資料來源,在一定的範圍內「觸類旁通」,但要回答人類都沒有答案的問題,即使是推理模型都是有困難的。再者,雖然推理模型能更好地自我檢查,但仍然免不了會有幻覺,或是在處理大量資料時,喪失部份「記憶」的問題。

最後,拉長思考時間、投入更多的運算力可以改進 AI 輸出的答案,但這也表示推理模型除了反應速度會比較慢之外,增加的運算力也是成本。這讓真正複雜的大型推理模型很難在正常收支平衡的情況下免費給公眾使用,要不然就是提供一個簡化的版本,不然就是現在先燒錢,後面再收費了。

主要的推理模型有哪些?

Grok3 Launch
Grok3 Launch

xAI Grok 3 reasoning 與 Grok 3 mini reasoning: 這是 Elon Musk 旗下的 xAI 在上週剛推出的 Grok 3 模型的推理版本,可以透過 Grok 的網頁或是 iOS app 使用。除了號稱是當前最強大的推理模型外(每個新模型發表時都會這麼說),比較特別的是目前 Grok 3 是免費使用的,而且並未對香港的使用予以限制。未來會不會恢復尚不可知,因此當前想玩玩看推理模型的話,Grok 3 是最簡單的兩個選擇之一。

Claude Plays Pokemon
Claude Plays Pokemon

👉 最新 Grok3 AI 模型登場:加入推理模型與 DeepSearch,Elon Musk 強調比 OpenAI、DeepSeek 更強

Anthropic Claude 3.7 Sonnet: Sonnet 是 Claude 大型語言模型家族中的「中型」模型,也是目前唯一一個具備推理能力的模型。開發的 Anthropic 表示,Claude 3.7 Sonnet 可以視需求輸出簡單的答案,或是「思考後的答案」,並且在訓練時不像其他模型那樣著眼在「解題」,以獲得更高的評分,而是更注重其真實世界的應用。值得一提的是,Claude 3.7 Sonnet 可以用推理功能來玩寶可夢,並且有一個 Twitch 頻道可以看它最新的進展呢。

👉 Anthropic 最新的 Claude 模型可以快速回應,也可以慢慢「思考」

DeepSeek-R1: 另一個選擇,自然就是在一月底時推出的 DeepSeek-R1 了。它是以 LLM 的 DeepSeek-V3 為基礎,並且主打的是原生中文、且訓練和使用模型所需的運算成本,都較競爭者來得低。DeepSeek-R1 同樣是免費使用,對香港無限制,並且也同樣提供網頁和專屬的 app。

👉 DeepSeek 懶人包|中國AI新創如何影響美國AI巨企?一文整理歷史、最新影響及未來

OpenAI o1 與 o3-mini: OpenAI 的 o1 是第一個主打推理的模型,在剛推出時著實是相當令人驚豔。而現在雖然多了許多競爭對手,但也不能說它就完全被超越。為了應對新挑戰者的進逼,OpenAI 推出了輕量化的 o3-mini 模型,並且已經宣佈下下一代的 GPT-5 模型將會「內建」推理模式,讓 AI 自行視問題的類型和複雜度,決定是否啟用推理模式。ChatGPT 有網頁版和專屬的 app,且 o3-mini 目前是免費可以使用的。

👉 OpenAI 推出 o3-mini 模型,免費用戶也能用推理功能

Gemini 2.5 Pro: 做為推進 AI 的主要科技公司之一,Google 自然也不會缺席。其 Gemini 2.5 Pro 模型是當前最強大的推理模型之一,並且特別強化了在寫程式、數學及科學方面的能力。Gemini 有網頁版和 app,但要使用先進的 Gemini 2.5 Pro 的話,要訂閱 Google 的 Advanced 會員才行。

👉 Google 推出具備推理能力的 Gemini 2.5 AI 模型

ByteDance UI-TARS: 字節跳動的 UI-TARS 是一個開源的模型,主打的特色是可以讀取電腦的 UI 介面,因此雖然可以用來進行推理分析,但它更著眼在做為 AI 代理操作你的電腦的能力。

結語

推理模型是以「時間換取更好的答案」的一種技巧,可以讓 AI 將複雜的問題拆解、再逐步進行分析,以求得更完善的答案。然而,推理模式亦繼承了 LLM 的許多問題,在理解上下文與處理複雜場景的能力方面仍然存在挑戰,而且增加的運算力也是成本,即使 AI 公司現在願意免費提供以維持競爭力,也不一定是長久之計。

從各大 AI 公司近期的動向,我們可以預期未來「推理模式」大概率不會再以獨立的形式存在,而是包含在更大的模型當中,成為面對合適的問題時,AI 會自動選用的一種方案。

緊貼最新科技資訊、網購優惠,追隨 Yahoo Tech 各大社交平台!

🎉📱 Tech Facebook:https://www.facebook.com/yahootechhk

🎉📱 Tech Instagram:https://www.instagram.com/yahootechhk/

🎉📱 Tech WhatsApp 社群:https://chat.whatsapp.com/Dg3fiiyYf3yG2mgts4Mii8

🎉📱 Tech WhatsApp 頻道:https://whatsapp.com/channel/0029Va91dmR545urVCpQwq2D

🎉📱 Tech Telegram 頻道:https://t.me/yahootechhk