DeepSeek 懶人包|中國AI新創如何影響美國AI巨企?一文整理歷史、最新影響及未來
中國人工智慧(AI)新創公司 DeepSeek 在農曆春節前夕發表了最新的推理模型 DeepSeek R1,並號稱可以與 OpenAI 當時最強大的 ChatGPT 模型並駕齊驅。這並不僅讓它登上了 Apple 和 Google 的 app 下載排行榜榜首,還導致了以 NVIDIA 為首的美國科技股重挫,在全球範圍內都引發了關注。
由於 DeepSeek 稱其模型無論是在訓練還是使用上,對於運算資源的需求都要低於美國的競爭對手,這讓不少人懷疑美國是否能繼續在 AI 領域保持領先,又或者是否能以控制晶片出口的手段,限制對手的發展了。
不過,DeepSeek 從何而來,又是如何快速竄起的呢?
DeepSeek 背後的人是誰?
DeepSeek(深度求索)由梁文鋒創立,關於梁先生的資訊不多,只知道他他畢業於浙江大學,並且在就學期間就開始嘗試股票買賣。這個財經經驗,讓他在 2015 年時共同創辦了幻方量化(High-Flyer),並在 2016 年開始實驗以機器學習的方式分析金融數據來做出投資決策。2019 年時,幻方量化在香港成立了對沖基金幻方資本管理(香港)有限公司,並且持續投入於 AI 交易。
一直到 2023 年為止,幻方量化的主力研究方向都在 AI 市場交易上,並曾一度有優於市場 20% 到 50% 的投資表現,然而到了 2021 年時幻方量化管理的投資組合遭遇虧損,再加上疫情期間的市場前景不明,讓幻方量化決定成立一個新的研究單位,專門研究股市交易以外的 AI 應用,而這就是 DeepSeek 的由來。
DeepSeek 是在 2023 年 4 月以幻方量化旗下的實驗室的形式成立,但旋即在同年 5 月獨立成自己的公司,由梁文鋒擔任 CEO 與具有絕對控制權的大股東。
DeepSeek 發展了哪些模型?
DeepSeek 在 2023 年底就推出了第一波的小型模型,包括 DeepSeek Coder、DeepSeek LLM 及 DeepSeek MoE 等,不過真正讓它被注意到,是在 2024 年 5 月推出的 DeepSeek-V2。
DeepSeek-V2 是一個通用的文字與圖片分析模型,當時雖然在模型表現上並未受到關注,但是其極低的運算成本仍然迫使當時的中國本土競爭者同步削價,甚至是轉為免費。
2024 年 12 月登場的 DeepSeek-V3 則是讓 DeepSeek 的關注度又再上了一個台階,雖然當時就有對於它是否有使用 OpenAI 的輸出來進行訓練的疑慮(事實上,相關的指控至今仍持續著),但 DeepSeek V3 號稱不僅能超越當時開放模型第一把交椅的 Meta Llama 模型,甚至還能超過當時的封閉式前沿模型。
最後,真正讓 DeepSeek 進入頭條新聞的,是在農曆年前發表的推理模型 DeepSeek-R1。DeepSeek-R1 其實依然是以 V3 模型為基礎,但加入了一個「思考」與「檢查」的過程,能夠先從分析使用者意圖開始,再產生一個達成使用者目的的方法,最後再檢查生成的成果是否符合需求。這種以拉長運算時間,來換取更完整、更正確的結果的模式,早前其實已經有 OpenAI 的 o1 或 Gemini 2.0 Flash Thinking 這樣的例子。但由於它對於運算力的要求太高,因此無論是 OpenAI 還是 Google 都對使用的對象、使用的數量有極大的限制,而 DeepSeek-R1 則是因為 V3 本身對於運算力要求低,因此能在一開始就對大眾開放使用,達成了一炮而紅的效果。
DeepSeek 的影響是什麼?
DeepSeek 的影響主要可以分成技術、政治和財經三個方面來探討。
首先,在技術上 DeepSeek 是否真的優於美國大型科技公司的模型還是有疑問的,特別是在 DeepSeek-R1 出世後,OpenAI 和 Google 都立即以號稱更為進步的模型來回應,保持技術上的領先。然而,DeepSeek 確實是有兩個極大的不同點:一個是它極低的訓練和運算需求(這部份也有專家懷疑就是了),讓它相對於當前的市場領先者,有著相當大的成本優勢;同時它開放模型的模式,讓更多開發者可以取得模型,並且開發自己的衍生模型或應用。甚至一般 PC、MacOS 或 iOS 的使用者,都能下載 DeepSeek 到本機上離線使用,這是除了 Meta 之外的其他美國大型科技公司都極不願意去做的。
在政治上,DeepSeek 宣告了美國以算力為壁壘,限制中國 AI 的發展的策略,出現了裂縫。雖然說對於 DeepSeek 是否能以遠低於美國的價格和運算力進行模型的訓練,目前還有些疑問,但 DeepSeek 追上了美國 AI 模型的大致能力,卻是不爭的事實。DeepSeek 同時也讓中國對於 AI 回應的審查、以及資料儲存何處、是否有國安風險等議題浮上了檯面,促使多個國家、地區與政府組織禁用了 DeepSeek 的服務。
最後,在財經方面,則是前述的低運算需求,所引發對於整體運算力需求是否高估的疑問。這引發了 NVIDIA 在一日間崩跌了 18% 的股價,但也有分析師認為 DeepSeek 雖然可能會降低對訓練的運算需求,但在另一邊卻可能會促使更多以 DeepSeek 為基礎的應用出現。當有更多公司加入對 AI 的開發時,全體對運算的需求恐怕還是會繼續增加的。另一邊,幾間大的 AI 公司可能會要面臨與 V2 時的中國本土競爭者一樣的困境,在運算成本居高不下的同時,還要削價與 DeepSeek 競爭。OpenAI 已經確認了次世代的 GPT-5 會在擁有思考能力的同時,繼續讓免費用戶可以無限使用;百度的文心一言模型也將在 4 月起免費,還加推了深度搜尋功能,都可視為這個壓力的一部份。
DeepSeek 香港能用嗎?
不同於 Google Gemini、Meta AI、ChatGPT 等沒有開放香港地區使用,香港是可以免費使用 DeepSeek AI的。目前已經明言全面禁用 DeekSeek AI 的國家僅有意大利,在數據保護局進行調查期間連一般使用者都不給下載。其他包括台灣、南韓、澳洲和美國海軍、美國太空總署、美國國會等在內的單位,都是禁止在政府裝置上使用 DeepSeek。
DeepSeek 如何使用?
1. Play Store 或 iOS 官方 app 免費下載
2. 官方網站使用網頁版本
2. 離線安裝至 PC、MacOS 或 iOS 等平台上使用。
DeepSeek 的未來如何?
在 DeepSeek-R1 推出之後,非常明顯地美國 AI 公司屁股後面點了一把火,自進入二月以來的各種更新當真是目不暇給。在 OpenAI 一側,他們在發表了 o3-mini 模型,讓免費用戶也能使用推理功能之外,還開放了 ChatGPT 搜尋和深度研究機能。而 Google 這邊則是也開放了 Gemini 2.0 給所有人使用,並且擴充了 Flash 系列的模型,特別是引入了可以串接 Google 的 YouTube、Maps、Search 等服務的 2.0 Flash Thinking with apps。
這些更新都讓 DeepSeek-R1 的地位受到挑戰,而且短時間爆紅也讓 DeepSeek 的基建難以負荷。因此 DeepSeek 勢必還要再持續更新模型,保持與美國 AI 公司齊頭並進的同時,還要投入更多資源在基礎建設上來應對用戶的增長。因此究竟 DeepSeek 的模型擁有多大的運算力優勢,應該很快就能看出端倪了吧。
Timeline
緊貼最新科技資訊、網購優惠,追隨 Yahoo Tech 各大社交平台!
🎉📱 Tech Facebook:https://www.facebook.com/yahootechhk
🎉📱 Tech Instagram:https://www.instagram.com/yahootechhk/
🎉📱 Tech WhatsApp 社群:https://chat.whatsapp.com/Dg3fiiyYf3yG2mgts4Mii8
🎉📱 Tech WhatsApp 頻道:https://whatsapp.com/channel/0029Va91dmR545urVCpQwq2D
🎉📱 Tech Telegram 頻道:https://t.me/yahootechhk