【深度分析】DeepSeek V4 沉默上線視覺功能:當中國開源模型不再有功能缺口,矽谷的護城河剩下什麼?

城武導讀
2026 年 6 月 18 日,DeepSeek 做了一件在多數科技公司眼中不可能的事:上線一個足以挑戰 GPT-4o 的多模態視覺功能——然後不發新聞稿、不推文、不開記者會。整個網路是從 Hacker News 上一篇使用者貼文才發現這件事的。
大部分報導會把焦點放在「DeepSeek 終於有 Vision 了」這個功能面上。但如果你只看到功能,你就錯過了這件事真正值得追問的三層問題:第一,為什麼一家擁有全球最受矚目開源模型的公司,選擇用「沉默」作為產品上市策略?第二,為什麼 Vision 在免費聊天室有、在付費 API 卻沒有——這個定價結構是矛盾還是算計?第三,也是最根本的:當中國開源模型從「有明顯功能缺口」追到「幾乎齊平」,矽谷那些靠「我們有 Vision、我們有多模態」當成護城河的說法,現在還站得住嗎?
這篇文章不會停留在「DeepSeek 好強」或「中國 AI 追上來了」這種層次。我們要追的是這三個問題背後的結構邏輯。
原文摘要
根據 Tony Reviews Things 在 2026 年 6 月 18 日的報導,DeepSeek 已在其聊天介面(chat.deepseek.com)靜默上线了原生圖像理解功能。使用者可以上傳圖片,模型會進行場景分析、物件辨識、構圖描述,並回答關於圖像內容的問題——不是單純的文字擷取(OCR),而是真正的場景理解。
Hacker News 上的使用者回報(7 小時內獲得 252 點)描述這個功能「真的很好且速度快」,在螢幕截圖、照片和特殊測試圖片上都表現出色。作者回顧自己在 2025 年 5 月對 DeepSeek 的評測時,曾將「缺乏圖像辨識」列為 DeepSeek 無法成為真正 GPT-4o 競爭對手的最大缺失——如今這個缺口已經不存在。
但圖片生成不在這次更新範圍內——這純粹是圖像理解功能。需要 DALL·E 風格生成的場景,仍需使用 GPT-4o 或專門工具。
DeepSeek V4(預覽版)此次帶來的不只是視覺功能,還包括一百萬 token 上下文視窗、思維鏈推理模式(Thinking mode)、強化 agent 工具使用能力,以及最高 384K token 的單次輸出容量。值得注意的是,舊版模型名稱 deepseek-chat 和 deepseek-reasoner 將於 2026 年 7 月 24 日被棄用,全面轉換到 V4 命名體系。
定價策略呈現一個明顯的分裂:聊天介面完全免費,無需訂閱;API 端則提供兩種模型——deepseek-v4-flash(輸入每百萬 token $0.14、輸出 $0.28)和 deepseek-v4-pro(輸入 $0.435、輸出 $0.87),相較 GPT-4o 便宜 10 到 20 倍。但關鍵限制是:API 端目前不提供視覺功能。 API 文件中列出了 V4 模型,但並未包含圖像內容類型或視覺端點。Vision 目前僅限於網頁聊天使用。
報導描述 DeepSeek 的上線方式為「社群驅動的發布」——Hacker News 實際上扮演了官方公告的角色。DeepSeek 的官方 Twitter 帳號自 2025 年 1 月起就沒有任何發文。作者的整體評分因視覺功能的補齊而調升,原先標註的「無圖像辨識」缺點已被移除。
城武觀點
一、沉默不是公關失能——沉默本身就是產品策略
先把最直覺的質疑處理掉:DeepSeek 不發新聞稿不推文,是因為沒有公關能力嗎?DeepSeek 背後是幻方量化——管理數十億美元資產的對沖基金,本業是資訊不對稱套利。不是不會做公關,是不需要用矽谷那套方式做公關。
DeepSeek 的發布模式是:產品先上線,讓社群自己發現,等反應沉澱後再補文件。OpenAI 則是先發 blog、給媒體獨家、Sam Altman 推文預告——然後產品才上。兩種模式的根本差異不是效率,是發布儀式的設計哲學:OpenAI 是廣播模式(我告訴你),DeepSeek 是傳染模式(你自己發現)。
把「發現的快感」外包給使用者的精妙之處在於:你在 Hacker News 上看到「等等,DeepSeek 居然有 Vision 了?」的衝擊,遠大於收到官方公告「我們隆重推出 Vision」。前者是祕密被揭露,後者是廣告被投放。人對自己發現的東西,忠誠度遠高於被推銷的東西。
但這種沉默式發布有一個隱含條件:產品必須強到經得起沉默。如果功能上線沒人注意到、沒人分享——沉默就真的是消失。DeepSeek 能玩這套,是因為 V4 的能力以經強到社群願意幫它做公關。沉默上線是一種只有領先者能玩的奢侈。
二、免費有 Vision、付費沒有——這不是矛盾,是「閘道策略」
定價悖論是整件事最迷人的地方:為什麼最稀缺的 Vision 功能放在免費聊天室,卻不給付費 API?
如果你把這看成定價失誤,就低估了策略深度。這是一套三層閘道:
第一層,免費 Vision 是市場教育。 最有效的行銷不是文件、不是廣告——是讓人上傳一張圖、看到結果、截圖分享。每一個在社群貼出「DeepSeek 看圖好強」的人,都在幫 DeepSeek 做免費傳播。把 Vision 放免費層,最大化的是傳播速度,不是短期營收。
第二層,API 不給 Vision 是產能保護。 API 用量和聊天室不在同一個量級——開發者一天可以打幾萬次請求,Vision 推論成本遠高於純文字。先把 Vision 鎖在聊天室:控制總用量、收集真實使用數據、在開發者端累積飢餓行銷效應。
第三層,低價 text API 是定價錨點。 Flash 版比 GPT-4o 便宜 10 到 20 倍,這個定價不是為了賺錢——是為了在開發者生態系裡建立「DeepSeek 超便宜又超強」的認知。等到 Vision API 開放,開發者不需要被說服,他們以經在生態系裡了。
三層疊起來是一個完整劇本:免費 Vision 做公眾行銷 → 低價 text API 做開發者綁定 → Vision API 做未來變現。「Vision 在免費有、付費沒有」不是 bug,是第二幕跟第三幕之間的中場休息。
三、矽谷的護城河不是被填平的——是被證明根本不存在
過去兩年,矽谷的標準論述是:中國開源模型文字強,但多模態還有差距。Vision 被定位成護城河。2026 年 6 月 18 日之後,這個論述瓦解了。
真正致命的不是缺口被補上,而是缺口被補上的速度。 從 V3 到 V4,不到一年——而且是開源權重,任何人有算力都能自己跑。如果一個功能缺口可以在一年內被補上,它從一開始就不是護城河,它只是時間差。 真正的護城河——可口可樂的品牌、台積電的製程——不會在一年內被填平。
這個時間差還在系統性縮短,原因不是中國團隊特別聰明,而是開源模式的追趕效率遠高於封閉模式。 每當封閉模型發布一個新功能,它等於幫所有開源追趕者標記了「這件事是可能的」、大致的架構方向、以及 evaluation 的設計邏輯。開源追趕者的研發效率,建立在封閉先行者的資訊外溢之上。
那矽谷公司真正的護城河是什麼?答案可能讓人不舒服:不是技術,是發行、是合規、是企業銷售團隊、是品牌信任。 這些都是真的護城河——但它是商業護城河,不是技術護城河。而商業護城河有一個致命弱點:它依賴持續的技術領先來正當化溢價。當 Flash API 價格只有 GPT-4o 的 1/20,企業 CFO 會開始問一個 CTO 不想回答的問題:好多少?值不值 20 倍價差?
DeepSeek 真正在做的事不是「擊敗 GPT-4o」——它要把前沿 AI 功能的價格打到讓封閉模型的商業護城河開始漏水。而這形成一個棘手的循環:你越創新,追趕者地圖越清晰;你越不創新,溢價越難正當化。封閉模型被困在自己創造的陷阱裡——DeepSeek 的沉默上線,是這個陷阱最安靜的觸發。
城武的未解檔案——DeepSeek 沒有擊敗 GPT-4o,但它做了一件更危險的事:它把「功能缺口」從護城河變成了時間差,把「定價」從商業策略變成了對封閉模式生存邏輯的壓力測試。當中國開源模型補上最後一塊功能拼圖,矽谷才發現自己腳下踩的不是技術壁壘——是以經開始漏水的商業敘事。
- 原文:DeepSeek V4 Adds Vision: Free Multimodal AI That Challenges GPT-4o(Tony Reviews Things, 2026-06-18)