【深度分析】DeepSeek V4 沉默上線視覺功能：當中國開源模型不再有功能缺口，矽谷的護城河剩下什麼？

hero

城武導讀

2026 年 6 月 18 日，DeepSeek 做了一件在多數科技公司眼中不可能的事：上線一個足以挑戰 GPT-4o 的多模態視覺功能——然後不發新聞稿、不推文、不開記者會。整個網路是從 Hacker News 上一篇使用者貼文才發現這件事的。

大部分報導會把焦點放在「DeepSeek 終於有 Vision 了」這個功能面上。但如果你只看到功能，你就錯過了這件事真正值得追問的三層問題：第一，為什麼一家擁有全球最受矚目開源模型的公司，選擇用「沉默」作為產品上市策略？第二，為什麼 Vision 在免費聊天室有、在付費 API 卻沒有——這個定價結構是矛盾還是算計？第三，也是最根本的：當中國開源模型從「有明顯功能缺口」追到「幾乎齊平」，矽谷那些靠「我們有 Vision、我們有多模態」當成護城河的說法，現在還站得住嗎？

這篇文章不會停留在「DeepSeek 好強」或「中國 AI 追上來了」這種層次。我們要追的是這三個問題背後的結構邏輯。

原文摘要

根據 Tony Reviews Things 在 2026 年 6 月 18 日的報導，DeepSeek 已在其聊天介面（chat.deepseek.com）靜默上线了原生圖像理解功能。使用者可以上傳圖片，模型會進行場景分析、物件辨識、構圖描述，並回答關於圖像內容的問題——不是單純的文字擷取（OCR），而是真正的場景理解。

Hacker News 上的使用者回報（7 小時內獲得 252 點）描述這個功能「真的很好且速度快」，在螢幕截圖、照片和特殊測試圖片上都表現出色。作者回顧自己在 2025 年 5 月對 DeepSeek 的評測時，曾將「缺乏圖像辨識」列為 DeepSeek 無法成為真正 GPT-4o 競爭對手的最大缺失——如今這個缺口已經不存在。

但圖片生成不在這次更新範圍內——這純粹是圖像理解功能。需要 DALL·E 風格生成的場景，仍需使用 GPT-4o 或專門工具。

DeepSeek V4（預覽版）此次帶來的不只是視覺功能，還包括一百萬 token 上下文視窗、思維鏈推理模式（Thinking mode）、強化 agent 工具使用能力，以及最高 384K token 的單次輸出容量。值得注意的是，舊版模型名稱 deepseek-chat 和 deepseek-reasoner 將於 2026 年 7 月 24 日被棄用，全面轉換到 V4 命名體系。

定價策略呈現一個明顯的分裂：聊天介面完全免費，無需訂閱；API 端則提供兩種模型——deepseek-v4-flash（輸入每百萬 token $0.14、輸出 $0.28）和 deepseek-v4-pro（輸入 $0.435、輸出 $0.87），相較 GPT-4o 便宜 10 到 20 倍。但關鍵限制是：API 端目前不提供視覺功能。 API 文件中列出了 V4 模型，但並未包含圖像內容類型或視覺端點。Vision 目前僅限於網頁聊天使用。

報導描述 DeepSeek 的上線方式為「社群驅動的發布」——Hacker News 實際上扮演了官方公告的角色。DeepSeek 的官方 Twitter 帳號自 2025 年 1 月起就沒有任何發文。作者的整體評分因視覺功能的補齊而調升，原先標註的「無圖像辨識」缺點已被移除。

城武觀點

一、沉默不是公關失能——沉默本身就是產品策略

先把最直覺的質疑處理掉：DeepSeek 不發新聞稿不推文，是因為沒有公關能力嗎？DeepSeek 背後是幻方量化——管理數十億美元資產的對沖基金，本業是資訊不對稱套利。不是不會做公關，是不需要用矽谷那套方式做公關。

DeepSeek 的發布模式是：產品先上線，讓社群自己發現，等反應沉澱後再補文件。OpenAI 則是先發 blog、給媒體獨家、Sam Altman 推文預告——然後產品才上。兩種模式的根本差異不是效率，是發布儀式的設計哲學：OpenAI 是廣播模式（我告訴你），DeepSeek 是傳染模式（你自己發現）。

把「發現的快感」外包給使用者的精妙之處在於：你在 Hacker News 上看到「等等，DeepSeek 居然有 Vision 了？」的衝擊，遠大於收到官方公告「我們隆重推出 Vision」。前者是祕密被揭露，後者是廣告被投放。人對自己發現的東西，忠誠度遠高於被推銷的東西。

但這種沉默式發布有一個隱含條件：產品必須強到經得起沉默。如果功能上線沒人注意到、沒人分享——沉默就真的是消失。DeepSeek 能玩這套，是因為 V4 的能力以經強到社群願意幫它做公關。沉默上線是一種只有領先者能玩的奢侈。

二、免費有 Vision、付費沒有——這不是矛盾，是「閘道策略」

定價悖論是整件事最迷人的地方：為什麼最稀缺的 Vision 功能放在免費聊天室，卻不給付費 API？

如果你把這看成定價失誤，就低估了策略深度。這是一套三層閘道：

第一層，免費 Vision 是市場教育。 最有效的行銷不是文件、不是廣告——是讓人上傳一張圖、看到結果、截圖分享。每一個在社群貼出「DeepSeek 看圖好強」的人，都在幫 DeepSeek 做免費傳播。把 Vision 放免費層，最大化的是傳播速度，不是短期營收。

第二層，API 不給 Vision 是產能保護。 API 用量和聊天室不在同一個量級——開發者一天可以打幾萬次請求，Vision 推論成本遠高於純文字。先把 Vision 鎖在聊天室：控制總用量、收集真實使用數據、在開發者端累積飢餓行銷效應。

第三層，低價 text API 是定價錨點。 Flash 版比 GPT-4o 便宜 10 到 20 倍，這個定價不是為了賺錢——是為了在開發者生態系裡建立「DeepSeek 超便宜又超強」的認知。等到 Vision API 開放，開發者不需要被說服，他們以經在生態系裡了。

三層疊起來是一個完整劇本：免費 Vision 做公眾行銷 → 低價 text API 做開發者綁定 → Vision API 做未來變現。「Vision 在免費有、付費沒有」不是 bug，是第二幕跟第三幕之間的中場休息。

三、矽谷的護城河不是被填平的——是被證明根本不存在

過去兩年，矽谷的標準論述是：中國開源模型文字強，但多模態還有差距。Vision 被定位成護城河。2026 年 6 月 18 日之後，這個論述瓦解了。

真正致命的不是缺口被補上，而是缺口被補上的速度。 從 V3 到 V4，不到一年——而且是開源權重，任何人有算力都能自己跑。如果一個功能缺口可以在一年內被補上，它從一開始就不是護城河，它只是時間差。 真正的護城河——可口可樂的品牌、台積電的製程——不會在一年內被填平。

這個時間差還在系統性縮短，原因不是中國團隊特別聰明，而是開源模式的追趕效率遠高於封閉模式。 每當封閉模型發布一個新功能，它等於幫所有開源追趕者標記了「這件事是可能的」、大致的架構方向、以及 evaluation 的設計邏輯。開源追趕者的研發效率，建立在封閉先行者的資訊外溢之上。

那矽谷公司真正的護城河是什麼？答案可能讓人不舒服：不是技術，是發行、是合規、是企業銷售團隊、是品牌信任。 這些都是真的護城河——但它是商業護城河，不是技術護城河。而商業護城河有一個致命弱點：它依賴持續的技術領先來正當化溢價。當 Flash API 價格只有 GPT-4o 的 1/20，企業 CFO 會開始問一個 CTO 不想回答的問題：好多少？值不值 20 倍價差？

DeepSeek 真正在做的事不是「擊敗 GPT-4o」——它要把前沿 AI 功能的價格打到讓封閉模型的商業護城河開始漏水。而這形成一個棘手的循環：你越創新，追趕者地圖越清晰；你越不創新，溢價越難正當化。封閉模型被困在自己創造的陷阱裡——DeepSeek 的沉默上線，是這個陷阱最安靜的觸發。

城武的未解檔案——DeepSeek 沒有擊敗 GPT-4o，但它做了一件更危險的事：它把「功能缺口」從護城河變成了時間差，把「定價」從商業策略變成了對封閉模式生存邏輯的壓力測試。當中國開源模型補上最後一塊功能拼圖，矽谷才發現自己腳下踩的不是技術壁壘——是以經開始漏水的商業敘事。

原文：DeepSeek V4 Adds Vision: Free Multimodal AI That Challenges GPT-4o（Tony Reviews Things, 2026-06-18）