官方版355娛樂-官方版（bǎn）355娛樂（lè）穩定版（bǎn）V79.3.59-22265安卓網

智（zhì）東西

作（zuò）者（zhě） | 陳（chén）駿達

編輯 | 雲鵬（péng）

智（zhì）東西4月29日報道，剛剛，DeepSeek的（de）多模態能力已經開啟灰（huī）度測試。現（xiàn）在，被選中的用戶會發現，DeepSeek首頁多了一個“識圖模式”的（de）入口（kǒu）。上傳圖片後，DeepSeek能像人一樣理解（jiě）畫（huà）麵，不管是（shì）物體還（hái）是場景，而不是（shì）像過去僅能識別文字。

多位DeepSeek研究（jiū）員第一時間發（fā）文宣傳了這一新功能。DeepSeek研究員陳德裏稱，這一功能來自DeepSeek的“天才多模態同事們”，小鯨魚現在有了看見世界的能力。

展開全文

▲DeepSeek多位研究員宣布識圖模式的灰度上線（圖源：X平台）

我們也（yě）有幸被灰度（dù）到了，並迅速進行了（le）一波測試。

首先是基本的識（shí）物能力，我們上傳了一張兔子的照片，識圖模式下DeepSeek一眼就判斷出兔子（zǐ）的品種，並且可以描述這隻兔子的姿態。

我們給DeepSeek上了點（diǎn）難度，上傳了一張來自它老家杭州知名景（jǐng）點靈隱寺的照片，圖中僅有右下角的（de）路燈上有草書寫（xiě）就的“靈隱寺”字樣，不過對人類來說（shuō）這些字樣也有點難懂。我們要求DeepSeek判斷這是哪裏，並報出圖城市的經緯度。

根據建（jiàn）築（zhù）風格和路燈上的字樣，DeepSeek很（hěn）快判斷出這裏是靈隱寺，給出的坐標準確無誤。其生成速度也很快，未開啟思考模式時，一（yī）眨眼的功夫就好了。

我們又上傳了一張包含視覺陷阱的圖片，這張（zhāng）圖中幾個物品的擺放很容易（yì）讓人誤（wù）以為圖中有個人坐在椅子上。

這樣的題（tí）目同樣沒能難倒DeepSeek，它判斷圖中（zhōng）有（yǒu）牆麵修（xiū）補痕跡、垃（lā）圾收集區、雜（zá）物等等，沒有被視覺陷阱蒙（méng）騙。

DeepSeek的視覺模式支持（chí）深度思（sī）考，我們上傳了一張隨手拍的照片，圖中沒有任何文字參考，看（kàn）看（kàn）DeepSeek能否根據蛛絲馬跡判斷出位置。

開啟推理後，DeepSeek的視覺能（néng）力明顯增強了。它（tā）可以分步驟拆解畫麵信息，能看到前景、中景、背景（jǐng）的所有信息，然後將地標特征與地理區域匹配，直接判斷出山脈是燕山山脈、建築風格在（zài）北京昌（chāng）平等郊區很常見。

最後它直接把範圍收窄（zhǎi）到北京昌平區或者（zhě）海澱山後地區，其中某些猜測選項離我的實際距離已（yǐ）經不到10公裏。未來如果接入聯網搜索（suǒ），DeepSeek很可能就順著網線把我家（jiā）地址給開（kāi）盒了。

我們還嚐試了（le）熱門的看手相玩法，上傳後，DeepSeek第一眼先把左（zuǒ）右手看錯了，我們上傳的圖片是左手，它判斷（duàn）成了右手。

進入（rù）實際分析後，DeepSeek對手相形態的描述基本符合事實，分析（xī）得也是頭頭是道，不（bú）過具體該相信多（duō）少，這就見仁見智（zhì）了。

結語：DeepSeek多模態拚圖，終於補齊

在過去很長一段時間裏，DeepSeek多模態能力的（de）缺失一直是一個遺憾。DeepSeek一直維持著多模態的相關研究，並曾在早期發布開源（yuán）多模態模型Janus等成果。不過（guò），DeepSeek一直未在（zài）其產品中向公眾（zhòng）提供多模態能力。

DeepSeek終於能看圖了！我第一時間用它算命