DeepSeek終於能看圖了!我第一時間用它算命

2026/06/11 14:21:15 天(tiān)使敗類秀 吃小孩 / 裴(péi)屠狗(gǒu)

智(zhì)東西

作(zuò)者(zhě) | 陳(chén)駿達

編輯 | 雲鵬(péng)

智(zhì)東西4月29日報道,剛剛,DeepSeek的(de)多模態能力已經開啟灰(huī)度測試。現(xiàn)在,被選中的用戶會發現,DeepSeek首頁多了一個“識圖模式”的(de)入口(kǒu)。上傳圖片後,DeepSeek能像人一樣理解(jiě)畫(huà)麵,不管是(shì)物體還(hái)是場景,而不是(shì)像過去僅能識別文字。

多位DeepSeek研究(jiū)員第一時間發(fā)文宣傳了這一新功能。DeepSeek研究員陳德裏稱,這一功能來自DeepSeek的“天才多模態同事們”,小鯨魚現在有了看見世界的能力。

▲DeepSeek多位研究員宣布識圖模式的灰度上線(圖源:X平台)

我們也(yě)有幸被灰度(dù)到了,並迅速進行了(le)一波測試。

首先是基本的識(shí)物能力,我們上傳了一張兔子的照片,識圖模式下DeepSeek一眼就判斷出兔子(zǐ)的品種,並且可以描述這隻兔子的姿態。

我們給DeepSeek上了點(diǎn)難度,上傳了一張來自它老家杭州知名景(jǐng)點靈隱寺的照片,圖中僅有右下角的(de)路燈上有草書寫(xiě)就的“靈隱寺”字樣,不過對人類來說(shuō)這些字樣也有點難懂。我們要求DeepSeek判斷這是哪裏,並報出圖城市的經緯度。

根據建(jiàn)築(zhù)風格和路燈上的字樣,DeepSeek很(hěn)快判斷出這裏是靈隱寺,給出的坐標準確無誤。其生成速度也很快,未開啟思考模式時,一(yī)眨眼的功夫就好了。

我們又上傳了一張包含視覺陷阱的圖片,這張(zhāng)圖中幾個物品的擺放很容易(yì)讓人誤(wù)以為圖中有個人坐在椅子上。

這樣的題(tí)目同樣沒能難倒DeepSeek,它判斷圖中(zhōng)有(yǒu)牆麵修(xiū)補痕跡、垃(lā)圾收集區、雜(zá)物等等,沒有被視覺陷阱蒙(méng)騙。

DeepSeek的視覺模式支持(chí)深度思(sī)考,我們上傳了一張隨手拍的照片,圖中沒有任何文字參考,看(kàn)看(kàn)DeepSeek能否根據蛛絲馬跡判斷出位置。

開啟推理後,DeepSeek的視覺能(néng)力明顯增強了。它(tā)可以分步驟拆解畫麵信息,能看到前景、中景、背景(jǐng)的所有信息,然後將地標特征與地理區域匹配,直接判斷出山脈是燕山山脈、建築風格在(zài)北京昌(chāng)平等郊區很常見。

最後它直接把範圍收窄(zhǎi)到北京昌平區或者(zhě)海澱山後地區,其中某些猜測選項離我的實際距離已(yǐ)經不到10公裏。未來如果接入聯網搜索(suǒ),DeepSeek很可能就順著網線把我家(jiā)地址給開(kāi)盒了。

我們還嚐試了(le)熱門的看手相玩法,上傳後,DeepSeek第一眼先把左(zuǒ)右手看錯了,我們上傳的圖片是左手,它判斷(duàn)成了右手。

進入(rù)實際分析後,DeepSeek對手相形態的描述基本符合事實,分析(xī)得也是頭頭是道,不(bú)過具體該相信多(duō)少,這就見仁見智(zhì)了。

結語:DeepSeek多模態拚圖,終於補齊

在過去很長一段時間裏,DeepSeek多模態能力的(de)缺失一直是一個遺憾。DeepSeek一直維持著多模態的相關研究,並曾在早期發布開源(yuán)多模態模型Janus等成果。不過(guò),DeepSeek一直未在(zài)其產品中向公眾(zhòng)提供多模態能力。

91视频网站_91巨炮在线_九一网页版免费_91prom在线视频