2026年6月20日DeepSeek识图模式实测优缺点咋样?
- 时间:
- 浏览:73
- 来源:南宁市武鸣区陆酷巴网络科技工作室
亮点与槽点并存:DeepSeek识图模式全量上线引热议
2026年6月19日的下午时分, 当时正巧处于端午节前夕的阶段, DeepSeek官方平台正式进行了全量推送识图模式这一行为, 手机端App朝着相同方向同步更新。在此之前, 该功能仅仅是让其在小范围灰度测试当中处于开放状态, 而如今, 所有的用户都能够对其加以使用。但是, 首批实测所产生的结果却引发了争议: 在识别一张黄仁勋喝豆汁的图片时, 模型把“豆汁”错误地认成了“牛奶”, 并且对于人物表情的解读也不是那么精准。这样的一个矛盾点很快就变成了网友去讨论的焦点, 测试热情处于高涨的态势。
人物识别表现:准确率参差不齐,特征明显者占优
黄仁勋案例
针对第一个测试, 我们传了印有黄仁勋于北京小吃街畅饮豆汁情景的图片。DeepSeek成功识别出图里人物是黄仁勋, 然而瓶身上写着的“豆汁”字样却被遗漏, 致使误判成牛奶。除此之外, 对人物表情的解读也欠缺精准度, 这体现出视觉细节捕捉方面能力的局限性。
深度思考模式改进有限
进入深度思考模式切换后, 模型尽管依旧不能够识读“尹三豆汁”这样的字样, 然而依靠推理能力以及世界知识推测出饮品是“豆汁”。可是, 表情解读这个方面并没有显著的改进变化, 表明仅仅凭借推理并不能填补视觉信息的失落欠缺。
名人识别翻车案例
于社交媒体之上, 有多位网友反馈, 何同学、梁文锋等那些知名人物的识别情况出现了错误。模型的思考过程所显示出来的是, 它依据面部特征、发型等视觉方面的线索来跟公众形象进行对比, 最终致使识别的准确率并不高, 只有像黄仁勋这样特征独特的人物在相关表现上较为良好。
安全限制严格:雷军热门图被拒,引发合规讨论
我们试着去上传一张雷军最近这段时间的热门图片, 然而却收到了系统给出的提示“可能违反使用规范”, 这样一种严格的安全限制引发了用户们的讨论, 一部分人觉得过度过滤对正常使用体验造成了影响, 还有人却是支持平台针对敏感内容的谨慎处理, DeepSeek需要在安全性以及功能性之间寻找到平衡。
文本与文物识别:手写汉字表现堪忧,文物鉴定能力亮眼
潦草汉字测试
一笔笔字迹潦草的汉字图片, 被我们上传了, 其之上有密密麻麻的横线干扰, 笔画之间还出现了粘连状况, 甚至还有错别字干扰等情况, 而后便要求DeepSeek展开识别。最终的结果是, 7个字里就有4个识别错误了, 这明显显示出在针对真实场景手写文本的识别工作, 以及领域词汇的约束范畴, 还有语义纠错这几个方面, 依旧有着较大的提升空间等待挖掘挖掘。
文物鉴定测试
用于文物识别的测试里, DeepSeek没有能够找寻到确切的出处, 然而却成功地判别出该文物归属为莫卧儿帝国风格, 并且还详尽地剖析了它的工艺特点, 这样的一种表现获得了测试者的认同 , 这表明模型在特定的那个领域里拥有较强的视觉理解能力。
复杂任务挑战失败:找相同袜子与和弦识别均未答对
袜子匹配测试
我们向DeepSeek提出要求, 要它从一张图片里找出完全一样的袜子, 正确答案是第一行第三个以及第三行第二个, 模型没能正确匹配, 显露了它在精细视觉对比任务方面的欠缺之处。
钢琴和弦识别
将钢琴弹奏的实拍图上传, 接着提出问题“弹的是什么和弦”, 正确的答案应当是ACE, 然而DeepSeek做出了错误的判断。在同时进行测试的Gemini 3.5 flash、GPT 5.5以及Claude Sonnet 4.6之中, 前面的两者都答错了, 后面的Claude Sonnet 4.6直接罢工不干了, 这显示出大模型在音乐推理方面存在普遍的局限性。
开发者疑问待解:多模态技术细节与API上线时间成谜
在识图模式全量发布之后阶段的时候, 开发一众者们纷纷地显现出崭新的疑问来了, 具体是哪些疑问, 就是该功能跟DeepSeek 4.1有没有存在着关联, 背后所采用的技术手段是不是采用原生多模态的形式, 多模态API在什么时候会上线, 这些有关种种的问题出现在了DeepSeek多模态团队研究者Xiaokang Chen所发的那在X那个大平台发出的一条十分有广泛关注度的贴文的评论空间区域里面, 然而呢他并没有给出任何形式的回应。在行业领域之内的相关人士纷纷进行多番猜测之后, 认为在未来几天的时间范围当中有可能会对外推出发布相关的技术类的文档资料, 到那个时候的话就将会清清楚楚地揭晓透露出来更多的详细具体的细节情况。
今年你最打算用DeepSeek的识图模式去测怎样的图片, 是旅游景点的图片吗, 还是手写笔记的图片, 又或者是美食佳肴的图片吗 , 欢迎在评论区去分享你的测试结果, 点赞并且也请转发此文, 以便让更多的人能够看到那真实评测!
猜你喜欢