DeepSeek正式推出新一代文档识别模型DeepSeek-OCR 2。该模型基于前代DeepSeek-OCR优化升级,其核心升级在于全新的视觉编码器设计。
研究团队设计了名为DeepEncoder V2的新型编码器结构,该编码器能依据图像语义动态调整视觉信息处理顺序,让模型在文字识别前对视觉内容进行智能排序。这一创新源于对传统视觉语言模型处理逻辑的重新审视,旨在让机器的阅读方式更接近人类。
微信扫描下方的二维码阅读本文

DeepSeek正式推出新一代文档识别模型DeepSeek-OCR 2。该模型基于前代DeepSeek-OCR优化升级,其核心升级在于全新的视觉编码器设计。
研究团队设计了名为DeepEncoder V2的新型编码器结构,该编码器能依据图像语义动态调整视觉信息处理顺序,让模型在文字识别前对视觉内容进行智能排序。这一创新源于对传统视觉语言模型处理逻辑的重新审视,旨在让机器的阅读方式更接近人类。

之前