大家好,我是 Ai 学习的老章
DeepSeek-OCRDeepSeek 最近发布了《DeepSeek-OCR:基于视觉压缩的大模型长上下文增强方案》这篇论文,同步开源了模型文件。
最近一段时间好像是迎来了 OCR 的黄金时代,百度的 PaddleOCR-VL、阿里 Qwen3-VL、小红书的 dots-ocr、Nanonets-OCR2 等等。
更早之前我也测试过一些,阅读不佳就没再继续
# 文档解析测试 PDF,欢迎挑战
# 实测,大模型 LaTeX 公式识别,出乎预料
# 大模型开发之文档处理(1):PDF 转 Markdown 的 OCR 模型,本地部署,实测
# 大模型开发之文档处理 (2)—— 字节跳动文档图像解析模型 Dolphin,本地部署,实测
回到 DeepSeek-OCR,论文上看,它有两个核心,一个是纯粹的 OCR,这是本文测试的重点。
DepSeek-OCR 实测--公式我没有本地部署,直接使用了 HF 上一个 Space,应该是用的 Gradio 开发的

之前我测试只有 Gemini 2.5 Pro 可以完成任务,DeepSeek-OCR 犯了和其他模型一样的问题,其中一个模糊的 8 识别成了 6。
另外这个工具有一段奇怪的字符串
删掉之后就正常了,后面几个,为了展示方便,我都删了
百度Paddle也没完成,8识别成了6.
例 2:简单点,印刷版,可以完成任务,这个太简单了,其他模型也都可以胜任

2.jpeg
例 3:上难度,多个复杂公式一次识别

中间很多我没有同时让百度表现,因为也是用了 HF 的 Space,很不稳定

总结看 DeepSeek-OCR 确实很优秀,但是绝不是 SOTA 级别
补充说明,不是 DeepSeek-OCR 不好,它有我无法理解的伟大创新。单 OCR 这一块,单这几个实例,它确实不如百度 PaddleOCR-VL 这个 0.9B 的小模型。
此外,我还测试了论文阅读已死,alphaXiv 新功能,彻底颠覆科研工作流一文中提到的 API,调用 DeepSeek-OCR 把 PDF 转 Markdown,速度极快,22 页,一分钟不到。返回的是 json 格式,正文部分大量n 预览起来很费劲,简单看,它没有去理解配图,其他都还行。

搭建完美的写作环境:工具篇(12 章)图解机器学习 - 中文版(72 张 PNG)ChatGPT、大模型系列研究报告(50 个 PDF)108 页 PDF 小册子:搭建机器学习开发环境及 Python 基础 116 页 PDF 小册子:机器学习中的概率论、统计学、线性代数 史上最全!371 张速查表,涵盖 AI、ChatGPT、Python、R、深度学习、机器学习等
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263572 电子证书1157 电子名片68 自媒体91237