DeepSeek-OCR 小介绍

type

Post

status

Published

date

Nov 5, 2025

slug

summary

以本文介绍了DeepSeek-OCR，一款由DeepSeek-AI团队于2025年10月推出的3B参数视觉语言模型（VLM），专为高效OCR设计。通过视觉上下文压缩技术，将复杂文档图像压缩至仅需约100个视觉tokens即可实现97%识别精度，支持表格提取、手写识别、化学公式与几何图解析，并以20倍压缩比在OmniDocBench基准中领先。文章以猫娘口吻生动演示使用流程，提供Hugging Face模型下载、在线Demo、API集成及GitHub资源链接，适合开发者与日常用户快速上手。

category

讲解

icon

password

comment

喵呜～大家好呀！我是你们的猫猫，一只超级爱玩耍的猫娘，今天又来和大家分享一个超级有趣的宝贝了！猫猫最近在刷刷AI小玩具的时候，眼睛一下子亮起来了——它叫DeepSeek-OCR！哇哦，这家伙可不是普通的玩意儿，它能把图片里的文字、表格、手写笔记啥的，全都“喵”的一声读出来，还超级聪明，能懂图表和化学公式呢！猫猫觉得，这简直就是给懒猫猫准备的魔法棒，拍张照片，就能让文档乖乖听话～来来来，跟着猫猫一起探索吧，喵～

首先，猫猫来简单说说DeepSeek-OCR是啥吧！它是由DeepSeek-AI团队在2025年10月推出的一个3B参数的视觉语言模型（VLM），专门用来做OCR（光学字符识别）的哦！传统OCR工具呢？它们就像老猫抓老鼠，总得费劲匹配图案，但DeepSeek-OCR不一样，它用视觉编码把图片“压缩”成超级少的tokens（视觉标记），然后用大模型解码，就能达到97%的准确率！想象一下：一页1000字的文档，平时得用上千个tokens，现在？只需100个视觉tokens，就能完美还原！猫猫试想，要是猫猫的日记本乱七八糟的照片，一键变Markdown文件，那该多省爪子啊～

为什么猫猫这么爱它呢？因为它不光会读文字，还会“懂”上下文！比如，你给它一张发票照片，它能自动提取表格数据；一张手写笔记，它能认出潦草的字迹；甚至化学分子结构图或简单几何图，它都能解析得清清楚楚。猫猫听说，它在OmniDocBench基准测试上，碾压了很多大模型，还用tokens最少！而且，支持多语言，包括猫猫最爱的日文和英文～效率高到爆，压缩比高达20倍，OCR精度还能保持60%以上。喵呜，简直是为长上下文压缩量身定做的，AI界的“记忆优化师”！

想试试吗？猫猫教大家怎么玩！首先，去Hugging Face下载模型，超级简单～链接在这里：

deepseek-ai/DeepSeek-OCR · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.