paddleocr-vl-1.5微调教程

doggie · 2026 年2 月 25 日 08:13

v1.4/docs/paddleocr_vl_sft_zh.md

release

[English](./paddleocr_vl_sft.md) | 简体中文

# PaddleOCR-VL-0.9B SFT

## 1. 引言
PaddleOCR-VL 是一款为文档解析任务量身打造的、性能顶尖 (SOTA) 且轻量高效的模型。它的核心是 PaddleOCR-VL-0.9B——一个紧凑而强大的视觉语言模型 (VLM)。该模型创新地集成了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型，从而能够精准地识别各类文档元素。

这款模型不仅能高效支持 109 种语言，还擅长识别文本、表格、公式、图表等复杂元素，并始终保持极低的资源占用。在多个权威的公开及内部基准测试中，PaddleOCR-VL 的页面级文档解析与元素级识别性能均达到了业界顶尖水平。其性能远超现有方案，面对顶级视觉语言模型也极具竞争力，且推理速度飞快。这些杰出特性使其成为在真实场景中落地部署的理想选择。

虽然 PaddleOCR-VL-0.9B 在常见场景下表现出色，但在许多特定或复杂的业务场景中，其性能会遇到瓶颈。例如：
- 特定行业与专业领域
    - 金融与财会领域：识别发票、收据、银行对账单、财务报表等
    - 医疗领域：识别病历、化验单、医生手写处方、药品说明书等
    - 法律领域：识别合同、法律文书、法庭文件、证书等

- 非标准化的文本与字体
    - 手写体识别：识别手写的表单、笔记、信件、问卷调查等
    - 艺术字体与设计字体：识别海报、广告牌、产品包装、菜单上的艺术字体等
    - 古籍与历史文献：识别古代手稿、旧报纸、历史档案等

此文件已被截断。显示原始文件

话题	回复	浏览量
multi-ocr-sdk现已支持paddleocr-vl-1.5 🛠工具与编程 ocr , paddle	11	2026 年2 月 26 日
deepseek-ocr和paddleocr-vl区别 🤖人工智能 ocr , deepseek , paddle	10	2026 年1 月 12 日
如何安装部署paddleocr-vl 💻编程 ocr	10	2026 年1 月 12 日
multi-ocr-sdk：支持多种ocr引擎的pip包 💻编程 ocr	31	2025 年12 月 16 日
如何在基础的vlm-ocr模型上结合传统的计算机视觉处理技术提高识别能力 🤖人工智能 ocr	10	2026 年1 月 13 日

paddleocr-vl-1.5微调教程

相关话题