[English](./paddleocr_vl_sft.md) | 简体中文
# PaddleOCR-VL-0.9B SFT
## 1. 引言
PaddleOCR-VL 是一款为文档解析任务量身打造的、性能顶尖 (SOTA) 且轻量高效的模型。它的核心是 PaddleOCR-VL-0.9B——一个紧凑而强大的视觉语言模型 (VLM)。该模型创新地集成了 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型,从而能够精准地识别各类文档元素。
这款模型不仅能高效支持 109 种语言,还擅长识别文本、表格、公式、图表等复杂元素,并始终保持极低的资源占用。在多个权威的公开及内部基准测试中,PaddleOCR-VL 的页面级文档解析与元素级识别性能均达到了业界顶尖水平。其性能远超现有方案,面对顶级视觉语言模型也极具竞争力,且推理速度飞快。这些杰出特性使其成为在真实场景中落地部署的理想选择。
虽然 PaddleOCR-VL-0.9B 在常见场景下表现出色,但在许多特定或复杂的业务场景中,其性能会遇到瓶颈。例如:
- 特定行业与专业领域
- 金融与财会领域:识别发票、收据、银行对账单、财务报表等
- 医疗领域:识别病历、化验单、医生手写处方、药品说明书等
- 法律领域:识别合同、法律文书、法庭文件、证书等
- 非标准化的文本与字体
- 手写体识别:识别手写的表单、笔记、信件、问卷调查等
- 艺术字体与设计字体:识别海报、广告牌、产品包装、菜单上的艺术字体等
- 古籍与历史文献:识别古代手稿、旧报纸、历史档案等
此文件已被截断。 显示原始文件