OCR

超级助理

超级助理是百度智能云发布的AI浏览器插件,可以随时感知用户的需求,在解析复杂问题、辅助文案创作、智能文档处理、对话式搜索和全文翻译等场景中提供帮助。

Versatile

Versatile-OCR-Program是一款开源多模态OCR工具,支持从教育材料中提取文本、公式、表格等结构化数据,输出为JSON或Markdown格式,准确率高达90%-95%。它基于DocLayout-YOLO、Google Vision和MathPix等技术,支持多语言处理,适用于教育数据集制作、教学辅助、AI模型训练及个人学习等场景。

parsio

Parsio是一款利用AI技术的文档解析工具,支持从PDF、电子邮件及发票等多种文档中自动提取结构化数据。它提供PDF解析与OCR功能,支持多语言识别和表格提取,适用于业务流程优化、客户关系管理及财务管理等多个领域,帮助企业提高效率并减少错误。

Kimi

Kimi-VL是月之暗面推出的轻量级多模态视觉语言模型,支持图像、视频、文档等多种输入形式。其基于轻量级MoE架构和原生分辨率视觉编码器,具备强大的图像感知、数学推理和OCR能力。在长上下文(128K)和复杂任务中表现优异,尤其在多模态推理和长视频理解方面超越同类模型。适用于智能客服、教育、医疗、内容创作等多个领域。

MonkeyOCR

MonkeyOCR是由华中科技大学与金山办公联合开发的文档解析模型,能够高效地将非结构化文档内容转换为结构化信息。其支持多种文档类型和语言,处理复杂文档(如公式、表格)效果显著,处理速度达每秒0.84页。基于SRR三元组范式和MonkeyDoc数据集,模型在准确性和效率上表现优异,适用于自动化业务流程、数字存档、智能教育、医疗记录管理及学术研究等场景。

媒小三

媒小三 ,实用的新媒体工具大全,提供各种实用新媒体工具,如:AI配音,视频解析,短视频下载,文案提取,文章改写,标题生成等功能,帮助新媒体人一站式快捷操作。

Manga Image Translator

Manga Image Translator 是一个开源的漫画图片文字翻译工具,基于 OCR 和机器翻译技术,实现对漫画和图片中文字的自动识别与翻译。它支持多语言翻译,包括日文、中文、英文和韩文,并具备图像合成能力,保持原图风格。工具提供批量处理和在线/离线翻译功能,适用于漫画爱好者、语言学习者以及出版商等用户群体。

Marker

Marker 是一款开源的高精度文档转换工具,支持 PDF、Word 等多种格式向 Markdown、JSON 和 HTML 的转换。它利用深度学习技术自动去除干扰元素,支持多语言处理,具备表格、代码块、公式识别及图像提取等功能,适用于学术研究、技术文档、教育资料等多种场景。同时支持硬件加速和批量处理,提升转换效率与用户体验。

SmolDocling

SmolDocling-256M-preview 是一款轻量级多模态文档处理模型,能将图像文档高效转换为结构化文本,支持文本、公式、图表等多种元素识别。模型参数量仅256M,推理速度快,适合学术与技术文档处理。具备OCR、布局识别、格式导出等功能,并兼容Docling,适用于文档数字化、科学研究及移动环境应用。