OCR - 智狐AI导航

PaliGemma 2 mix

PaliGemma 2 Mix 是谷歌 DeepMind 推出的多任务视觉语言模型，支持图像描述、目标检测、OCR、文档理解等功能。模型提供多种参数规模和分辨率选项，适用于不同场景。其基于开源框架开发，易于扩展，可通过简单提示切换任务。适用于科学问题解答、文档分析、电商内容生成等多个领域。

AI项目与工具 2025年06月12日 23 点赞 0 评论 587 浏览

Mistral OCR

Mistral OCR 是 Mistral AI 推出的高效 OCR 工具，支持多语言、多格式文档处理，准确率高达 99.02%。具备结构化输出、高速处理、多模态识别及 Doc-as-prompt 功能，适用于科研、文化遗产保护及企业文档管理等场景。

AI项目与工具 2025年06月12日 76 点赞 0 评论 586 浏览

Marker

Marker 是一款开源的高精度文档转换工具，支持 PDF、Word 等多种格式向 Markdown、JSON 和 HTML 的转换。它利用深度学习技术自动去除干扰元素，支持多语言处理，具备表格、代码块、公式识别及图像提取等功能，适用于学术研究、技术文档、教育资料等多种场景。同时支持硬件加速和批量处理，提升转换效率与用户体验。

AI项目与工具 2025年06月12日 26 点赞 0 评论 583 浏览

TextIn

TextIn是一款利用OCR技术实现文字识别的AI平台，支持多语言且具备强大的图像处理能力。它可以从各种类型的文档中提取结构化信息，并提供灵活的部署选项，适用于金融、物流、制造业等多个领域。TextIn通过智能算法优化文档处理流程，帮助企业提升效率。

AI项目与工具 2025年06月12日 31 点赞 0 评论 580 浏览

媒小三

媒小三，实用的新媒体工具大全，提供各种实用新媒体工具，如：AI配音，视频解析，短视频下载，文案提取，文章改写，标题生成等功能，帮助新媒体人一站式快捷操作。

Ai办公效率 2025年06月05日 46 点赞 0 评论 578 浏览

Kimi

Kimi-VL是月之暗面推出的轻量级多模态视觉语言模型，支持图像、视频、文档等多种输入形式。其基于轻量级MoE架构和原生分辨率视觉编码器，具备强大的图像感知、数学推理和OCR能力。在长上下文（128K）和复杂任务中表现优异，尤其在多模态推理和长视频理解方面超越同类模型。适用于智能客服、教育、医疗、内容创作等多个领域。

AI项目与工具 2025年06月11日 30 点赞 0 评论 576 浏览

parsio

Parsio是一款利用AI技术的文档解析工具，支持从PDF、电子邮件及发票等多种文档中自动提取结构化数据。它提供PDF解析与OCR功能，支持多语言识别和表格提取，适用于业务流程优化、客户关系管理及财务管理等多个领域，帮助企业提高效率并减少错误。

AI项目与工具 2025年06月12日 21 点赞 0 评论 567 浏览

FormX.ai

FormX.ai是一款基于AI技术的在线表单构建工具，帮助用户快速创建高质量的表单，并自动化地处理表单数据。

Ai办公效率 2025年06月05日 74 点赞 0 评论 561 浏览

白描网页版

图片转文字/ 图片转Excel表格/PDF转Word

格式转换 2025年06月05日 40 点赞 0 评论 560 浏览

Versatile

Versatile-OCR-Program是一款开源多模态OCR工具，支持从教育材料中提取文本、公式、表格等结构化数据，输出为JSON或Markdown格式，准确率高达90%-95%。它基于DocLayout-YOLO、Google Vision和MathPix等技术，支持多语言处理，适用于教育数据集制作、教学辅助、AI模型训练及个人学习等场景。

AI项目与工具 2025年06月11日 77 点赞 0 评论 555 浏览

OCR

首页

OCR

列表

默认

浏览次数

发布日期