OCR
MarkItDown
MarkItDown是一款由微软推出的开源文档转换工具,支持多种文件格式(如PDF、Office文档、图像、音频等)转换为Markdown格式。它具备OCR文字识别、语音转文字、元数据提取等功能,适用于文档归档、内容发布、数据挖掘、学术研究等多个场景,旨在简化文件处理流程,提升工作效率。通过提供简单易用的API接口,MarkItDown成为开发者友好型工具。
DocTranslator
DocTranslator是一款支持多格式文档翻译的AI工具,可处理PDF、Word、Excel、PPT等多种文件类型,并保留原始排版。它支持100多种语言,具备OCR功能,能处理图像文件。适用于商业、学术和演示文稿等场景,支持大文件处理,操作便捷高效。
