图像 - 智狐AI导航

Umi

Umi-OCR 是一款离线 OCR 工具，支持图片、截图和 PDF 文档的文字识别，具备数学公式与二维码识别功能，可生成可搜索 PDF。支持多语言识别与界面切换，提供命令行和 HTTP 接口调用，适用于文档数字化、数据录入、教育等多个场景。

AI项目与工具 2025年06月12日 51 点赞 0 评论 701 浏览

Tesseract

Tesseract是一款开源的光学字符识别（OCR）引擎，支持多语言识别和多种图像格式。其具备高精度的文字识别能力，适用于文档数字化、表格数据提取、发票识别及移动OCR应用等多个场景。支持跨平台运行，并提供丰富的编程接口和自定义训练功能，便于开发者集成和优化识别效果。

AI项目与工具 2025年06月12日 12 点赞 0 评论 728 浏览

Shining Yourself

Shining Yourself是商汤科技推出的高保真饰品虚拟试戴技术，基于扩散模型实现逼真试戴效果。支持多饰品、个性化调整、多场景模拟及动态展示，适用于电商、设计、社交及品牌推广等场景，提升用户体验与决策效率。

AI项目与工具 2025年06月12日 58 点赞 0 评论 852 浏览

InfiniteYou

InfiniteYou 是由字节跳动推出的基于扩散变换器的身份保持图像生成框架，通过 InfuseNet 注入身份特征，确保生成图像与输入图像的高度相似。结合多阶段训练策略，提升文本与图像对齐、图像质量和美学效果。支持插件化设计，兼容多种工具，适用于社交媒体、影视制作、广告营销等多个领域。

AI项目与工具 2025年06月12日 79 点赞 0 评论 556 浏览

RuoYi AI

RuoYi AI 是一个集成了本地 RAG 方案和多模型支持的全栈式 AI 开发平台，提供高效的代码管理、数据隐私保护和丰富的多媒体功能。支持多种大语言模型接入，具备微信扩展、插件系统和支付接口，适用于企业及个人开发者构建智能应用。

AI项目与工具 2025年06月12日 42 点赞 0 评论 494 浏览

aoGen

aoGen 是一款面向电商行业的 AI 图像生成工具，可快速生成多种风格的虚拟模特并实现服装适配，提供虚拟试衣功能以提升购物体验。其图像增强与编辑功能包括智能修复和物体移除，还可将静态图片转为动态视频，支持多场景应用，有效降低拍摄成本并提升视觉吸引力。

AI项目与工具 2025年06月12日 69 点赞 0 评论 593 浏览

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型，支持图像与语音的自然交互。它基于Moshi 7B架构，集成了视觉编码器和跨注意力机制，实现低延迟、自然流畅的对话体验。支持多种后端部署，适用于无障碍应用、智能家居、教育及工业场景，提升人机交互的智能化水平。

AI项目与工具 2025年06月12日 72 点赞 0 评论 752 浏览

DeepMesh

DeepMesh是由清华大学和南洋理工大学研发的3D网格生成框架，结合强化学习与自回归变换器技术，实现高质量、高精度的3D模型生成。支持点云和图像条件输入，具备高效的预训练策略与人类偏好对齐机制，适用于虚拟环境、角色动画、医学模拟及工业设计等多个领域。

AI项目与工具 2025年06月12日 98 点赞 0 评论 506 浏览

BlockDance

BlockDance是由复旦大学与字节跳动联合开发的扩散模型加速技术，通过识别结构相似的时空特征（STSS）减少冗余计算，提升推理效率达25%-50%。结合强化学习的BlockDance-Ada模块实现动态资源分配，平衡速度与质量。适用于图像、视频生成及实时应用，支持多种模型，兼顾高效与高质，适用于资源受限环境。

AI项目与工具 2025年06月12日 38 点赞 0 评论 715 浏览

Reve Image

Reve Image 是一款基于 AI 的图像生成工具，具备强大的视觉表现力与精准的提示理解能力。支持文生图和图生图模式，适用于广告设计、社交媒体内容创作、艺术创作及产品设计等多种场景。模型在色彩、光影和排版上优化显著，可生成高质量且富有设计感的图像。

AI项目与工具 2025年06月12日 44 点赞 0 评论 724 浏览

图像

首页

图像

列表

默认

浏览次数

发布日期

Umi