图像 - 智狐AI导航

aoGen

aoGen 是一款面向电商行业的 AI 图像生成工具，可快速生成多种风格的虚拟模特并实现服装适配，提供虚拟试衣功能以提升购物体验。其图像增强与编辑功能包括智能修复和物体移除，还可将静态图片转为动态视频，支持多场景应用，有效降低拍摄成本并提升视觉吸引力。

AI项目与工具 2025年06月12日 69 点赞 0 评论 593 浏览

RuoYi AI

RuoYi AI 是一个集成了本地 RAG 方案和多模型支持的全栈式 AI 开发平台，提供高效的代码管理、数据隐私保护和丰富的多媒体功能。支持多种大语言模型接入，具备微信扩展、插件系统和支付接口，适用于企业及个人开发者构建智能应用。

AI项目与工具 2025年06月12日 42 点赞 0 评论 494 浏览

InfiniteYou

InfiniteYou 是由字节跳动推出的基于扩散变换器的身份保持图像生成框架，通过 InfuseNet 注入身份特征，确保生成图像与输入图像的高度相似。结合多阶段训练策略，提升文本与图像对齐、图像质量和美学效果。支持插件化设计，兼容多种工具，适用于社交媒体、影视制作、广告营销等多个领域。

AI项目与工具 2025年06月12日 79 点赞 0 评论 556 浏览

Shining Yourself

Shining Yourself是商汤科技推出的高保真饰品虚拟试戴技术，基于扩散模型实现逼真试戴效果。支持多饰品、个性化调整、多场景模拟及动态展示，适用于电商、设计、社交及品牌推广等场景，提升用户体验与决策效率。

AI项目与工具 2025年06月12日 58 点赞 0 评论 852 浏览

Tesseract

Tesseract是一款开源的光学字符识别（OCR）引擎，支持多语言识别和多种图像格式。其具备高精度的文字识别能力，适用于文档数字化、表格数据提取、发票识别及移动OCR应用等多个场景。支持跨平台运行，并提供丰富的编程接口和自定义训练功能，便于开发者集成和优化识别效果。

AI项目与工具 2025年06月12日 12 点赞 0 评论 728 浏览

Umi

Umi-OCR 是一款离线 OCR 工具，支持图片、截图和 PDF 文档的文字识别，具备数学公式与二维码识别功能，可生成可搜索 PDF。支持多语言识别与界面切换，提供命令行和 HTTP 接口调用，适用于文档数字化、数据录入、教育等多个场景。

AI项目与工具 2025年06月12日 51 点赞 0 评论 701 浏览

InternVL

InternVL是由上海人工智能实验室开发的多模态大模型，融合视觉与语言处理能力，支持图像、视频、文本等多种输入。其基于ViT-MLP-LLM架构，具备多模态理解、多语言处理、文档解析、科学推理等能力，广泛应用于视觉问答、智能客服、图像分析等领域。模型采用动态高分辨率与渐进式训练策略，提升处理效率与准确性。

AI项目与工具 2025年06月12日 78 点赞 0 评论 735 浏览

Stable Virtual Camera

Stable Virtual Camera 是 Stability AI 推出的 AI 工具，能够将 2D 图像转换为具有真实深度和透视感的 3D 视频。用户可通过自定义相机轨迹生成多种宽高比的视频，支持最长 1000 帧的高质量输出。其核心技术包括生成式 AI、神经渲染和多视图一致性优化，确保视频在不同视角间过渡自然且保持 3D 一致性。适用于广告、内容创作及教育等多个领域。

AI项目与工具 2025年06月12日 61 点赞 0 评论 690 浏览

UniFluid

UniFluid是由谷歌DeepMind与麻省理工学院联合开发的统一自回归框架，支持图像生成与视觉理解任务。它通过连续视觉标记处理多模态输入，结合Gemma模型和VAE技术，实现高质量图像生成与强大视觉理解能力。该框架在图像编辑、视觉问答和图像描述等任务中表现出色，具备良好的下游任务迁移能力，适用于创意设计、内容创作等多个领域。

AI项目与工具 2025年06月12日 54 点赞 0 评论 702 浏览

TokenFD是由上海交通大学与美团联合开发的细粒度图文对齐基础模型，专为文档理解任务设计。通过图像与语言Token的统一特征空间对齐，支持Token级图文交互，提升了多模态任务性能。其基于自研的TokenIT数据集进行训练，涵盖2000万张图像和18亿高质量Token-Mask对，覆盖多种文本图像类型。TokenFD可用于文档处理、图像审查、文字检索及大模型知识增强等多个领域，具有广泛的适用性和

AI项目与工具 2025年06月12日 90 点赞 0 评论 673 浏览

图像

首页

图像

列表

默认

浏览次数

发布日期