图像 - 智狐AI导航

BAGEL

BAGEL是字节跳动开源的多模态基础模型，拥有140亿参数，采用混合变换器专家架构（MoT），通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异，生成质量接近SD3，并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

AI项目与工具 2025年06月11日 92 点赞 0 评论 502 浏览

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型，基于 Gemini Nano 架构，采用逐层嵌入技术，将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入，可生成结构化文本输出，并具备音频转录、情感分析等功能。可在本地设备运行，响应时间低至 50 毫秒，适用于语音助手、内容生成和学术任务定制。

AI项目与工具 2025年06月11日 87 点赞 0 评论 706 浏览

Pixel3DMM

Pixel3DMM是由慕尼黑工业大学、伦敦大学学院和Synthesia联合开发的单图像3D人脸重建框架，基于DINOv2模型，能从单张RGB图像中准确重建出3D人脸的几何结构。该工具擅长处理复杂表情和姿态，支持身份和表情的解耦，并通过FLAME模型优化实现高精度重建。其应用场景涵盖影视游戏、VR/AR、社交视频、医疗美容和学术研究。

AI项目与工具 2025年06月11日 88 点赞 0 评论 735 浏览

Imagen 4

Imagen 4是谷歌推出的最新图像生成AI模型，支持高达2K分辨率的图像生成，具备出色的细节呈现能力，可清晰展示复杂织物纹理、水滴折射及动物毛发质感。其文本渲染能力显著提升，适合广告、漫画等设计场景。支持多种艺术风格，包括超现实、抽象、插图和摄影，满足多样化创作需求。同时，Imagen 4拥有快速生成模式和高效的特征蒸馏技术，提升了生成速度，并已集成到Gemini应用、Google Worksp

AI项目与工具 2025年06月11日 76 点赞 0 评论 717 浏览

Steamer

Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型，能够将静态图像转化为动态视频，具备卓越的视觉生成能力。该模型基于 Transformer 扩散架构，支持多模态输入，包括中文文本提示和参考图像，实现像素级的画面控制与电影级构图效果。在 VBench 评测中荣获榜首，生成高清 1080P 视频，优化时间一致性与运动规律性，适用于广告、影视、游戏开发和内容创作等多个领域。

AI项目与工具 2025年06月11日 95 点赞 0 评论 591 浏览

Custom

Custom-SVG 是一种基于文本提示生成定制风格 SVG 图形的框架，结合前馈模型与扩散模型的优势，实现结构规整且风格统一的矢量图形生成。支持风格定制、语义对齐和高效生成，适用于图形设计、UI 设计、网页设计及教育等多个领域。其核心技术包括路径级表示的扩散模型训练和基于图像扩散先验的风格迁移。

AI项目与工具 2025年06月11日 62 点赞 0 评论 1125 浏览

Tersa

Tersa 是一款开源免费的 AI 工作流构建平台，提供直观的拖放界面，支持 77 个主流 AI 模型，如 GPT-4o、Claude 3.5 Sonnet、DALL-E 3 和 Whisper 等，适用于文本生成、图像视频创作、音频转录和代码优化等多种任务。用户可通过拖放文件快速构建复杂流程，无需编程基础，广泛应用于内容生成、代码审查、原型开发和多模态功能集成等领域。

AI项目与工具 2025年06月11日 10 点赞 0 评论 483 浏览

LightLab

LightLab是一款基于扩散模型的图像光源控制工具，支持对图像中的光源强度、颜色、环境光以及虚拟光源进行精细调整。通过结合真实照片与合成图像训练，该工具能生成逼真的光照效果，如阴影和反射。其交互式界面使用户能够直观地进行光照编辑，适用于摄影后期、影视特效、室内设计、游戏开发和广告制作等多个领域。

AI项目与工具 2025年06月11日 34 点赞 0 评论 846 浏览

Index

Index-AniSora是由哔哩哔哩开发的动漫视频生成模型，支持多种动画风格的生成，涵盖番剧、国创、VTuber等内容。其核心技术包括扩散模型、时空掩码模块和Transformer架构，具备图像到视频生成、帧插值、局部引导等能力。模型提供高质量数据集，适用于动画制作、创意验证、教育及营销等多个领域。

AI项目与工具 2025年06月11日 32 点赞 0 评论 766 浏览

BLIP3

BLIP3-o是Salesforce Research等机构推出的多模态AI模型，结合自回归与扩散模型优势，实现高效图像理解和生成。基于CLIP语义特征，支持文本与图像间的双向转换及图像编辑。采用顺序预训练策略，提升模型性能。完全开源，适用于创意设计、视觉问答、艺术生成等多种场景。

AI项目与工具 2025年06月11日 12 点赞 0 评论 678 浏览

图像

首页

图像

列表

默认

浏览次数

发布日期