图像 - 智狐AI导航

CogAgent

CogAgent是一款由清华大学与智谱AI联合开发的多模态视觉大模型，专注于图形用户界面（GUI）的理解与导航。它具备视觉问答、视觉定位、GUI Agent、高分辨率图像处理及多模态能力，可应用于自动化测试、智能交互、多模态人工智能应用开发、企业级AI Agent平台等多个领域。CogAgent在多个基准测试中表现出色，尤其在GUI操作数据集上显著超越现有模型。

AI项目与工具 2025年06月12日 66 点赞 0 评论 608 浏览

HunyuanCustom

HunyuanCustom是腾讯混元团队开发的多模态视频生成框架，支持图像、音频、视频和文本等多种输入条件，生成高质量定制化视频。采用文本-图像融合与图像ID增强技术，提升身份一致性和视频真实性。适用于虚拟人广告、虚拟试穿、视频编辑等场景，具备音频驱动和视频驱动两种生成方式，展现强大可控性与灵活性。

AI项目与工具 2025年06月11日 73 点赞 0 评论 608 浏览

Perception

Perception-as-Control是由阿里巴巴通义实验室开发的图像动画框架，支持对相机和物体运动的细粒度控制。它基于3D感知运动表示，结合U-Net架构的扩散模型，实现多种运动相关的视频合成任务，如运动生成、运动克隆、转移和编辑。通过三阶段训练策略，提升运动控制精度和稳定性，适用于影视、游戏、VR/AR、广告及教育等多个领域。

AI项目与工具 2025年06月12日 20 点赞 0 评论 608 浏览

摩笔天书

摩笔天书是一款由摩尔线程研发的AI辅助绘本创作工具，它结合了故事生成、图像生成、语音合成及音乐创作等多种AI技术，为用户提供从文字到完整绘本的全流程自动化创作服务。用户可轻松调整生成内容，满足个性化需求。该工具以其卓越的图文一致性、易读性及自动生成的音乐和旁白，成为无设计经验者快速产出高质量绘本的理想选择。

AI项目与工具 2025年06月12日 26 点赞 0 评论 609 浏览

freeflo

FreeFlo 是一款面向创意工作者的 AI 工具，提供丰富的艺术风格提示词库，支持主流 AI 图像生成平台。其功能涵盖风格化提示词、SREF 参数代码及精选图片资源，适用于艺术创作、平面设计、游戏开发、影视制作及教育等多个领域，助力提升创意项目的效率与质量。

AI项目与工具 2025年06月12日 91 点赞 0 评论 609 浏览

R1

R1-Onevision 是一款基于 Qwen2.5-VL 微调的开源多模态大语言模型，擅长处理图像与文本信息，具备强大的视觉推理能力。它在数学、科学、图像理解等领域表现优异，支持多模态融合与复杂逻辑推理。模型采用形式化语言和强化学习技术，提升推理准确性与可解释性，适用于科研、教育、医疗及自动驾驶等场景。

AI项目与工具 2025年06月12日 92 点赞 0 评论 609 浏览

ImgCreator AI

Imgcreator AI，一款强大而灵活的在线图片生成工具，您只需在输入框中输入您想要转化为图像的文本。

Ai图片处理 2025年06月05日 69 点赞 0 评论 610 浏览

SVG Converter

SVG Converter是一款高效的在线矢量转换工具，可将多种位图格式（如JPG、PNG、BMP）转换为SVG、AI、EPS等矢量格式。支持高精度输出、像素级调整、多层结构及颜色自定义，操作简便，适用于网页设计、图形编辑、Logo制作等多个领域。

AI项目与工具 2025年06月12日 90 点赞 0 评论 611 浏览

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型，基于 Gemini Nano 架构，采用逐层嵌入技术，将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入，可生成结构化文本输出，并具备音频转录、情感分析等功能。可在本地设备运行，响应时间低至 50 毫秒，适用于语音助手、内容生成和学术任务定制。

AI项目与工具 2025年06月11日 87 点赞 0 评论 612 浏览

Artbreeder

Artbreeder 将创造力和协作结合在一起。重新混合您看到的任何图像，使其成为您自己的图像。关注您最喜爱的创作者，并与充满活力的 AI 艺术社区分享您的作品。

创作工具 1970年01月01日 0 点赞 0 评论 612 浏览

图像

首页

图像

列表

默认

浏览次数

发布日期