多模态 - 智狐AI导航

Tough Tongue AI 2.0

Tough Tongue AI 2.0 是一款多模态对话训练工具，适用于面试、职场沟通、销售谈判等多种场景。用户可自定义AI角色与语气，通过视频和音频反馈练习非语言沟通技巧，并获得个性化反馈以提升表达能力。支持多语言使用，可无限重试，便于反复练习。具备嵌入功能，方便集成到其他平台。

AI项目与工具 2025年06月12日 61 点赞 0 评论 591 浏览

Qwen2vl

Qwen2VL-Flux 是一款基于多模态图像生成的模型，结合了 Qwen2VL 和 FLUX 技术。它支持多种生成模式，包括变体生成、图像到图像转换、智能修复和 ControlNet 引导生成，并具备深度估计和线条检测功能。该模型提供灵活的注意力机制和高分辨率输出，适用于艺术创作、内容营销、游戏开发等多个领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 591 浏览

JanusFlow

JanusFlow是一款集成了自回归语言模型与校正流技术的多模态AI模型，能够在单一框架内高效完成图像理解和生成任务。它通过解耦视觉编码器和表示对齐策略，显著提升了模型在视觉理解与图像生成上的表现，广泛应用于图像生成、多模态内容创作、视觉问答、图像理解和辅助设计等多个领域。

AI项目与工具 2025年06月12日 20 点赞 0 评论 591 浏览

Klavis AI

Klavis AI 是一个基于 MCP 协议的开源平台，提供稳定可靠的 MCP 服务器和多客户端集成能力。支持多种工具定制化配置，内置身份验证功能，保障安全性。平台采用分布式架构，适用于大规模用户场景，并通过 API 实现灵活部署与管理，适用于 AI 开发、数据处理、内容创作及企业协作等多种应用场景。

AI项目与工具 2025年06月11日 23 点赞 0 评论 591 浏览

星野app

星野app是一款功能强大的AI聊天机器人和智能对话工具，有趣的开放剧情和逼真的AI聊天，让你体验真正的聊天互动。

3D&游戏 2025年06月05日 83 点赞 0 评论 590 浏览

WeGen

WeGen是一款由中国科学技术大学等机构联合开发的多模态生成模型，结合多模态大语言模型与扩散模型，支持文本到图像生成、图像编辑、风格迁移等多种视觉任务。其特点包括对模糊指令的多样化响应、高一致性输出以及交互式生成能力，适用于创意设计、内容创作等多个领域。

AI项目与工具 2025年06月12日 79 点赞 0 评论 590 浏览

Steamer

Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型，能够将静态图像转化为动态视频，具备卓越的视觉生成能力。该模型基于 Transformer 扩散架构，支持多模态输入，包括中文文本提示和参考图像，实现像素级的画面控制与电影级构图效果。在 VBench 评测中荣获榜首，生成高清 1080P 视频，优化时间一致性与运动规律性，适用于广告、影视、游戏开发和内容创作等多个领域。

AI项目与工具 2025年06月11日 95 点赞 0 评论 589 浏览

Mistral OCR

Mistral OCR 是 Mistral AI 推出的高效 OCR 工具，支持多语言、多格式文档处理，准确率高达 99.02%。具备结构化输出、高速处理、多模态识别及 Doc-as-prompt 功能，适用于科研、文化遗产保护及企业文档管理等场景。

AI项目与工具 2025年06月12日 76 点赞 0 评论 588 浏览

AI教师助手

AI教师助手是北京外研在线数字科技有限公司推出的一款多功能教学辅助工具，它通过智能化技术帮助教师提高教学效率，同时也为学生提供个性化的学习体验。

创作工具 2026年06月23日 0 点赞 0 评论 587 浏览

Show

Show-o 是一款基于统一 Transformer 架构的多模态 AI 工具，集成了自回归和离散扩散建模技术，可高效处理视觉问答、文本到图像生成、图像修复与扩展以及混合模态生成等多种任务。其创新性技术显著提高了生成效率，减少了采样步骤，适用于社交媒体内容创作、虚拟助手、教育与培训、广告营销、游戏开发及影视制作等多个领域。

AI项目与工具 2025年06月12日 86 点赞 0 评论 587 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期