多模态 - 智狐AI导航

VILA

VILA-U 是一款由 MIT 汉实验室开发的统一基础模型，整合了视频、图像和语言的理解与生成能力。它通过自回归框架简化模型结构，支持视觉理解、视觉生成、多模态学习和零样本学习等功能。VILA-U 在预训练阶段采用混合数据集，利用残差向量量化和深度变换器提升表示能力，适用于图像生成、内容创作辅助、自动化设计、教育和残障人士辅助等多种场景。

AI项目与工具 2025年06月12日 40 点赞 0 评论 1368 浏览

Data Formulator

Data Formulator是由微软研究院开发的开源AI数据可视化工具，结合图形化界面与自然语言输入，支持复杂数据转换和图表迭代设计。用户可通过拖拽或指令创建可视化，AI自动处理数据转换和代码生成。具备数据验证、样式调整和多模态交互等功能，适用于数据分析、概念扩展及可视化优化场景。

AI项目与工具 2025年06月12日 73 点赞 0 评论 1221 浏览

PixVerse V2

PixVerse V2是一款基于Diffusion+Transformer（DiT）架构并结合自研时空注意力机制的AI视频生成工具。它支持生成长度可达40秒的视频，单个片段最长可达8秒，且能保持视频片段间的一致性。用户可通过简单操作生成并编辑视频，适用于创意专业人士、社交媒体用户、企业营销人员及独立艺术家等多种人群。

AI项目与工具 2025年06月12日 47 点赞 0 评论 1091 浏览

Large Motion Model

Large Motion Model（LMM）是一款由新加坡南洋理工大学S-Lab和商汤科技合作研发的多模态运动生成框架。它支持从文本、音乐等多种模态生成逼真运动序列，具备高度精准的身体部位控制能力和强大的泛化能力。通过整合多样化的MotionVerse数据集以及创新性的ArtAttention机制和预训练策略，LMM在多个领域展现出高效的应用潜力，包括动画、虚拟现实、影视特效及运动分析等。

AI项目与工具 2025年06月12日 47 点赞 0 评论 1019 浏览

跃问创意板

跃问创意板是一款基于AI技术的用户友好型应用生成工具，支持通过自然语言指令快速创建小游戏、互动网页和可视化内容。具备零门槛操作、多轮交互、自动代码修复、版本管理和一键分享等功能，适用于游戏开发、教育、生活娱乐等多个场景，为用户提供高效便捷的创意实现方式。

AI项目与工具 2025年06月12日 18 点赞 0 评论 1014 浏览

Story Flicks

一款开源的基于AI大模型的故事短视频生成工具。用户输入故事主题，就能够迅速生成包含AI生成图像、故事内容以及音频的视频。

Ai视频生成 2025年06月05日 80 点赞 0 评论 998 浏览

BlueLM

BlueLM-V-3B是一种针对移动设备设计的多模态大型语言模型，结合了高效算法与系统优化，支持快速、低功耗的文本与图像处理。其主要特性包括多模态理解、实时响应、隐私保护、高效率部署及跨语言能力。该模型通过动态分辨率调整、批量图像编码及令牌下采样等技术，实现了在有限资源下的高性能表现。

AI项目与工具 2025年06月12日 62 点赞 0 评论 997 浏览

文远知行

全球领先的自动驾驶科技公司，文远知行提供从L2到L4的自动驾驶产品和服务，涵盖Robotaxi、Robobus、Robovan等多种自动驾驶车辆。

Ai科技公司 2025年06月05日 61 点赞 0 评论 997 浏览

OmniSVG

OmniSVG是复旦大学与StepFun联合开发的全球首个端到端多模态SVG生成模型，基于预训练视觉语言模型，通过创新的SVG标记化技术实现结构与细节的解耦，支持从文本、图像或角色参考生成高质量矢量图形。其训练效率高，支持长序列处理，适用于图标设计、网页开发、游戏角色生成等场景，生成结果具备高度可编辑性和跨平台兼容性。

AI项目与工具 2025年06月12日 90 点赞 0 评论 985 浏览

Media2Face

一款革命性的语音面部动画生成工具，借助 Media2Face，现在可以从任何音频、图像或文本输入无缝生成逼真且富有表现力的面部动画。

Ai开源项目 2025年06月05日 56 点赞 0 评论 970 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期