多模态
Motion Anything
Motion Anything 是一款由多所高校与企业联合研发的多模态运动生成框架,可基于文本、音乐或两者结合生成高质量人类运动。其核心在于基于注意力的掩码建模和跨模态对齐技术,实现对运动序列的精细控制与动态优先级调整。该工具支持影视动画、VR/AR、游戏开发、人机交互及教育等多个应用场景,并配套提供 Text-Music-Dance (TMD) 数据集,推动多模态运动生成技术的发展。
MultiBooth
MultiBooth是一种由多所高校和研究机构联合开发的多概念图像生成工具,能够根据文本提示生成包含多个指定概念的高质量图像。其核心技术包括单概念学习和多概念整合,采用多模态编码器、自适应归一化和区域定制化模块,实现高效、精准的图像生成。支持插件式架构,具备良好的扩展性和灵活性,适用于创意设计、广告、教育、电商及科研等多个领域。
OmniTalker
OmniTalker 是一款由阿里巴巴开发的实时多模态交互技术,支持文本、图像、音频和视频的同步处理,并能生成自然流畅的语音响应。其核心技术包括 Thinker-Talker 架构和 TMRoPE 时间对齐技术,实现音视频精准同步与高效流式处理。适用于智能语音助手、内容创作、教育、客服及工业质检等场景,具有高实时性与稳定性。