虚拟

INFP

INFP是一款基于音频驱动的头部生成框架,专为双人对话设计,具备自动角色转换功能。它通过两个阶段实现头部生成:基于动作的头部模仿和音频引导的动作生成。同时,INFP提出了大规模双人对话数据集DyConv,推动了相关领域的研究进展。该工具适用于视频会议、虚拟助手、教育培训、客户服务等多个场景,支持实时互动并可调节生成风格。

Cua

Cua 是一款基于 Apple Silicon 的开源 AI 代理工具,支持在 macOS 上运行高性能的虚拟机,并实现 AI 对桌面应用的操作。其核心功能包括虚拟化、任务自动化、多模型兼容与安全隔离。适用于开发、办公、教育及安全测试等多个场景,提供高效、灵活的 AI 操作体验。

Pixel3DMM

Pixel3DMM是由慕尼黑工业大学、伦敦大学学院和Synthesia联合开发的单图像3D人脸重建框架,基于DINOv2模型,能从单张RGB图像中准确重建出3D人脸的几何结构。该工具擅长处理复杂表情和姿态,支持身份和表情的解耦,并通过FLAME模型优化实现高精度重建。其应用场景涵盖影视游戏、VR/AR、社交视频、医疗美容和学术研究。

Project Turntable

Project Turntable是一款由Adobe发布的AI工具,支持用户在三维空间中旋转二维矢量图像,并利用生成式AI和深度学习技术即时生成图像的隐藏部分。它显著提升了设计师的工作效率,减少了重复性劳动,适用于平面设计、插画创作、动画制作及游戏开发等领域,同时保持了图像的二维特性和平滑过渡效果。

Janus

Janus是一种由DeepSeek AI开发的自回归框架,专注于多模态理解和生成任务的统一化。它通过分离视觉编码路径并使用单一Transformer架构来提升灵活性和性能,支持多种输入模态如图像、文本等,并在某些任务中表现出色。Janus具备多模态理解、图像生成及跨模态交互能力,适用于图像创作、自动标注、视觉问答等多个领域。

Praktika

Praktika是一款基于AI技术的语言学习应用,通过高度逼真的虚拟人物提供沉浸式口语练习,帮助用户提升语言流利度与自信心。平台提供个性化学习路径、丰富多样的课程内容及实时反馈功能,涵盖基础语法、商务英语、考试准备等主题,适用于不同学习目标和兴趣场景,是高效语言学习的优质选择。

AvatarGO

AvatarGO是由南洋理工大学、上海AI Lab和香港大学联合开发的AI框架,能够根据文本描述生成高质量的4D人体与物体交互场景。其核心在于利用LLM引导的接触重定位、空间感知的分数蒸馏采样和运动优化技术,实现精确的接触识别与动画生成,有效解决穿透问题。支持多种人物与物体组合,适用于虚拟导购、展厅讲解、VR/AR内容创作等多个领域。

Wavtool

Wavtool 是一款基于浏览器的 AI 音频创作平台,支持录制、编曲、混音和导出音乐,提供 AI 辅助创作功能,支持多轨处理及高级合成工具。用户可通过浏览器直接操作,无需安装软件,适合音乐爱好者、专业人士及教育用途。

KeySync

KeySync是一种高分辨率口型同步工具,由帝国理工学院和弗罗茨瓦夫大学联合开发。其采用两阶段生成框架,结合掩码策略和视频分割模型,实现音频与唇部动作的精准对齐。支持高清视频生成,具备遮挡处理、减少表情泄露等功能,在视觉质量、时间连贯性和同步精度上优于现有方法,适用于自动配音、虚拟形象、视频会议等多场景应用。

WorldCraft

WorldCraft是一款基于大型语言模型的3D世界创建系统,支持用户通过自然语言交互快速生成和调整虚拟场景。其核心模块包括物体定制、场景布局优化和轨迹控制,具备高精度的几何与纹理控制能力。系统兼容多种3D生成工具,适用于建筑设计、影视娱乐、教育等多个领域,为非专业人士提供高效、直观的创意设计解决方案。