模型 - 智狐AI导航

华为盘古AI大模型

华为的盘古ai大模型是华为云推出的一项人工智能技术。该大模型包含了多个领域的大型模型，包括自然语言处理（NLP）大模型、计算机视觉（CV）大模型、多模态大模型、预测大模型和科学计算大模型。

Ai平台模型 2025年06月05日 26 点赞 0 评论 733 浏览

Motion Anything

Motion Anything 是一款由多所高校与企业联合研发的多模态运动生成框架，可基于文本、音乐或两者结合生成高质量人类运动。其核心在于基于注意力的掩码建模和跨模态对齐技术，实现对运动序列的精细控制与动态优先级调整。该工具支持影视动画、VR/AR、游戏开发、人机交互及教育等多个应用场景，并配套提供 Text-Music-Dance (TMD) 数据集，推动多模态运动生成技术的发展。

AI项目与工具 2025年06月12日 23 点赞 0 评论 734 浏览

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型，具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程，支持FP16和Q4_K_M量化版本，确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域，为用户提供便捷、高效的语音交互体验。

AI项目与工具 2025年06月12日 95 点赞 0 评论 734 浏览

VPP

VPP（Video Prediction Policy）是清华大学与星动纪元联合开发的AIGC机器人模型，基于视频扩散模型实现未来场景预测与动作生成。支持高频预测与跨机器人本体学习，显著降低对真实数据的依赖。在复杂任务中表现出色，适用于家庭、工业、医疗、教育等多个领域。其开源特性推动了具身智能机器人技术的发展。

AI项目与工具 2025年06月11日 61 点赞 0 评论 735 浏览

Pixel3DMM

Pixel3DMM是由慕尼黑工业大学、伦敦大学学院和Synthesia联合开发的单图像3D人脸重建框架，基于DINOv2模型，能从单张RGB图像中准确重建出3D人脸的几何结构。该工具擅长处理复杂表情和姿态，支持身份和表情的解耦，并通过FLAME模型优化实现高精度重建。其应用场景涵盖影视游戏、VR/AR、社交视频、医疗美容和学术研究。

AI项目与工具 2025年06月11日 88 点赞 0 评论 735 浏览

phenaki

phenaki一种从文本生成视频的模型，提示可以随时间变化，视频可以长达数分钟。

Ai视频生成 2026年06月25日 0 点赞 0 评论 735 浏览

SynthID Text

SynthID Text 是一种由谷歌DeepMind开发的文本水印技术，主要用于识别和验证大型语言模型生成的文本。它通过在生成过程中嵌入几乎不可见的水印，保持文本质量的同时实现高效检测。SynthID Text 支持多种模式，适用于新闻、教育、法律及社交媒体等多个领域，为内容验证和AI应用提供了技术支持。

AI项目与工具 2025年06月12日 50 点赞 0 评论 735 浏览

OmAgent

OmAgent是由Om AI与浙江大学滨江研究院联合开发的多模态语言代理框架，支持文本、图像、视频等多种输入形式，简化设备端智能代理的开发流程。它具备高效模型集成、灵活算法接口和复杂任务处理能力，适用于视频监控、内容推荐、教育辅助等场景，提升设备智能化水平和用户体验。

AI项目与工具 2025年06月12日 97 点赞 0 评论 736 浏览

InternVL

InternVL是由上海人工智能实验室开发的多模态大模型，融合视觉与语言处理能力，支持图像、视频、文本等多种输入。其基于ViT-MLP-LLM架构，具备多模态理解、多语言处理、文档解析、科学推理等能力，广泛应用于视觉问答、智能客服、图像分析等领域。模型采用动态高分辨率与渐进式训练策略，提升处理效率与准确性。

AI项目与工具 2025年06月12日 78 点赞 0 评论 736 浏览

MotionCanvas

MotionCanvas是一种图像到视频生成工具，能将静态图像转化为动态视频。它提供相机与物体运动的联合控制，支持复杂轨迹设计和局部运动调整，具备3D感知能力，可生成高质量长视频。适用于电影制作、动画创作、VR/AR、游戏开发及教育等多个领域。

AI项目与工具 2025年06月12日 79 点赞 0 评论 737 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期