多模态交互

VideoRefer

VideoRefer是由浙江大学与阿里达摩院联合开发的视频对象感知与推理系统，基于增强型视频大型语言模型，实现对视频中对象的细粒度理解与分析。其核心包括大规模视频数据集、多功能空间-时间编码器和全面评估基准，支持对象识别、关系分析、推理预测及多模态交互等功能，适用于视频剪辑、教育、安防、机器人控制和电商等多个领域。

AI项目与工具 2025年06月12日 19 点赞 0 评论 698 浏览

Open Avatar Chat

Open Avatar Chat是阿里开源的模块化实时数字人对话系统，支持低延迟交互与多模态输入输出。系统采用模块化架构，允许灵活配置语音识别、语言模型和语音合成等组件，兼容本地与云服务。支持2D/3D数字人渲染，适用于客户服务、教育、娱乐及企业应用等多个场景，为开发者提供高效、灵活的AI对话解决方案。

AI项目与工具 2025年06月11日 81 点赞 0 评论 692 浏览

异世界回响

异世界回响是一款基于人工智能的社交平台，用户可与虚拟角色进行沉浸式交流。平台支持自定义角色形象与声音，提供AIGC工具创建独一无二的角色，并具备数字分身功能。主要面向寻求创新社交体验、情感陪伴以及对AI技术感兴趣的人群。

AI项目与工具 2025年06月12日 28 点赞 0 评论 691 浏览

Soundwave

Soundwave是由香港中文大学（深圳）开发的开源语音理解大模型，专注于语音与文本的智能对齐与处理。它采用对齐适配器和压缩适配器技术，提升语音特征压缩效率，支持语音翻译、语音问答、情绪识别及多模态交互等功能。适用于智能语音助手、语言学习、内容创作等多个领域，具有广泛的应用前景。

AI项目与工具 2025年06月12日 50 点赞 0 评论 687 浏览

ExperAI

ExperAI是一款基于AI聊天机器人的创新型平台，支持文本和语音交互，可上传文档和自定义知识库以提升对话个性化水平。其功能包括创建数字个性、知识分享、客户服务、个性化推荐及社交媒体集成等，广泛应用于客户服务、教育、健康咨询、个人助理和市场调研等领域，旨在通过自然语言处理技术，为用户提供深入且高效的对话体验。

AI项目与工具 2025年06月12日 82 点赞 0 评论 687 浏览

AnythingLLM

AnythingLLM 是一款开源、多模态的 AI 客户端工具，支持文本、图像和音频输入，可将文档转化为上下文信息供语言模型使用。支持本地和云端部署，具备多用户管理、工作区隔离、丰富的文档格式支持和强大的 API 接口。适用于企业知识管理、学术研究、个人学习、内容创作等多种场景，保障数据隐私安全。

AI项目与工具 2025年06月12日 37 点赞 0 评论 685 浏览

ManusAI

全球首款通用型AI智能体，ManusAI通过自主任务执行、动态任务拆解、多模态交互和跨平台执行等能力，帮助用户高效完成复杂任务。

Ai平台模型 2025年06月05日 95 点赞 0 评论 677 浏览

小红书点点

一款主打生活场景的AI聚合搜索工具，生活搜索助手，小红书点点只要为用户提供便捷的生活服务和信息查询。

AI搜索问答 2025年06月05日 72 点赞 0 评论 666 浏览

Neural4D 2o

Neural4D 2o 是一款基于多模态数据训练的 3D 大模型，支持文本、图像、3D 和运动数据输入，实现高精度的 3D 内容生成与编辑。具备上下文一致性、角色身份保持、换装和风格迁移等功能，支持自然语言指令操作。采用 Transformer 编码器与 3D DiT 解码器架构，原生兼容 MCP 协议，提升创作效率与交互体验，适用于 3D 内容创作、游戏开发、影视动画等多个领域。

AI项目与工具 2025年06月11日 50 点赞 0 评论 656 浏览

智谱清言ChatGLM

智谱清言是一款基于人工智能技术的对话助手，遵循中国政府的立场和社会主义价值观，提供多领域知识问答、信息检索、文本生成等服务。

Ai平台模型 2026年06月23日 0 点赞 0 评论 641 浏览

多模态交互

首页

多模态交互

列表

默认

浏览次数

发布日期