ManusAI 全球首款通用型AI智能体,ManusAI通过自主任务执行、动态任务拆解、多模态交互和跨平台执行等能力,帮助用户高效完成复杂任务。 Ai平台模型 2025年06月05日 95 点赞 0 评论 370 浏览
Molmo 72B Molmo 72B是一款由艾伦人工智能研究所推出的开源多模态AI模型,集成了图像和文本处理能力,适用于图像描述生成、视觉问答、文档解析及多模态交互等多种任务。凭借其强大的视觉编码能力和先进的模型架构,Molmo 72B在学术基准测试中表现优异,为开源AI技术的发展做出了重要贡献。 AI项目与工具 2025年06月12日 69 点赞 0 评论 371 浏览
MMAudio MMAudio是一款基于多模态联合训练的音频合成工具,通过深度学习技术实现视频到音频、文本到音频的精准转换。它具备强大的同步模块,确保生成的音频与视频帧或文本描述时间轴完全对应,适用于影视制作、游戏开发、虚拟现实等多种场景,极大提升了跨模态数据处理的能力和应用效率。 AI项目与工具 2025年06月12日 68 点赞 0 评论 371 浏览
BLIP3 BLIP3-o是Salesforce Research等机构推出的多模态AI模型,结合自回归与扩散模型优势,实现高效图像理解和生成。基于CLIP语义特征,支持文本与图像间的双向转换及图像编辑。采用顺序预训练策略,提升模型性能。完全开源,适用于创意设计、视觉问答、艺术生成等多种场景。 AI项目与工具 2025年06月11日 12 点赞 0 评论 372 浏览
WebLI WebLI-100B是由Google DeepMind推出的超大规模视觉语言数据集,包含1000亿个图像与文本配对数据,是目前最大的视觉语言数据集之一。其设计旨在提升模型对长尾概念、文化多样性和多语言内容的理解能力。数据集通过网络爬取构建,保留了丰富的语言和文化多样性,支持多模态任务如图像分类、图像描述生成和视觉问答,广泛应用于人工智能研究、工程开发及教育领域。 AI项目与工具 2025年06月12日 51 点赞 0 评论 372 浏览
RenderNet RenderNet是一个基于AI技术的生成式平台,支持图像和视频创作,提供角色一致性控制、姿势调整、面部锁定等功能,适用于影视、游戏、广告及教育等多个领域。其开放API支持开发者构建定制化应用,提升内容创作效率与质量。 AI项目与工具 2025年06月12日 82 点赞 0 评论 373 浏览
VSI VSI-Bench是一种用于评估多模态大型语言模型(MLLMs)视觉空间智能的基准测试工具,包含超过5000个问题-答案对,覆盖多种真实室内场景视频。其任务类型包括配置型任务、测量估计和时空任务,可全面评估模型的空间认知、理解和记忆能力,并提供标准化的测试集用于模型性能对比。 --- AI项目与工具 2025年06月12日 10 点赞 0 评论 375 浏览
CoGenAV CoGenAV是一种先进的多模态学习模型,专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练,利用同步音频、视频和文本数据,学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能,适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。 AI项目与工具 2025年06月11日 80 点赞 0 评论 375 浏览
IMYAI智能助手 原名ILoveChatGPT,为用户提供丰富的AI服务,使用IMYAI,无需额外工具,即可让您畅享ChatGPT以及Midjourney等AI服务。 Ai平台模型 2025年06月05日 12 点赞 0 评论 376 浏览
UniFluid UniFluid是由谷歌DeepMind与麻省理工学院联合开发的统一自回归框架,支持图像生成与视觉理解任务。它通过连续视觉标记处理多模态输入,结合Gemma模型和VAE技术,实现高质量图像生成与强大视觉理解能力。该框架在图像编辑、视觉问答和图像描述等任务中表现出色,具备良好的下游任务迁移能力,适用于创意设计、内容创作等多个领域。 AI项目与工具 2025年06月12日 54 点赞 0 评论 376 浏览