日日新SenseNova V6 日日新SenseNova V6是商汤科技推出的第六代多模态大模型,基于6000亿参数架构,支持文本、图像、视频的原生融合。具备强推理、长记忆与情感表达能力,适用于视频分析、教育辅导、智能客服、具身智能等多个领域,提升交互体验与内容处理效率。 AI项目与工具 2025年06月11日 19 点赞 0 评论 562 浏览
AndroidLab AndroidLab 是一款面向 Android 自主代理的训练与评估框架,集成了文本和图像模态操作环境,提供标准化的基准测试任务。它通过支持多种模型类型(LLMs 和 LMMs),覆盖九个应用场景的 138 项任务,有效提升了开源模型的性能。此外,AndroidLab 提供了丰富的评估指标和操作模式,助力研究者优化模型表现并推动开源解决方案的发展。 AI项目与工具 2025年06月12日 38 点赞 0 评论 562 浏览
Topaz Photo AI Topaz Photo AI 是一款使用人工智能 (AI) 来提高照片和视频质量的软件。它可以通过先进的技术锐化、去除噪点来提高图像的分辨率。 Ai图片处理 2025年06月05日 12 点赞 0 评论 562 浏览
I2VEdit I2VEdit是一款基于图像到视频扩散模型的先进视频编辑框架,通过首帧编辑实现全视频效果传播。它能够保持视频的时间和运动一致性,支持局部与全局编辑任务,包括更换对象、风格转换等,并广泛应用于社交媒体内容创作、视频后期制作、虚拟试穿等领域。 AI项目与工具 2025年06月12日 19 点赞 0 评论 562 浏览
StreamBridge StreamBridge是一款由苹果与复旦大学联合开发的端侧视频大语言模型框架,支持实时视频流的理解与交互。通过内存缓冲区和轮次衰减压缩策略,实现长上下文处理与主动响应。项目配套发布Stream-IT数据集,包含60万样本,适用于多种视频理解任务,展现出在视频交互、自动驾驶、智能监控等领域的应用前景。 AI项目与工具 2025年06月11日 41 点赞 0 评论 562 浏览
FastVLM FastVLM是一款高效的视觉语言模型,采用FastViTHD混合视觉编码器,显著提升高分辨率图像处理速度并减少token数量。其在保持高性能的同时,降低了计算成本和模型复杂度。适用于视觉问答、图文匹配、文档理解、图像描述生成等多模态任务,具备良好的实用性和扩展性。 AI项目与工具 2025年06月11日 85 点赞 0 评论 562 浏览
OmniAudio OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型,具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程,支持FP16和Q4_K_M量化版本,确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域,为用户提供便捷、高效的语音交互体验。 AI项目与工具 2025年06月12日 95 点赞 0 评论 561 浏览
ViDoRAG ViDoRAG是阿里巴巴通义实验室联合高校开发的视觉文档检索增强生成框架,采用多智能体协作与动态迭代推理技术,提升复杂文档的检索与理解能力。通过高斯混合模型优化多模态信息整合,支持精准检索与高质量生成,适用于教育、金融、医疗等多个领域,显著提升文档处理效率与准确性。 AI项目与工具 2025年06月12日 26 点赞 0 评论 561 浏览
InternVL InternVL是由上海人工智能实验室开发的多模态大模型,融合视觉与语言处理能力,支持图像、视频、文本等多种输入。其基于ViT-MLP-LLM架构,具备多模态理解、多语言处理、文档解析、科学推理等能力,广泛应用于视觉问答、智能客服、图像分析等领域。模型采用动态高分辨率与渐进式训练策略,提升处理效率与准确性。 AI项目与工具 2025年06月12日 78 点赞 0 评论 561 浏览