优化

MME

MME-CoT 是一个用于评估大型多模态模型链式思维推理能力的基准测试框架,涵盖数学、科学、OCR、逻辑、时空和一般场景六大领域,包含1,130个问题,每题均附关键推理步骤和图像描述。该框架引入推理质量、鲁棒性和效率三大评估指标,全面衡量模型推理能力,并揭示当前模型在反思机制和感知任务上的不足,为模型优化和研究提供重要参考。

Moondream

Moondream是一款小型的开源人工智能视觉语言模型,具有强大的图像处理能力和灵活性,能够在不同设备上运行。它基于Apache 2.0许可证,支持商业使用,并广泛应用于安全监控、无人机和机器人技术以及零售与购物领域。

明岐

明岐是上海交通大学LoCCS实验室开发的医学多模态大模型,专注于罕见病精准诊断。它整合影像、病历与化验数据,采用双引擎架构实现高精度、可解释的诊断,准确率超92%。通过模型优化技术,支持低成本本地化部署,适用于基层医疗、远程服务及科研教学,助力医疗资源均衡发展。

codeAI

一款革命性的VS Code插件,为开发人员提供了基于人工智能的代码生成、单元测试创建和文档生成能力。

VRAG

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,旨在提升视觉语言模型在处理视觉丰富信息时的检索、推理和理解能力。通过定义视觉感知动作空间,实现从粗粒度到细粒度的信息获取,并结合强化学习和综合奖励机制优化模型性能。该框架支持多轮交互推理,具备良好的可扩展性,适用于智能文档问答、视觉信息检索、多模态内容生成等多种场景。

Amuse AI

Amuse 2.0是一款由AMD开发的AI图像生成工具,专为AMD硬件优化,支持在PC上生成高质量图像。它具备设计模式,可将用户的草图和文本提示转化为图像,并提供AI滤镜功能,便于个性化风格的创作。Amuse 2.0 Beta版本集成了AMD XDNA超级分辨率技术,能有效提升图像分辨率。此外,该工具还提供了平衡、快速和质量三种模式,以满足不同用户的需求和偏好。

gling

Gling是一款集成了先进AI技术的视频编辑工具,主要功能涵盖自动去除不良拍摄片段、消除沉默及填充词、生成AI字幕、自动缩放画面、降低背景噪音等。它还能够为视频生成优化标题与章节,适用于个人视频博主、播客制作人、在线教育者及企业培训等多个领域,助力提升视频质量和效率。

Wisecut

Wisecut 是一款利用人工智能技术的在线视频编辑工具,其核心功能包括 AI 高光检测、自动字幕生成与多语言翻译、基于语音的故事板编辑、智能背景音乐匹配以及静音段落自动移除等。它特别适合用于社交媒体内容创作、视频博客、在线教育、产品营销和企业培训等领域,帮助用户快速制作高质量的短视频或音频内容。

Resume Builder

Resume Builder 是一款基于人工智能的简历制作工具,为求职者提供个性化简历和求职信生成服务。它结合AI技术,根据职位要求提供关键词建议,并提供丰富的模板和示例资源。用户可免费使用基础功能,支持多种格式下载,适合各类求职场景,如应届生、转行者及高管等人群使用。