分析 - 智狐AI导航

MM1.5

MM1.5是苹果公司研发的多模态大型语言模型，具备强大的文本与图像理解能力，包括视觉指代、定位及多图像推理功能。它通过数据驱动的训练方法，实现了从1B到30B参数规模的性能提升，并推出了视频和移动UI专用版本，为多模态AI技术发展提供重要参考。主要应用场景涵盖图像与视频理解、视觉搜索、辅助驾驶、智能助手及教育领域。

AI项目与工具 2025年06月12日 64 点赞 0 评论 814 浏览

Spirit LM

Spirit LM 是一种由 Meta AI 开发的多模态语言模型，能够处理文本和语音数据，支持跨模态学习。其基础版（BASE）和表达版（EXPRESSIVE）分别侧重于语义理解和情感表达。Spirit LM 可用于自动语音识别（ASR）、文本到语音（TTS）、语音分类及情感分析等任务，在语音助手、语音转写、有声读物等领域具有广泛应用前景。

AI项目与工具 2025年06月12日 40 点赞 0 评论 815 浏览

文心大模型X1

文心大模型X1是百度开发的深度思考型AI模型，具备中文知识问答、逻辑推理、文学创作等能力，支持多模态内容生成与工具调用。采用递进式强化学习与端到端训练技术，结合飞桨平台实现高效推理。适用于文学创作、文案生成、学术研究、代码开发等多个领域，提供高性价比的AI服务。

AI项目与工具 2025年06月12日 64 点赞 0 评论 816 浏览

Command A

Command A 是 Cohere 推出的企业级生成式 AI 模型，具备高性能和低硬件需求，支持 256k 上下文长度及 23 种语言。集成 RAG 技术，提升信息准确性。适用于文档分析、多语言处理、智能客服和数据分析等场景，适合企业部署使用。

AI项目与工具 2025年06月12日 48 点赞 0 评论 817 浏览

OSUM

OSUM是一款由西北工业大学研发的开源语音理解模型，结合Whisper编码器与Qwen2 LLM，支持语音识别、情感分析、说话者性别分类等多种任务。采用“ASR+X”多任务训练策略，提升模型泛化能力和稳定性。基于约5万小时语音数据训练，性能优异，适用于智能客服、教育、心理健康监测等多个领域。

AI项目与工具 2025年06月12日 46 点赞 0 评论 817 浏览

烽火研报

实时全面的行业报告聚合检索平台

GPTs应用 2026年06月24日 0 点赞 0 评论 818 浏览

NVILA

NVILA是一款由NVIDIA开发的视觉语言模型，通过“扩展-压缩”策略优化处理高分辨率图像和长视频，兼具效率与准确性。它在图像和视频基准测试中表现优异，支持时间定位、机器人导航和医疗成像等应用场景，并通过参数高效微调和量化技术提升模型性能。未来将在GitHub和HuggingFace平台上开源。

AI项目与工具 2025年06月12日 68 点赞 0 评论 818 浏览

日日新融合大模型

日日新融合大模型（SenseNova）是商汤科技推出的多模态AI系统，支持文本、图像、视频等多种数据的融合处理，具备强大的深度推理与多模态分析能力。该模型在多个权威评测中表现优异，广泛应用于自动驾驶、视频交互、办公教育、金融、园区管理及工业制造等领域，提升了多场景下的智能化水平。

AI项目与工具 2025年06月12日 88 点赞 0 评论 819 浏览

SlideChat

SlideChat是一款先进的视觉语言助手，专注于处理和分析千兆像素级别的全切片病理图像。它具备强大的多模态对话能力和复杂指令响应能力，在显微镜检查、诊断等领域展现出卓越性能。通过两阶段训练机制，SlideChat实现了视觉与语言特征的有效对齐，并被广泛应用于病理诊断、医学教育、研究开发以及临床决策支持。 ---

AI项目与工具 2025年06月12日 10 点赞 0 评论 819 浏览

扣子罗盘

扣子罗盘是一款面向开发者和创业团队的AI工具平台，支持从Prompt开发到AI Agent部署的全生命周期管理。具备Prompt智能中枢、实时观测预警和全链路评测体系等核心功能，提升开发效率与系统稳定性。适用于智能客服、内容创作、教育辅导等多个场景，助力AI应用快速落地。

AI项目与工具 2025年06月12日 42 点赞 0 评论 820 浏览

分析

首页

分析

列表

默认

浏览次数

发布日期