多模态 - 智狐AI导航

TimeSuite

TimeSuite是一种由上海AI Lab开发的框架，专注于提升多模态大型语言模型在长视频理解任务中的表现。它通过引入高效的长视频处理框架、高质量的视频数据集TimePro和Temporal Grounded Caption任务，提升了模型对视频内容的时间感知能力，减少了幻觉风险，并显著提高了长视频问答和时间定位任务的性能。其核心技术包括视频令牌压缩、时间自适应位置编码、U-Net结构及多样化任务

AI项目与工具 2025年06月12日 78 点赞 0 评论 545 浏览

LLMDet

LLMDet是一款基于大型语言模型协同训练的开放词汇目标检测器，能够识别训练阶段未见过的目标类别。其通过结合图像和文本信息，实现高精度的零样本检测，并支持图像描述生成与多模态任务优化，适用于多种实际应用场景。

AI项目与工具 2025年06月12日 68 点赞 0 评论 546 浏览

LongVILA

LongVILA是一款专为长视频理解设计的视觉语言AI模型，由多家知名研究机构共同开发。它具备强大的长上下文处理能力和多模态序列并行性，能在大量GPU上高效训练，无需梯度检查点。LongVILA通过五阶段训练流程，结合大规模数据集构建和高性能推理，显著提升了长视频字幕的准确性和处理效率。此外，它还支持多种应用场景，包括视频字幕生成、内容分析、视频问答系统等。

AI项目与工具 2025年06月12日 52 点赞 0 评论 546 浏览

WeaveFox

WeaveFox 是一款基于 AI 技术的前端开发平台，通过百灵多模态大模型实现从设计图到前端源代码的自动化生成，支持多端适配及多种技术栈。它不仅提高了开发效率和代码质量，还提供了灵活的二次调整功能，确保设计意图的精准还原。未来，WeaveFox 将开放更多应用场景，如快速原型开发、中后台页面构建以及移动端界面生成等。

AI项目与工具 2025年06月12日 88 点赞 0 评论 547 浏览

星火快答

星火快答是科大讯飞推出的AI智能交互系统，集成了虚拟人、语音识别、大数据分析等功能，适用于展厅、会议、营销等场景。支持多模态交互、知识问答、数据可视化与跨屏联动，提升信息传递效率与用户体验。

AI项目与工具 2025年06月12日 86 点赞 0 评论 550 浏览

商汤日日新 | SenseNova

商汤日日新垂直领域场景落地应用丰富。

Ai平台模型 2025年06月05日 20 点赞 0 评论 550 浏览

Reka Flash 3

Reka Flash 3 是一款由 Reka AI 开发的开源推理模型，拥有 21 亿参数，支持多模态输入（文本、图像、视频、音频），并可处理最长 32k 个令牌的上下文。它具备高效的推理能力和多语言支持，适用于日常对话、编码辅助、指令执行等多种场景。模型可在本地部署，支持 4 位量化以降低资源占用，适合广泛的应用需求。

AI项目与工具 2025年06月12日 70 点赞 0 评论 551 浏览

MedGemma

MedGemma是谷歌推出的开源AI模型，专注于医疗图像与文本分析。它包含4B参数的多模态模型和27B参数的纯文本模型。4B模型擅长解读医疗图像并生成诊断报告，27B模型则用于医疗文本理解与临床推理。支持本地运行或通过Google Cloud部署，适用于医疗诊断、患者分诊、临床决策辅助等场景，提升医疗服务效率与准确性。

AI项目与工具 2025年06月11日 81 点赞 0 评论 551 浏览

高灯财务AI助手

高灯财务ai助手，垂直财税领域，为各种场景需求提供解决方案的专业助手，一站式解决方案，包括财税咨询、文件解读、财务报告和智能问答伙伴，通过对话式智能输出分析结果，帮助用...

创作工具 2026年06月23日 0 点赞 0 评论 553 浏览

狸谱

狸谱是一款集AI图像处理与互动创作于一体的多功能工具，提供“灵魂提取器”功能用于生成物体相关人设形象，同时拥有AI壁纸漫画创作、跑团剧情互动及自定义画风等功能。狸谱凭借其多模态大模型技术和丰富的应用场景，满足用户在娱乐、创意、教育等多个领域的多样化需求。

AI项目与工具 2025年06月12日 96 点赞 0 评论 553 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期