Spirit LM Spirit LM 是一种由 Meta AI 开发的多模态语言模型,能够处理文本和语音数据,支持跨模态学习。其基础版(BASE)和表达版(EXPRESSIVE)分别侧重于语义理解和情感表达。Spirit LM 可用于自动语音识别(ASR)、文本到语音(TTS)、语音分类及情感分析等任务,在语音助手、语音转写、有声读物等领域具有广泛应用前景。 AI项目与工具 2025年06月12日 40 点赞 0 评论 815 浏览
文心大模型X1 文心大模型X1是百度开发的深度思考型AI模型,具备中文知识问答、逻辑推理、文学创作等能力,支持多模态内容生成与工具调用。采用递进式强化学习与端到端训练技术,结合飞桨平台实现高效推理。适用于文学创作、文案生成、学术研究、代码开发等多个领域,提供高性价比的AI服务。 AI项目与工具 2025年06月12日 64 点赞 0 评论 816 浏览
日日新融合大模型 日日新融合大模型(SenseNova)是商汤科技推出的多模态AI系统,支持文本、图像、视频等多种数据的融合处理,具备强大的深度推理与多模态分析能力。该模型在多个权威评测中表现优异,广泛应用于自动驾驶、视频交互、办公教育、金融、园区管理及工业制造等领域,提升了多场景下的智能化水平。 AI项目与工具 2025年06月12日 88 点赞 0 评论 818 浏览
NVILA NVILA是一款由NVIDIA开发的视觉语言模型,通过“扩展-压缩”策略优化处理高分辨率图像和长视频,兼具效率与准确性。它在图像和视频基准测试中表现优异,支持时间定位、机器人导航和医疗成像等应用场景,并通过参数高效微调和量化技术提升模型性能。未来将在GitHub和HuggingFace平台上开源。 AI项目与工具 2025年06月12日 68 点赞 0 评论 818 浏览
SlideChat SlideChat是一款先进的视觉语言助手,专注于处理和分析千兆像素级别的全切片病理图像。它具备强大的多模态对话能力和复杂指令响应能力,在显微镜检查、诊断等领域展现出卓越性能。通过两阶段训练机制,SlideChat实现了视觉与语言特征的有效对齐,并被广泛应用于病理诊断、医学教育、研究开发以及临床决策支持。 --- AI项目与工具 2025年06月12日 10 点赞 0 评论 819 浏览
探一下 探一下是一款依托于多模态大模型技术的AI视觉搜索工具,用户可通过其摄像头识别花草、宠物、潮玩等物体,获取旅游讲解、商品药品详情等信息,同时具备趣味解读图片的功能,支持文字翻译与场景触发滤镜,适用于多种生活场景。 --- AI项目与工具 2025年06月12日 47 点赞 0 评论 819 浏览
Learn About Learn About是一款由谷歌开发的对话式AI学习助手,基于Gemini模型,通过问答形式为用户提供简明答案并引导深入学习。它具备知识点梳理、参考资料推荐、内容大纲生成等功能,覆盖多学科领域,支持多模态学习资源,旨在提升用户的理解深度和学习效率。适合学术研究、备考复习、技能学习、家庭教育及终身学习等多种应用场景。 AI项目与工具 2025年06月12日 31 点赞 0 评论 820 浏览
Veo 3 Veo 3是谷歌推出的新一代视频生成模型,在I/O开发者大会上发布。它是首个能生成视频背景音效的模型,可合成画面并匹配人物对话和口型,支持1080P高质量视频生成,具备物理模拟与口型同步能力,可生成超过60秒的视频片段,并支持多种视觉风格。Veo 3整合了多项先进技术,适用于影视制作、广告营销及教育领域。 AI项目与工具 2025年06月11日 90 点赞 0 评论 822 浏览
LAM LAM是由微软开发的大型行动模型,能够理解和执行真实世界中的操作任务。它不仅能解析用户输入,还能生成具体行动指令,如启动程序或控制设备。LAM在Office等Windows应用中表现出色,任务完成率高于GPT-4。具备多模态输入理解、动态规划、环境交互和自主执行能力,适用于办公自动化、智能家居、客户服务等多个场景,显著提升任务执行效率和智能化水平。 AI项目与工具 2025年06月12日 26 点赞 0 评论 822 浏览