模型 - 智狐AI导航

谷歌DeepMind推出V2A技术，可为无声视频添加逼真音效

DeepMind推出的V2A（Video-to-Audio）模型能够将视频内容与文本提示相结合，生成包含对话、音效和音乐的详细音频轨道。它不仅能够与DeepMind自身的视频生成模型Veo协同工作，还能与其他视频生成模型，如Sora、可灵或Gen 3等，进行集成，从而为视频添加戏剧性的音乐、逼真的音效或与视频中角色和情绪相匹配的对话。V2A的强大之处在于其能够为每个视频输入生成无限数量的音轨。该模

AI项目与工具 2025年06月12日 21 点赞 0 评论 413 浏览

Audio2Photoreal

从音频生成全身逼真的虚拟人物形象。它可以从多人对话中语音中生成与对话相对应的逼真面部表情、完整身体和手势动作。

Ai开源项目 2025年06月05日 77 点赞 0 评论 413 浏览

MultiTalk

MultiTalk是由中山大学深圳校区、美团和香港科技大学联合推出的音频驱动多人对话视频生成框架。它根据多声道音频输入、参考图像和文本提示，生成包含人物互动且口型与音频一致的视频。通过Label Rotary Position Embedding (L-RoPE) 方法解决多声道音频与人物绑定问题，并采用部分参数训练和多任务训练策略，保留基础模型的指令跟随能力。MultiTalk适用于卡通、歌唱及

AI项目与工具 2025年06月11日 11 点赞 0 评论 413 浏览

WebDreamer

WebDreamer是一款基于大型语言模型的网络智能体，专注于通过模拟和预测网络交互结果来进行高效的任务规划与决策。它具备模拟函数、评分函数以及候选动作生成等功能，能够显著提升网络任务执行的效率与安全性，同时支持多种应用场景，包括网页自动化、智能搜索、客户服务等领域。

AI项目与工具 2025年06月12日 35 点赞 0 评论 413 浏览

Open WebUI

一个可扩展、功能丰富且用户友好的自托管 WebUI，适用于各种 LLM 运行器，支持的 LLM 运行器包括 Ollama 和 OpenAI 兼容的 API。

Ai开源项目 2025年06月05日 75 点赞 0 评论 414 浏览

Auto Think

Auto Think是快手Kwaipilot团队开源的KwaiCoder-AutoThink-preview自动思考大模型，针对深度思考大模型的“过度思考”问题，提出了一种全新的训练范式。模型融合“思考”和“非思考”能力，能根据问题难度自动切换模式，提升复杂任务表现。在代码和数学类任务中，性能提升可达20分。其技术原理包括最小提示干预和多阶段强化学习，适用于视频生成、文案创作、智能客服等多个场景。

AI项目与工具 2025年06月11日 26 点赞 0 评论 414 浏览

商汤日日新 | SenseNova

商汤日日新垂直领域场景落地应用丰富。

Ai平台模型 2025年06月05日 20 点赞 0 评论 414 浏览

Chromox AI

一个由AlkaidVision开发的文生视频、图生视频的AI工具，专注于将创意转化为视觉故事，适用于各种动态内容生成。

Ai视频生成 2025年06月05日 74 点赞 0 评论 415 浏览

ELLA

ELLA（Efficient Large Language Model Adapter）是一种由腾讯研究人员开发的方法，旨在提升文本到图像生成模型的语义对齐能力。它通过引入时序感知语义连接器（TSC），动态提取预训练大型语言模型（LLM）中的时序依赖条件，从而提高模型对复杂文本提示的理解能力。ELLA无需重新训练，可以直接应用于预训练的LLM和U-Net模型，且能与现有模型和工具无缝集成，显著提升

AI项目与工具 2024年01月01日 74 点赞 0 评论 415 浏览

MedGemma

MedGemma是谷歌推出的开源AI模型，专注于医疗图像与文本分析。它包含4B参数的多模态模型和27B参数的纯文本模型。4B模型擅长解读医疗图像并生成诊断报告，27B模型则用于医疗文本理解与临床推理。支持本地运行或通过Google Cloud部署，适用于医疗诊断、患者分诊、临床决策辅助等场景，提升医疗服务效率与准确性。

AI项目与工具 2025年06月11日 81 点赞 0 评论 416 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期