音频 - 智狐AI导航

Video

Video-LLaVA2是一款由北京大学ChatLaw课题组开发的开源多模态智能理解系统。该系统通过时空卷积（STC）连接器和音频分支，显著提升了视频和音频的理解能力。其主要功能包括视频理解、音频理解、多模态交互、视频问答和视频字幕生成。时空建模和双分支框架是其核心技术原理。Video-LLaVA2广泛应用于视频内容分析、视频字幕生成、视频问答系统、视频搜索和检索、视频监控分析及自动驾驶等领域。

AI项目与工具 2025年06月12日 50 点赞 0 评论 575 浏览

Koolio.Ai

koolio.ai 是一个基于 Web 平台，可让您在几分钟内将一个概念变成一个完整的播客。

Ai语音工具 2025年06月05日 84 点赞 0 评论 573 浏览

AutomateClips

AutomateClips是一款人工智能视频生成器，专为社交媒体平台如TikTok、Instagram和YouTube设计，以自动化创建吸引人的视频内容。

Ai视频生成 2026年06月23日 0 点赞 0 评论 573 浏览

Seamless Communication

强大的AI同声传译工具，它通过实时处理和翻译语音，极大地促进了跨语言沟通。其低延迟、高准确度和多语言支持的特点，使其成为国际会议、多语言工作环境和任何需要实时语音翻译的...

创作工具 2026年06月23日 0 点赞 0 评论 570 浏览

Fugatto

Fugatto是一款由英伟达开发的音频合成与转换模型，利用增强型Transformer架构实现了从文本到音频的高效转化。它支持多种音频生成任务，如音乐创作、声音效果设计及语音合成，并可通过ComposableART技术实现对声音属性的精细调控。此外，Fugatto擅长生成动态变化的声音景观，广泛应用于音乐创作、声音设计及广告音频制作等领域。

AI项目与工具 2025年06月12日 44 点赞 0 评论 570 浏览

Loopy AI

字节跳动和浙江大学联合开发的音频驱动的AI视频生成模型，能够将静态图像转化为动态视频，实现音频与面部表情、头部动作的完美同步。

Ai视频生成 2025年06月05日 93 点赞 0 评论 569 浏览

Aero

Aero-1-Audio 是一款基于 Qwen-2.5-1.5B 的轻量级音频模型，拥有 1.5 亿参数，专注于长音频处理，支持连续 15 分钟音频输入并保持上下文连贯性。在语音识别、复杂音频分析及指令驱动任务中表现出色，具备高效的训练方法和多任务处理能力，适用于语音助手、实时转写、归档理解等场景。

AI项目与工具 2025年06月11日 43 点赞 0 评论 568 浏览

音品汇配音

为用户提供文字转语音在线转化服务，文字转语音准确率达99%

字幕配音 2025年06月05日 61 点赞 0 评论 566 浏览

Arctime

简单、强大、高效的跨平台字幕制作软件

字幕配音 2025年06月05日 34 点赞 0 评论 565 浏览

妙构

妙构是一款基于AI技术的视频内容分析工具，能够从视觉、音频和创意结构等多个维度对视频进行深度解析，提供专业的优化建议。其功能包括趋势分析、案例学习、智能反馈等，适用于视频创作者、内容策划及营销人员，帮助提升视频质量与传播效果。

AI项目与工具 2025年06月11日 86 点赞 0 评论 564 浏览

音频

首页

音频

列表

默认

浏览次数

发布日期