AI项目与工具

VoxInstruct

VoxInstruct是清华大学开源的语音合成技术,能够根据人类语言指令生成高质量的语音。该系统采用统一的多语言编解码器语言建模框架,将传统的文本到语音任务扩展到了更广泛的人类指令到语音任务。VoxInstruct通过引入语音语义标记和多种无分类器指导策略,提升了语音合成的自然度和表现力。它支持多语言和跨语言合成,适用于智能语音助手、有声读物、教育培训等多个领域。

字节跳动发布“豆包MarsCode”智能开发工具,面向国内开发者免费

豆包MarsCode是一款由字节跳动开发的免费AI编程工具,提供AI驱动的云端集成开发环境(IDE)和智能编程扩展。其主要功能包括代码补全、生成、优化、注释生成、代码解释和错误修复等。MarsCode支持云函数开发,集成API测试、存储和部署工具,并能自动生成JSON Schema。此外,MarsCode扩展支持多种编程语言和IDE,涵盖从代码编辑到单元测试生成的多个辅助功能,显著提升了编码效率和

LOKI

LOKI是一个由中山大学与上海AI实验室联合推出的合成数据检测基准,用于评估大型多模态模型在识别视频、图像、3D模型、文本及音频等多模态合成数据方面的性能。它包含超过18,000个问题,涵盖26个子类别,支持多层次标注和细粒度异常注释,并通过自然语言解释增强模型的可解释性。LOKI还通过对比多种开源和闭源模型的表现,揭示了这些模型在合成数据检测任务中的优势与不足。

Pollo AI

Pollo AI是一款由HIX.AI推出的AI视频创作平台,支持文本、图像及视频风格转换等多种功能,能将文字或图片快速生成高质量视频。平台具备角色一致性保障、多风格转换、高清输出等特性,适用于短视频制作、品牌推广、教学视频等领域,为用户提供高效的AI视频生成体验。

cookAIfood

CookAIfood是一个利用AI技术打造的烹饪平台,允许用户通过输入食材、上传图片或描述菜肴生成个性化的食谱。它提供包括菜单规划、购物清单生成在内的实用工具,同时具备社区分享功能,方便用户交流烹饪经验。CookAIfood还能生成高清食品图片,并根据用户需求提供定制化的饮食建议和烹饪灵感。

讯飞星辰MaaS

讯飞星辰MaaS是一个AI大模型定制微调平台,提供从数据管理到模型微调、评估、托管及推理服务的全流程支持。平台支持多种行业知名模型的零代码微调,具有高度灵活性和可扩展性,适用于逻辑推理、数据管理和多模态应用等场景,为企业提供高效、专业的AI解决方案。

Skywork

Skywork-Reward 是昆仑万维推出的一系列高性能奖励模型,包括 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B,主要用于优化大语言模型的训练过程。这些模型通过提供奖励信号,帮助模型理解和生成符合人类偏好的内容。Skywork-Reward 在对话、安全性和推理任务中表现出色,并且在 RewardBench 评估基准上名列前

Gemini Live

Gemini Live是一款由谷歌开发的智能语音助手,拥有自然语言理解和多模态识别能力,支持语音、图像和视频交互。其主要功能包括自然语言对话、多模态识别、个性化语音选择、任务自动化以及智能打断和续接。此外,Gemini Live还与谷歌的原生应用深度集成,提升用户体验。目标用户包括商务人士、技术探索者、多语言用户、创意人士和老年人。

MUSIC.AI

MUSIC.AI 是一款基于人工智能的音频处理平台,提供音频分离、混音、母带处理、语音转换、歌词转录等功能,支持多语言翻译与本地化。平台已处理超 10 亿分钟音频,服务数千万用户,适用于音乐制作、视频剪辑及现场演出等多种场景,显著提升音频处理效率与质量。

SAM 2.1

SAM 2.1是一款由Meta开发的先进视觉分割模型,支持图像和视频的实时分割处理。其核心功能包括用户交互式分割、多对象跟踪、数据增强以及遮挡处理等。通过引入Transformer架构和流式记忆机制,SAM 2.1显著提升了对复杂场景的理解能力。该工具具有广泛的应用场景,涵盖内容创作、医疗影像分析、自动驾驶等多个领域。