AI项目与工具

Ruyi

Ruyi是一款基于DiT架构的图生视频大模型,支持多分辨率和多时长的视频生成,具有首帧、首尾帧控制、运动幅度调整及镜头方向控制等功能。它通过Casual VAE模块和Diffusion Transformer实现视频数据的压缩与生成,旨在降低动漫和游戏内容的开发周期和成本。目前,Ruyi-Mini-7B版本已开源。

Hedy AI

Hedy AI 是一款提升会议与对话效率的AI工具,支持19种语言,提供实时转录、智能总结、个性化提示及上下文敏感的见解。适用于商务会议、面试、课堂及医疗预约等场景,帮助用户更好地理解信息、提出有效问题并提升参与度。支持跨设备使用,注重隐私保护,适合多语言环境下的高效沟通。

RapiLearn AI

RapiLearn AI 是一款基于人工智能的教育工具,支持多种格式学习资料的整合与生成,包括视频、音频、笔记、测试和思维导图等。具备交互式学习功能,提供智能助教服务,可拓展知识点并推荐相关内容。支持多模态学习体验,适用于学生、教师及各类学习者,提升学习效率与知识掌握度。

Tavus – AI视频生成平台,支持数字人克隆和实时对话

Tavus 是一个先进的 AI 视频生成平台,提供逼真的数字人克隆和实时对话式视频。基于 Phoenix-2 模型和对话式视频接口(CVI),Tavus 支持企业快速部署 AI 视频产品,提升用户体验并确保安全合规。主要功能包括 AI 视频生成、实时对话、开发者文档和工具,适用于客户服务、个性化营销、虚拟助手、教育和产品演示等多种应用场景。

Songburst

Songburst是一款基于AI技术的音乐生成工具,用户可通过描述音乐风格或情感来生成原创音轨。该工具支持多场景应用,包括视频、播客、游戏等,并可将音乐导出至Spotify和Apple Music等平台。用户能够无限次下载生成的音乐文件,同时借助提示增强器优化生成效果,提升创作效率。

Skywork o1

Skywork o1是一款具备中文逻辑推理能力的大规模预训练模型,其核心优势在于内嵌思考、规划和反思能力,显著提升了复杂任务的推理性能。该模型基于开源Llama架构,同时提供增强版以满足更高要求的应用场景。它适用于技术开发者、企业决策者、教育工作者、内容创作者及客户服务等多个领域,助力创新应用开发和高效决策支持。 ---

OCRmyPDF

OCRmyPDF 是一款开源的命令行工具,用于将扫描 PDF 转换为可搜索、可编辑的文档。基于 Tesseract OCR 引擎,支持 100 多种语言,具备图像优化、纠偏、清洁等功能,提升识别准确率。支持多核处理与批量操作,适合高效处理大量文件,且完全离线运行,保障数据安全。

MuCodec

MuCodec是一款由清华大学等机构联合研发的超低比特率音乐编解码工具,具备音乐压缩、特征提取、离散化处理及流匹配重建等功能。该工具能够有效压缩音乐文件,在极低比特率下仍能保证高保真度,适用于多种应用场景如在线音乐流媒体服务、音乐下载、语言模型构建以及移动设备优化等。

CapWords

CapWords 是一款基于AI技术的语言学习工具,通过拍照识别物品并提供外语单词、发音及例句,支持9种语言。其核心功能包括单词贴纸、记忆卡片和智能复习提醒,帮助用户高效学习和巩固词汇。应用适用于日常学习、旅行交流、亲子互动等多种场景,适合各类语言学习者使用。

Shutterstock AI

Shutterstock AI是一款由Shutterstock与OpenAI合作开发的AI图像生成与编辑工具。它使用户能够通过简单的描述或文本提示,快速生成高质量、符合伦理标准的图片,适用于商业授权。该工具提供了六大核心功能,包括神奇画笔、变体生成、图像扩展、智能尺寸调整、背景移除以及AI图像生成器,旨在简化图片编辑流程并激发用户的创意灵感。