模型

Sonauto AI

一款AI音乐生成器,允许用户通过将文本提示、歌词或旋律转换为完整的不同风格的歌曲。它采用了潜在扩散模型,这使得它与其他人工智能音乐生成模型相比更加可控。

Ola

Ola是一款由多机构联合开发的全模态语言模型,支持文本、图像、视频和音频等多种输入形式。通过渐进式模态对齐策略,逐步扩展模型的多模态理解能力,同时采用流式解码技术提升交互体验。其架构融合多种编码器与解码器,结合局部-全局注意力机制,实现高效多模态处理,在多项任务中表现优异。

LCVD

LCVD是一种由四川大学开发的高保真肖像动画生成框架,支持光照可控的动态视频生成。它通过分离肖像的内在与外在特征,并结合多条件分类器自由引导机制,实现对光照和姿态的精细控制。LCVD在图像质量、视频一致性和光照真实感方面表现突出,适用于虚拟现实、视频会议、影视制作及内容创作等多个领域。

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别(ASR)模型,采用 FastConformer 和 TDT 架构,具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异,实时因子高达 3386,适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

Mirage Studio

一款基于自研全模态基础模型的AI视频生成工具,可根据音频、文本、图像等输入自动生成具有真实情感和动作的虚拟角色视频。

FinGPT

FinGPT是一款面向金融领域的开源大语言模型,基于自然语言处理技术,支持情感分析、关系提取、标题分类和命名实体识别等多种金融任务。它采用端到端框架,结合低秩适配(LoRA)和基于股价的强化学习(RLSP),实现高效的数据处理与模型优化。适用于投资分析、市场研究、量化交易等多个场景,具备多语言支持和实时数据分析能力,为金融决策提供智能化解决方案。

爱享绘画

日常电脑可用的快速文生图免费软件,无需显卡和python,爱享绘画支持快速安装和各种模型加速技术,支持显卡加速和质量模式。

PaperBrain

PaperBrain一个免费的供您访问和理解研究论文的平台。有了论文摘要和直接的 pdf 链接,您再也不用为繁琐的下载而烦恼了。

Voyage Multimodal

Voyage Multimodal-3 是一款多模态嵌入模型,能够处理文本、图像以及它们的混合数据,无需复杂文档解析即可提取关键视觉特征。它在多模态检索任务中的准确率显著高于现有最佳模型,支持语义搜索和文档理解,适用于法律、金融、医疗等多个领域的复杂文档检索任务。

DevChat

DevChat是一个开源的支持多种大模型的AI编程助手,旨在让编码工作变得更加轻松。它通过与您的集成开发环境(IDE)无缝集成,提供对多个大型语言模型的访问,从而提高编程效率和代...