模型

百付AI

AI软件技术服务商,ChatGPT应用开发,训练AI模型、AI软件开发、AI知识库搭建。

Eagle

Eagle是一个由英伟达开发的多模态大模型,专长于处理高分辨率图像,提高视觉问答和文档理解能力。该模型采用多专家视觉编码器架构,通过简单的特征融合策略实现图像内容的深入理解。Eagle模型已开源,适用于多个行业,具有高分辨率图像处理、多模态理解、多专家视觉编码器、特征融合策略和预对齐训练等特点。

百聆

百聆是一款开源语音对话系统,融合语音识别、语音活动检测、大语言模型和语音合成技术,实现自然流畅的语音交互。支持低延迟运行,无需GPU,适用于边缘设备。具备记忆、工具调用和任务管理等功能,适用于智能家居、个人助理、车载系统等多种场景,提供高效的语音交互解决方案。

CustomVideoX

CustomVideoX是一种基于视频扩散变换器的个性化视频生成框架,能够根据参考图像和文本描述生成高质量视频。其核心技术包括3D参考注意力机制、时间感知注意力偏差(TAB)和实体区域感知增强(ERAE),有效提升视频的时间连贯性和语义一致性。支持多种应用场景,如艺术设计、广告营销、影视制作等,具备高效、精准和可扩展的特点。

OpenCoder

OpenCoder是一个开源代码大型语言模型(LLM),具备代码生成、审查、补全、错误调试等功能,支持多种编程语言,通过预训练、指令微调及优化策略提升性能,推动代码AI研究的透明化与可重复性,广泛应用于开发效率提升、代码质量保障及编程教育等领域。

Transfusion

Transfusion是由Meta公司开发的多模态AI模型,能够同时生成文本和图像,并支持图像编辑功能。该模型通过结合语言模型的下一个token预测和扩散模型,在单一变换器架构上处理混合模态数据。Transfusion在预训练阶段利用了大量的文本和图像数据,表现出强大的扩展性和优异的性能。其主要功能包括多模态生成、混合模态序列训练、高效的注意力机制、模态特定编码、图像压缩、高质量图像生成、文本生成

AbletonMCP

AbletonMCP 是一个开源工具,通过模型上下文协议(MCP)将 Ableton Live 与 Claude AI 连接,实现音乐制作过程中的 AI 辅助。支持双向通信,允许用户通过 AI 创建和编辑 MIDI 与音频轨道、选择乐器和效果、控制播放等。技术上采用 JSON 协议和套接字通信,适用于音乐创作、实时制作、教学及音频后期处理等多种场景。

触手AI

触手AI集成了市面上主流绘图软件的完整功能,包括文生图、图生图、ControlNet控图、姿势生图、高清修复、智能修图、模型训练等一系列实用功能。触手AI无需科学上网。

Logo Mockup

Logo Mockup是一个在线样机生成工具,用户通过上传他们的logo生成高分辨率的样机效果图并可以下载。

MOFA

MOFA-Video是由腾讯AI实验室和东京大学研究人员开发的开源图像生成视频模型。该工具通过生成运动场适配器对图像进行动画处理,能够通过稀疏控制信号(如手动轨迹、面部关键点序列或音频)实现对视频生成过程中动作的精准控制。MOFA-Video支持零样本学习,能够将多种控制信号组合使用,生成复杂的动画效果,并能生成较长的视频片段。 ---