模型

Amazon Bedrock

Amazon Bedrock是一款由AWS推出的完全托管型AI服务平台,集成了多家顶级AI公司的基础模型,支持企业通过单一API访问高性能模型。它提供了从基础模型接入、微调到代理构建的一系列功能,包括检索增强生成(RAG)、自动推理检查及多Agent协作等特性。此外,其模型蒸馏技术能够有效提升效率并降低运行成本,广泛适用于文本生成、虚拟助手、图像生成等多种应用场景。

Amphion

Amphion是一款开源音频生成工具包,包含文本转语音(TTS)、歌声合成(SVS)、语音转换(VC)、歌声转换(SVC)、文本转音频(TTA)和文本转音乐(TTM)等功能。它支持多种神经声码器,并提供可视化模型架构,帮助用户快速掌握音频生成技术。通过统一框架和预训练模型,Amphion推动了音频生成领域的研究和应用发展。

Whisk

Whisk是一款基于AI的图像生成工具,由谷歌推出,支持用户通过上传图像并指定主题、场景和风格生成新图像。它具备多图像输入、自动图像提示及额外文字细节添加等功能,基于谷歌最新的Imagen 3模型,适用于艺术创作、广告营销、社交媒体内容生产等多个领域,助力用户高效完成创意设计。

AMD

AMD-135M是一款由AMD开发的小型语言模型,基于LLaMA2架构,具有文本生成、代码生成、自然语言理解和多平台兼容性等特点。该模型通过推测解码技术提高了推理速度,降低了内存占用,并在多项自然语言处理任务中表现出色。适用于聊天机器人、内容创作、编程辅助、语言翻译和文本摘要等多种应用场景。

InternVideo2.5

InternVideo2.5是一款由上海人工智能实验室联合多机构开发的视频多模态大模型,具备超长视频处理能力和细粒度时空感知。它支持目标跟踪、分割、视频问答等专业视觉任务,适用于视频检索、编辑、监控及自动驾驶等多个领域。模型通过多阶段训练和高效分布式系统实现高性能与低成本。

PromptLLM

一款AIGC提示工具。该工具通过仅几个输入的词语生成详细的图像,简化了创建详细图像的过程。

LatentLM

LatentLM是一款由微软与清华大学合作开发的多模态生成模型,能够统一处理文本、图像、音频等多种数据类型。它基于变分自编码器(VAE)和因果Transformer架构,支持自回归生成与跨模态信息共享,特别擅长图像生成、多模态语言模型及文本到语音合成等任务,其提出的σ-VAE进一步提升了模型的鲁棒性。

Augmented Physics

Augmented Physics是一款基于人工智能的教育工具,旨在通过计算机视觉技术和多模态语言模型,将物理教科书中的静态图表转化为动态交互式模拟,帮助学生更好地理解物理概念。它支持多种仿真类型,包括光学、运动学和电路等,并提供动态可视化和动画效果,同时无需编程技能即可创建仿真。

TurboSeek

TurboSeek 是一款基于开源技术的 AI 搜索引擎,融合了 Bing 搜索 API 和先进语言模型(如 Mixtral 8x7B 和 Llama-3),为用户提供快速、智能的搜索体验。其核心功能包括智能搜索、AI 模型生成答案、后续问题推荐以及本地部署支持。TurboSeek 可广泛应用于学术研究、新闻追踪、技术文档查询、市场分析和个人知识管理等领域。

KTransformers

KTransformers是一款由清华大学KVCache.AI团队与趋境科技联合开发的开源工具,用于提升大语言模型的推理性能并降低硬件门槛。它支持在24GB显卡上运行671B参数模型,利用MoE架构和异构计算策略实现高效推理,预处理速度达286 tokens/s,推理速度达14 tokens/s。项目提供灵活的模板框架,兼容多种模型,并通过量化和优化技术减少存储需求,适合个人、企业及研究场景使用。