模型

Westlake

Westlake-Omni是西湖心辰推出的一款开源中文情感端到端语音交互大模型,融合了语音识别、自然语言处理、情感理解和对话管理等功能,具备实时性和端到端交互特性。它通过深度学习技术和离散表示法,实现从语音输入到语音输出的全流程自动化,生成自然流畅的语音回应,并广泛应用于智能助手、客户服务、教育辅助、健康医疗等领域。

phenaki

phenaki一种从文本生成视频的模型,提示可以随时间变化,视频可以长达数分钟。

CogVideo

目前最大的通用领域文本生成视频预训练模型,含94亿参数。CogVideo将预训练文本到图像生成模型(CogView2)有效地利用到文本到视频生成模型,并使用了多帧率分层训练策略。

GAS

GAS是一种从单张图像生成高质量、视角一致且时间连贯虚拟形象的AI工具,结合3D人体重建与扩散模型技术,支持多视角合成与动态姿态动画。其统一框架提升模型泛化能力,适用于游戏、影视、体育及时尚等领域,具备高保真度与真实感。

FreeAskInternet

FreeAskInternet是一款免费开源的本地AI搜索引擎,集成了先进的大型语言模型和元搜索引擎,支持本地化搜索聚合和智能答案生成。它确保用户数据的私密性和安全性,无需GPU支持即可运行,并提供自定义的大型语言模型选项。此外,FreeAskInternet具备友好的用户界面,可通过简单的部署流程快速搭建。

Objaverse-3D物体数据集

Objaverse 是一个为3D领域提供巨大资源的数据库,它不仅支持 AI 模型的训练和3D内容的生成,还与流行的3D编辑软件 Blender 兼容。

DiTCtrl

DiTCtrl是一种基于多模态扩散变换器架构的视频生成工具,能够利用多个文本提示生成连贯且高质量的视频内容,无需额外训练即可实现零样本多提示视频生成。它通过KV共享和潜在混合策略优化不同提示间的平滑过渡,同时在MPVBench基准上表现出色,适用于电影、游戏、广告及新闻等多个领域。

Scenario AI

Scenario AI是一家专门为游戏开发者和游戏艺术家创建生成式AI引擎的软件开发公司。借助 Scenario,您可以使用自己的数据和样式为游戏生成一致且高质量的 2D 素材。

AI推理模型有哪些?13个支持深度思考的推理模型

本文介绍了13款支持深度思考的AI推理模型,涵盖数学、代码、自然语言推理等多个领域。这些模型通过强化学习和大数据分析,能够高效处理复杂问题,提供精准的决策支持。部分模型具备多模态处理能力、透明推理过程及开源特性,适用于不同应用场景,如教育、医疗和科研等。

Apollo

Apollo是一个由Meta和斯坦福大学合作研发的大型多模态模型,专注于视频内容的理解。其核心特性包括“Scaling Consistency”现象的应用、高效的视频理解评估基准ApolloBench、以及在处理长视频方面的卓越性能。Apollo模型家族涵盖多种规模,广泛应用于视频内容分析、搜索推荐、智能监控、自动驾驶及教育等领域。