模型

MinMo

MinMo是阿里巴巴通义实验室推出的多模态语音交互大模型,具备高精度语音识别与生成能力。支持情感表达、方言转换、音色模仿及全双工交互,适用于智能客服、教育、医疗等多个领域,提升人机对话的自然度与效率。

联通元景

联通元景(UniT2IXL)是一款基于国产昇腾AI平台开发的中文原生文生图模型,具备卓越的中文语义理解和高质量图像生成能力。它通过复合语言编码模块优化中文长文本处理,并利用大量中文图文数据进行预训练,确保信息完整性和生成质量。该模型支持国产化算力环境,适配多种应用场景,包括文物数字化、个性化服装定制、智能家居设计、广告创意生成及在线教育等,为企业提供高效解决方案。

Shots.So

一个免费的在线工具,只需点击几下即可帮助您创建漂亮的样机模型。 Shots.so可以与背景框架和不同的模型(如浏览器、手机、笔记本电脑、手表等)产生很好的效果。

Moondream

Moondream是一款小型的开源人工智能视觉语言模型,具有强大的图像处理能力和灵活性,能够在不同设备上运行。它基于Apache 2.0许可证,支持商业使用,并广泛应用于安全监控、无人机和机器人技术以及零售与购物领域。

Agent Laboratory

Agent Laboratory是由AMD与约翰·霍普金斯大学合作开发的基于大型语言模型的研究辅助工具,支持从文献综述到报告撰写的全流程科研任务。它具备实验设计、代码生成、结果分析等功能,并通过多代理协作和用户反馈机制提升研究质量。实验表明其可显著降低研究成本,适用于机器学习、生物医学等多个领域。

JoyVASA

JoyVASA是一个基于扩散模型的音频驱动数字人头项目,能够生成与音频同步的面部动态和头部运动。其主要功能包括唇形同步、表情控制及动物面部动画生成,支持多语言和跨物种动画化。项目采用两阶段训练方法,结合解耦面部表示与扩散模型技术,生成高质量动画视频,广泛应用于虚拟助手、娱乐媒体、教育、广告等多个领域。

OThink

OThink-MR1是由OPPO研究院与香港科技大学(广州)联合研发的多模态语言模型优化框架,基于动态KL散度策略(GRPO-D)和奖励模型,提升模型在视觉计数、几何推理等任务中的泛化与推理能力。其具备跨任务迁移能力和动态平衡探索与利用机制,适用于智能视觉问答、图像描述生成、内容审核等多个领域,具有广阔的应用前景。

Wonderland

Wonderland是一项由多伦多大学、Snap和UCLA联合开发的技术,能够基于单张图像生成高质量的3D场景,并支持精确的摄像轨迹控制。它结合了视频扩散模型和大规模3D重建模型,解决了传统3D重建技术中的视角失真问题,实现了高效的三维场景生成。Wonderland在多个基准数据集上的3D场景重建质量均优于现有方法,广泛应用于建筑设计、虚拟现实、影视特效、游戏开发等领域。

Tripo3D AI

一个由VAST发布的在线3D建模平台,利用先进的AI技术,可以在几秒钟内生成高质量的3D模型。用户可以通过文本描述或上传图片来生成模型。

MoE++

MoE++是一种基于混合专家架构的新型深度学习框架,通过引入零计算量专家、复制专家和常数专家,有效降低计算成本并提升模型性能。它支持Token动态选择FFN专家,并利用门控残差机制实现稳定路由,同时优化计算资源分配。该框架易于部署,适用于多种应用场景,包括自然语言处理、智能客服及学术研究。