AI

MoMask

MoMask是一款基于生成式掩码建模的3D人体动作生成工具,支持文本驱动的动作创建与编辑。采用分层量化与Transformer架构,实现高精度、连贯的3D动作序列生成,在HumanML3D数据集上的FID值仅为0.045。支持动作时序控制、多平台部署及动作评估功能,适用于游戏开发、动画制作、VR及体育分析等多个领域。

Aero

Aero-1-Audio 是一款基于 Qwen-2.5-1.5B 的轻量级音频模型,拥有 1.5 亿参数,专注于长音频处理,支持连续 15 分钟音频输入并保持上下文连贯性。在语音识别、复杂音频分析及指令驱动任务中表现出色,具备高效的训练方法和多任务处理能力,适用于语音助手、实时转写、归档理解等场景。

混元图像2.0

混元图像2.0是腾讯开发的AI图像生成工具,支持文本、语音、草图等多种输入方式,具备实时生成能力。其采用单双流DiT架构和多模态大语言模型,生成图像写实性强、细节丰富,且响应速度快,适用于创意设计、广告营销、教育、游戏等多个领域。用户可通过网页端直接操作,实现高效的图像创作体验。

卡内基梅隆大学

卡内基梅隆大学(Carnegie Mellon University),简称CMU,是坐落于美国宾夕法尼亚州的匹兹堡的私立大学,“新常春藤”,全球大学校长论坛成员。拥有14,800名在校学生和1,483名教职...

VMix

VMix是一款提升文本到图像生成美学质量的工具,通过解耦文本内容与美学描述,并引入细粒度美学标签,增强图像在色彩、光线、构图等方面的视觉表现。其核心技术为交叉注意力混合控制模块,可在不改变原有模型结构的情况下注入美学条件,保持图文一致性。VMix兼容多种扩散模型及社区模块,支持多源输入、高质量视频处理、实时直播与远程协作,广泛应用于电视直播、网络直播、现场活动及虚拟演播室等场景。

xAI Grok-2

xAI的Grok-2代表了语言模型技术的新进展,特别是其推理能力,为处理复杂的数据分析和自然语言理解任务提供了强大的工具。

AI. Image Enlarger

一个免费在线工具,使用人工智能技术自动提升和增强小尺寸图像而不损失质量。它可以放大JPG或PNG图片而不会影响它们的分辨率和清晰度。

Shandu

Shandu 是一款基于 LangChain 和 LangGraph 技术的开源 AI 研究自动化工具,支持多引擎搜索、递归探索和智能网页爬取,能自动生成结构化研究报告。用户可通过命令行输入主题并设置参数,快速输出包含引用的 Markdown 格式文档。适用于学术研究、市场分析、技术探索及教育等多个领域,具备高度灵活性和信息处理能力。