学习

I2V3D

I2V3D是一款由香港城市大学与微软GenAI合作开发的图像到视频生成工具,支持将静态图像转换为高质量动态视频。其核心在于结合传统CG管线与生成式AI技术,采用两阶段生成流程实现精准的3D动画控制,支持复杂场景编辑和灵活的视频生成,适用于动画制作、视频创作及教育等多个领域。

LIMO

LIMO是由上海交通大学研发的一种高效推理方法,通过少量高质量训练样本激活大语言模型的复杂推理能力。其核心假设是“少即是多推理假设”,即在预训练阶段已具备丰富知识的模型中,复杂推理能力可通过精心设计的样本被有效激发。LIMO在多个数学推理基准测试中表现优异,且数据使用效率极高,仅需1%的数据即可达到显著效果。适用于教育、科研、工业和医疗等多个领域。

EMAGE

EMAGE是一款基于音频输入生成全身手势的AI框架,可同步生成面部表情、肢体动作及整体运动。通过掩蔽音频手势变换器和多模块VQ-VAE建模,实现高质量、多样化的手势生成。适用于虚拟现实、动画制作、数字人交互等领域,提升虚拟角色表现力与交互自然度。

Comic Translate

Comic Translate 是一款基于开源框架的漫画翻译工具,支持多语言翻译,涵盖英语、韩语、日语、法语、简体中文、繁体中文、俄语、德语、荷兰语、西班牙语和意大利语等主流语言。它利用深度学习技术和图像处理库,实现从文本检测、OCR 到翻译渲染的全流程自动化,旨在帮助用户突破语言限制,享受跨文化阅读体验。同时,该工具支持自定义翻译服务,适合个人娱乐、教育学习、翻译本地化及学术研究等多个领域。

Matrix3D

Matrix3D 是一种由多所高校与科技企业联合开发的统一摄影测量模型,集姿态估计、深度预测、新视图合成与3D重建于一体。其核心技术为多模态扩散变换器,支持跨模态数据融合与灵活任务处理。通过掩码学习策略,提高数据利用效率并增强模型泛化能力。适用于VR/AR、游戏开发、影视制作等领域,具有高度交互性和灵活性。

WebAgent

WebAgent是阿里巴巴开源的自主搜索AI Agent,具备端到端的自主信息检索与多步推理能力。它能主动搜索多个学术数据库,筛选、分析最相关的文献,整合不同文献中的观点,为用户提供全面且精准的研究报告。WebAgent基于创新的数据合成方法和高效的训练策略,实现高效的多步推理和信息检索能力,适用于学术研究、商业决策和日常生活等多种场景。

GPTs

GPTs 是一种创新方法,允许任何人根据日常需求、特定任务、工作或家庭生活来个性化定制自己的 ChatGPT,用户无需任何代码,全程支持可视化点击操作。

晓象AI

通过与博主合作,复制博主的AI分身,通过模拟知识博主的声音、风格和表达方式,为每个粉丝提供量身定制的回答。

HMA

HMA(Heterogeneous Masked Autoregression)是一种基于异构预训练和掩码自回归技术的机器人动作视频建模方法,支持离散与连续生成模式,可处理不同动作空间的异构性。该工具具备高效实时交互能力,广泛应用于视频模拟、策略评估、合成数据生成及模仿学习等领域,适用于机器人学习与控制任务,提升策略泛化与执行效率。

PaperBench

PaperBench是OpenAI开发的AI智能体评测基准,用于评估其复现顶级机器学习论文的能力。它涵盖从理解论文、编写代码到执行实验的全流程,具备8316个评分节点和自动评分系统。支持多种智能体配置,提供标准化测试环境,适用于模型优化、学术验证及教育实践等领域,推动AI研究的标准化发展。