深度学习

GPT学术优化

GPT学术优化是一款专为学术研究与写作设计的开源工具,提供论文翻译、代码解析、信息提取、LaTeX校对、论文润色及摘要生成等功能。其模块化设计支持灵活扩展,通过大型语言模型实现高效的语言处理任务,适用于学术研究、教育辅导、项目开发和技术文档撰写等多个场景。

FlexiAct

FlexiAct是由清华大学与腾讯ARC实验室联合研发的动作迁移模型,可在空间结构差异较大的场景下实现精准动作迁移,并保持目标主体的外观一致性。其核心模块包括轻量级RefAdapter和频率感知动作提取(FAE),有效提升跨主体动作迁移的灵活性与准确性。该模型适用于影视、游戏、广告等多个领域,具有良好的应用前景。

Optimus

Optimus-1是一款由哈尔滨工业大学(深圳)和鹏城实验室联合开发的智能体框架,专为开放世界环境中的长期任务设计。它结合结构化知识与多模态经验,通过混合多模态记忆模块(HDKG与AMEP)提升任务规划与执行能力。主要功能包括知识引导规划、经验驱动反思、行动控制及自我进化,已在游戏、虚拟助理、工业自动化等领域得到验证。

Astria AI

Astria是一个利用生成AI创建定制图像的平台。Astria AI允许用户上传一组主题的图像,然后根据文本提示生成新图像。

WebSSL

WebSSL是由Meta和纽约大学等机构开发的视觉自监督学习模型,基于大规模网络图像数据训练,无需语言监督即可学习有效视觉表示。其包含多个变体,参数规模从3亿到70亿不等,在多模态任务如视觉问答、OCR和图表理解中表现出色。通过筛选含文本图像数据,显著提升特定任务性能。模型具备良好的扩展性,适用于智能客服、文档处理、医疗影像分析等多个领域。

微软VASA

微软亚洲研究院开发的一种前沿人工智能技术,VASA-1能够将单一静态图像和一段语音音频转换成逼真的对话面部动画。

EasyControl

EasyControl是基于扩散变换器(DiT)架构的高效控制框架,采用轻量级LoRA模块实现多条件控制,支持图像生成、风格转换、动画制作等任务。其具备位置感知训练范式和因果注意力机制,优化计算效率,提升生成质量与灵活性,适用于多种图像处理场景。

OutofFocus

OutofFocus是一款基于AI的图像编辑工具,支持文本提示驱动的图像生成与编辑。其核心功能包括风格转换、内容填充、图像修复和增强等,通过自然语言处理与扩散逆过程重建技术实现高效编辑。该工具具有易用性和灵活性,广泛适用于艺术创作、内容营销、教育研究等多个领域。

夸克灵知大模型

夸克灵知大模型是一款具备高阶推理能力的智能学习工具,专为不同阶段的学习者设计。它提供详尽的题目解析、启发式教学及实时互动功能,涵盖K12教育、高等教育及成人教育等多个领域,助力用户全面提升学习效率和理解力。

MM1.5

MM1.5是苹果公司研发的多模态大型语言模型,具备强大的文本与图像理解能力,包括视觉指代、定位及多图像推理功能。它通过数据驱动的训练方法,实现了从1B到30B参数规模的性能提升,并推出了视频和移动UI专用版本,为多模态AI技术发展提供重要参考。主要应用场景涵盖图像与视频理解、视觉搜索、辅助驾驶、智能助手及教育领域。