模型

孟子大模型

孟子大模型作为澜舟科技的核心产品之一,展现了公司在认知智能领域的技术实力和创新能力。通过其强大的语言处理和多模态数据处理能力,孟子大模型为不同行业提供了灵活、高效的解...

Pixel3DMM

Pixel3DMM是由慕尼黑工业大学、伦敦大学学院和Synthesia联合开发的单图像3D人脸重建框架,基于DINOv2模型,能从单张RGB图像中准确重建出3D人脸的几何结构。该工具擅长处理复杂表情和姿态,支持身份和表情的解耦,并通过FLAME模型优化实现高精度重建。其应用场景涵盖影视游戏、VR/AR、社交视频、医疗美容和学术研究。

Cua

Cua 是一款基于 Apple Silicon 的开源 AI 代理工具,支持在 macOS 上运行高性能的虚拟机,并实现 AI 对桌面应用的操作。其核心功能包括虚拟化、任务自动化、多模型兼容与安全隔离。适用于开发、办公、教育及安全测试等多个场景,提供高效、灵活的 AI 操作体验。

Gemini 2.0 Pro

Gemini 2.0 Pro是Google推出的高性能AI模型,具备200万tokens的上下文窗口,支持复杂任务处理、多语言理解和代码生成。它能调用外部工具如Google搜索和代码执行环境,提升信息获取与问题解决能力。适用于编程辅助、数据分析、学术研究、教育及创意内容生成等多个领域,是当前Google系列模型中的佼佼者。

HourVideo

HourVideo是一项由斯坦福大学研发的长视频理解基准数据集,包含500个第一人称视角视频,涵盖77种日常活动,支持多模态模型的评估。数据集通过总结、感知、视觉推理和导航等任务,测试模型对长时间视频内容的信息识别与综合能力,推动长视频理解技术的发展。其高质量的问题生成流程和多阶段优化机制,使其成为学术研究的重要工具。

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别(ASR)模型系列,支持普通话、中文方言和英语,具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本,分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色,且已开源,推动语音识别技术的发展。

MarDini

MarDini是一款融合掩码自回归(MAR)和扩散模型(DM)的先进视频生成工具,支持视频插值、图像到视频生成、视频扩展等多种任务。它通过优化计算资源分配,提高了视频生成的效率与灵活性,并具备从无标签数据中进行端到端训练的能力,展现出强大的可扩展性与效率。

Absolute Zero

Absolute Zero是由清华大学LeapLab团队联合多家机构研发的新型语言模型推理训练方法,采用自我生成任务并自主解决的机制,实现无需人工标注数据的自我进化学习。模型通过与环境交互获取反馈,持续优化推理能力,支持归纳、演绎和溯因等多种推理模式。其核心在于推动模型从依赖人类监督转向环境反馈驱动,具备跨领域泛化能力和零数据训练特性,适用于通用人工智能、代码生成、数学推理等多个应用场景。

Motion Anything

Motion Anything 是一款由多所高校与企业联合研发的多模态运动生成框架,可基于文本、音乐或两者结合生成高质量人类运动。其核心在于基于注意力的掩码建模和跨模态对齐技术,实现对运动序列的精细控制与动态优先级调整。该工具支持影视动画、VR/AR、游戏开发、人机交互及教育等多个应用场景,并配套提供 Text-Music-Dance (TMD) 数据集,推动多模态运动生成技术的发展。