强化学习 - 智狐AI导航

SignLLM

SignLLM是一款支持多语言手语生成的AI模型，能将文本转换为自然流畅的手语视频，覆盖包括ASL、GSL、LSA、KSL在内的八种手语。其核心技术包括离散化与层次化表示、自监督学习、符号-文本对齐等。该工具可用于教育、医疗、法律、媒体等多个场景，提升听障人群的沟通便利性与信息获取能力。

AI项目与工具 2025年06月12日 86 点赞 0 评论 853 浏览

MineWorld

MineWorld是由微软研究院开发的基于《我的世界》的实时交互式AI模型，采用视觉-动作自回归Transformer架构，实现高保真、可控性强的场景生成。通过并行解码算法，模型可在每秒4至7帧的速度下实现实时交互，适用于具身智能、强化学习、游戏代理及视频生成等场景。其核心技术包括图像与动作标记器、Transformer解码器以及优化的训练与推理流程。

AI项目与工具 2025年06月11日 93 点赞 0 评论 856 浏览

SWEET

SWEET-RL是Meta开发的多轮强化学习框架，专为提升大型语言模型在协作推理任务中的表现而设计。通过引入训练时的额外信息优化“批评者”模型，实现精准的信用分配与策略优化。在ColBench基准测试中，其在后端编程和前端设计任务中表现出色，成功率提升6%。适用于文本校对、社交媒体审核、广告合规等多种场景，具备高度的通用性和适应性。

AI项目与工具 2025年06月12日 15 点赞 0 评论 857 浏览

TeleAI

TeleAI-t1-preview是中国电信人工智能研究院开发的复杂推理大模型，具有强大的数学与逻辑推理能力。它在多项国际评测中表现优异，尤其在数学竞赛和古籍解析方面表现突出。模型融合了强化学习与思考范式，支持从文言文到现代汉语的数学题解析，并具备策略推理与单位换算等功能。该模型即将上线天翼AI开放平台，未来将在教育、科研等领域广泛应用。

AI项目与工具 2025年06月12日 88 点赞 0 评论 859 浏览

《Manus没有秘密》70页PPT解读AI Agent（PDF文件）

本文详细解读了AI Agent技术从L1到L3的发展历程，涵盖了定义、实现原理、用户体验及未来趋势。文章以Manus为例，探讨了Agent技术的通用性、技术实现路径及用户感知变化，强调了提升通用性、性能和用户体验的重要性。同时，文章提出了对未来发展的期望和建议。

AI项目与工具 2025年06月12日 45 点赞 0 评论 863 浏览

Xiaomi MiMo

Xiaomi MiMo 是小米推出的推理型大模型，具备强大的数学推理与代码生成能力。通过预训练与后训练相结合，利用大量高价值语料及强化学习算法，在 7B 参数规模下实现超越更大模型的表现。支持多场景应用，包括教育、科研、软件开发等，已开源至 HuggingFace，便于开发者使用与研究。

AI项目与工具 2025年06月11日 95 点赞 0 评论 873 浏览

Kimina

Kimina-Prover是由月之暗面与Numina团队联合开发的大型数学定理证明模型，采用强化学习技术，在Lean 4语言中实现类人逻辑推理与严谨证明。其“形式化推理模式”结合非形式化推理与代码片段，提升解题效率。在miniF2F基准测试中达到80.7%准确率，显著优于现有模型。具备高样本效率与良好可扩展性，适用于科研、软件测试、算法验证等多个领域。1.5B和7B参数版本已开源。

AI项目与工具 2025年06月11日 33 点赞 0 评论 876 浏览

VRAG

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架，旨在提升视觉语言模型在处理视觉丰富信息时的检索、推理和理解能力。通过定义视觉感知动作空间，实现从粗粒度到细粒度的信息获取，并结合强化学习和综合奖励机制优化模型性能。该框架支持多轮交互推理，具备良好的可扩展性，适用于智能文档问答、视觉信息检索、多模态内容生成等多种场景。

AI项目与工具 2025年06月11日 84 点赞 0 评论 876 浏览

Optima

Optima是一款由清华大学研发的框架，旨在通过迭代生成、排名、选择和训练过程，优化基于大型语言模型的多智能体系统。它不仅提高了通信效率和任务完成质量，还支持大规模复杂任务处理，同时集成了强化学习与蒙特卡洛树搜索技术以生成优质训练数据。Optima适用于信息不对称问答、复杂推理任务、软件开发等多个领域，具有高扩展性和低计算成本的特点。

AI项目与工具 2025年06月12日 73 点赞 0 评论 877 浏览

Skywork-Reward 是昆仑万维推出的一系列高性能奖励模型，包括 Skywork-Reward-Gemma-2-27B 和 Skywork-Reward-Llama-3.1-8B，主要用于优化大语言模型的训练过程。这些模型通过提供奖励信号，帮助模型理解和生成符合人类偏好的内容。Skywork-Reward 在对话、安全性和推理任务中表现出色，并且在 RewardBench 评估基准上名列前

AI项目与工具 2025年06月12日 32 点赞 0 评论 884 浏览

强化学习

首页

强化学习

列表

默认

浏览次数

发布日期