强化学习 - 智狐AI导航

DeepCoder

DeepCoder-14B-Preview 是一款基于 Deepseek-R1-Distilled-Qwen-14B 微调的开源代码生成模型，采用分布式强化学习技术，在 LiveCodeBench 基准上达到 60.6% 准确率。支持多语言代码生成、问题解决、补全优化、测试生成等功能，适用于开发、教育、竞赛等多个场景。项目提供完整训练数据与优化方案，推动 RL 在 LLM 中的应用。

AI项目与工具 2025年06月12日 39 点赞 0 评论 816 浏览

OmniCam

OmniCam 是一种基于多模态输入的高级视频生成框架，结合大型语言模型与视频扩散模型，实现高质量、时空一致的视频内容生成。支持文本、视频或图像作为输入，精确控制摄像机运动轨迹，具备帧级操作、复合运动、速度调节等功能。采用三阶段训练策略提升生成效果，并引入 OmniTr 数据集增强模型性能。适用于影视、广告、教育及安防等多个领域，提高视频创作效率与质量。

AI项目与工具 2025年06月12日 18 点赞 0 评论 746 浏览

OThink

OThink-MR1是由OPPO研究院与香港科技大学（广州）联合研发的多模态语言模型优化框架，基于动态KL散度策略（GRPO-D）和奖励模型，提升模型在视觉计数、几何推理等任务中的泛化与推理能力。其具备跨任务迁移能力和动态平衡探索与利用机制，适用于智能视觉问答、图像描述生成、内容审核等多个领域，具有广阔的应用前景。

AI项目与工具 2025年06月12日 21 点赞 0 评论 898 浏览

SWEET

SWEET-RL是Meta开发的多轮强化学习框架，专为提升大型语言模型在协作推理任务中的表现而设计。通过引入训练时的额外信息优化“批评者”模型，实现精准的信用分配与策略优化。在ColBench基准测试中，其在后端编程和前端设计任务中表现出色，成功率提升6%。适用于文本校对、社交媒体审核、广告合规等多种场景，具备高度的通用性和适应性。

AI项目与工具 2025年06月12日 15 点赞 0 评论 857 浏览

FinGPT

FinGPT是一款面向金融领域的开源大语言模型，基于自然语言处理技术，支持情感分析、关系提取、标题分类和命名实体识别等多种金融任务。它采用端到端框架，结合低秩适配（LoRA）和基于股价的强化学习（RLSP），实现高效的数据处理与模型优化。适用于投资分析、市场研究、量化交易等多个场景，具备多语言支持和实时数据分析能力，为金融决策提供智能化解决方案。

AI项目与工具 2025年06月12日 23 点赞 0 评论 709 浏览

AReaL

AReaL-boba 是由蚂蚁技术研究院与清华大学联合推出的开源强化学习训练框架，具备高效训练、推理能力提升、低资源训练等核心功能。其 7B 模型在数学推理任务中表现突出，且支持大规模模型的低成本复现。框架集成 SGLang 推理系统，采用数据蒸馏与工程优化技术，提升训练效率。适用于教育、自然语言处理、智能体开发等领域，具有高度可复现性和开源特性。

AI项目与工具 2025年06月12日 46 点赞 0 评论 526 浏览

BlockDance

BlockDance是由复旦大学与字节跳动联合开发的扩散模型加速技术，通过识别结构相似的时空特征（STSS）减少冗余计算，提升推理效率达25%-50%。结合强化学习的BlockDance-Ada模块实现动态资源分配，平衡速度与质量。适用于图像、视频生成及实时应用，支持多种模型，兼顾高效与高质，适用于资源受限环境。

AI项目与工具 2025年06月12日 38 点赞 0 评论 711 浏览

DeepMesh

DeepMesh是由清华大学和南洋理工大学研发的3D网格生成框架，结合强化学习与自回归变换器技术，实现高质量、高精度的3D模型生成。支持点云和图像条件输入，具备高效的预训练策略与人类偏好对齐机制，适用于虚拟环境、角色动画、医学模拟及工业设计等多个领域。

AI项目与工具 2025年06月12日 98 点赞 0 评论 503 浏览

Deep Research Web UI

Deep Research Web UI 是一款开源 AI 研究助手，支持多轮次搜索、树状可视化研究路径、多语言处理及数据导出功能。具备智能搜索、数据分析、报告生成能力，适用于文献综述、市场调研等场景。工具可在浏览器端运行，保障隐私安全，并兼容多种 AI 模型，支持本地部署与自定义配置。

AI项目与工具 2025年06月12日 87 点赞 0 评论 459 浏览

Seedream 2.0

Seedream 2.0 是字节跳动豆包团队推出的中英双语图像生成模型，具备强大的文本理解和渲染能力，可生成具有文化细节和美学表达的高质量图像。支持多分辨率生成、字符级文本处理，并通过强化学习优化性能，适用于海报设计、社交媒体、绘画创作等多领域应用。

AI项目与工具 2025年06月12日 25 点赞 0 评论 752 浏览

强化学习

首页

强化学习

列表

默认

浏览次数

发布日期