RLHF - 智狐AI导航

CriticGPT

CriticGPT是一种基于GPT-4架构的人工智能模型，专注于审查和识别由大型语言模型生成的代码中的错误。它利用人类反馈强化学习（RLHF）技术，显著提高了代码审查的准确性和效率。CriticGPT具备代码审核、错误识别、安全漏洞分析、反馈生成、性能评估和辅助学习等功能。它通过记录人类评估员故意插入的错误，生成训练数据，并使用近端策略优化（PPO）算法和强制采样波束搜索（FSBS）技术，生成详细

AI项目与工具 2025年06月12日 76 点赞 0 评论 603 浏览

ChatLearn

ChatLearn是一款由阿里云开发的高效对齐训练框架，支持多种对齐训练方法，包括RLHF、DPO、OnlineDPO和GRPO。它提供灵活的编程接口、资源调度机制和分布式计算支持，适用于自动化对话系统训练及复杂多模型训练场景。用户可以自定义模型执行流程，实现个性化训练策略。

AI项目与工具 2025年06月12日 90 点赞 0 评论 504 浏览

Llama 3.3

Llama 3.3是一款由Meta AI开发的70B参数大型多语言预训练语言模型，支持英语、德语、法语等8种语言的输入输出。它具备长上下文窗口、高效运行和低成本的特点，可与第三方工具集成，广泛应用于聊天机器人、客户服务、语言翻译、内容创作及教育等领域。

AI项目与工具 2025年06月12日 71 点赞 0 评论 832 浏览

DMind

DMind是由DMind研究机构开发的专为Web3领域优化的大型语言模型，针对区块链、去中心化金融和智能合约等场景深度优化。采用RLHF技术对齐，性能在Web3专项测试中表现优异，推理成本仅为大模型的十分之一。提供DMind-1和DMind-1-mini两个版本，适用于复杂任务和轻量级部署。支持智能合约生成与验证、DeFi交易代理部署、多轮对话交互等功能，基于Transformer架构，结合专业数

AI项目与工具 2025年06月11日 70 点赞 0 评论 597 浏览

快手可图

快手可图大模型（Kolors）是快手公司自主研发的一款AI图像生成工具。支持文生图和图生图两大功能并提供了20多种AI图像玩法，Kolors可用于AI创作图像以及AI形象定制。

Ai平台模型 2025年06月05日 80 点赞 0 评论 804 浏览

RLHF

首页

RLHF

列表

默认

浏览次数

发布日期

CriticGPT

ChatLearn

Llama 3.3

DMind

快手可图

RLHF 首页 RLHF

列表 默认 浏览次数 发布日期

CriticGPT

ChatLearn

Llama 3.3

DMind

快手可图

RLHF

首页

RLHF

列表

默认

浏览次数

发布日期