Aligner是由北京大学团队研发的一种大语言模型对齐技术。该方法通过学习对齐答案与未对齐答案之间的差异,提升模型的输出质量。其采用自回归的seq2seq模型结构,在问题-答案-修正后的答案(Query-Answer-Correction, Q-A-C)数据集上进行训练,无需依赖复杂的强化学习从人类反馈(RLHF)流程。
Aligner的核心优势在于高效性和灵活性。作为可直接集成的模块,它能够应用于多种开源和基于API的模型,而无需访问模型参数。
Aligner的主要功能包括:修正残差学习、弱到强泛化能力、即插即用特性以及完整的训练流程。在数据收集阶段,系统会从开源数据集中提取问题并生成原始答案;随后利用GPT-4、Llama2-70B-Chat或人工标注对答案进行修正;最终基于修正后的数据集训练Aligner模型,使其能够将原始答案调整为更符合预期的输出。
实验结果显示,使用Aligner可以显著提升模型的帮助性和安全性。例如,Aligner-7B在GPT-4上的帮助性提升17.5%,安全性提升26.9%;Aligner-13B微调Llama2-70B后,帮助性和安全性分别提升了8.2%和61.6%。
Aligner具有广泛的兼容性,能够对齐包括闭源、开源及安全/未安全对齐模型在内的多种模型。此外,它还可应用于多轮对话场景、人类价值向奖励模型的对齐,以及MoE-Aligner的流式化处理。
项目官网、GitHub仓库、HuggingFace模型库和arXiv技术论文均可获取相关资源。
发表评论 取消回复