Smoltalk-Chinese 是 OpenCSG 开源的中文大型语言模型(LLM)专用合成数据集,包含超过 70 万条高质量合成数据。该数据集覆盖了信息查询、推理、计划、编辑、编程、数学、角色扮演、数据分析、创意写作、咨询和头脑风暴等多种任务类型,旨在提升模型在多场景下的适应性和性能。数据生成过程采用先进的生成模型与去重技术,确保数据的多样性和质量。此外,数据集还支持监督微调(SFT),为模型训练提供丰富的文本样本,适用于多种自然语言处理任务。
Smoltalk-Chinese 是 OpenCSG 开源的中文大型语言模型(LLM)专用合成数据集,包含超过 70 万条高质量合成数据。该数据集覆盖了信息查询、推理、计划、编辑、编程、数学、角色扮演、数据分析、创意写作、咨询和头脑风暴等多种任务类型,旨在提升模型在多场景下的适应性和性能。数据生成过程采用先进的生成模型与去重技术,确保数据的多样性和质量。此外,数据集还支持监督微调(SFT),为模型训练提供丰富的文本样本,适用于多种自然语言处理任务。
发表评论 取消回复