通古大模型简介
通古大模型是由华南理工大学深度学习与视觉计算实验室(SCUT-DLVCLab)研发的专注于古籍文言文处理的人工智能语言模型。该模型基于百川2-7B-Base进行增量预训练,利用24.1亿条古籍语料进行无监督训练,并结合400万条古籍对话数据进行指令微调。通过引入冗余度感知微调(RAT)技术,提升了古籍相关任务的性能表现。此外,模型还采用检索增强生成(CCU-RAG)技术,有效降低知识密集型任务中的幻觉问题,提高输出结果的准确性与可靠性。
通古大模型的核心功能
- 古文句读:能够自动为古文添加标点符号,解决断句难题,提升古籍可读性。
- 文白翻译:支持文言文与现代文之间的双向转换,便于理解与研究。
- 诗词创作:可根据用户提供的主题或关键词生成符合古典格律的诗词。
- 古籍赏析:对古籍经典篇章进行文学与历史背景分析,提供深入解读。
- 古籍检索与问答:结合检索增强生成技术,实现高效古籍信息检索与精准问答。
- 辅助古籍整理:识别并修复古籍中的文字错误,支持数字化工作。
通古大模型的技术架构
- 基础模型架构:以百川2-7B-Base为基础,具备较强的语言理解和生成能力。
- 无监督增量预训练:在大规模古籍语料上进行训练,提升对古籍语言风格的理解。
- 多阶段指令微调:采用冗余度感知微调(RAT)方法,优化任务性能同时保持模型通用性。
- 检索增强生成(RAG)技术:通过外部知识库增强生成内容,提升答案准确性和上下文一致性。
通古大模型的获取方式
- Github仓库:https://github.com/SCUT-DLVCLab/TongGu-LLM
- HuggingFace模型库:https://huggingface.co/SCUT-DLVCLab/TongGu-7B-Instruct
通古大模型的应用领域
- 古籍处理与数字化:支持古籍翻译、标点、检索等功能,提升古籍整理效率。
- 教育辅助:可用于教学内容生成与学生古文学习支持。
- 文化传承:助力传统文化传播,增强公众对古籍的可及性。
- 学术研究:为古籍研究提供智能化工具,提升研究效率。
发表评论 取消回复