查看原文
其他

AI翻译文言文、给古彝文编码,华南理工这一科研团队助力古文保护与传承

你是否遇到过以下困惑?

面对穿越历史的古文

面对沉淀千年的诗词

往往只可意会却难以言传

翻译时常常词不达意

有着沉默时的充实

亦有开口时的空虚

无法恰当地进行文白转换


而AI文言文翻译

能为你填补这份遗憾

在文言文和白话文之间

搭起一座桥梁
这项技术的发展与突破

有望将文诗词曲

美妙地用白话文来叙述

   令华夏儿女切身感悟到古人的语言魅力


近日,“机器翻译峰会MTS2023”在中国澳门圆满落幕。在会上举办的第一届古汉语机器翻译竞赛(EvaHan2023)中,华南理工大学电子与信息学院的金连文教授团队提出基于大语言模型(LLM)的方案在比赛中较大优势获得冠军。


EvaHan2023获奖证书


金连文教授团队


金连文教授团队所在的电子与信息学院深度学习与视觉计算实验室(DLVC Lab),致力于人工智能、计算机视觉、文档图像处理等领域前沿理论技术的研究及创新应用,主要研究方向包括人工智能、文字识别、多模态大模型、文档图像分析与智能处理、计算机视觉、自然语言处理等。



金连文教授


本次EvaHan2023参赛队伍由硕士生曹家欢,博士生彭德智、施永鑫和硕士生江宗源组成,指导教师为金连文教授。


金连文教授团队学生


下面就跟着鲤工仔一起

走近竞赛冠军获得者金连文教授团队

深入了解一下AI文言文翻译吧



访


您觉得AI文言文翻译技术有什么意义呢?

文言文是中国传统文化的载体,AI文言文翻译技术有助于人们增进对中国历史的了解,促进中华优秀传统文化的传承。此外,AI文言文翻译技术可以促进国际间交流理解,让外国读者也可以通过翻译认识中国历史文化,提高我国在国际上的文化影响力。习近平总书记近日对宣传思想文化工作作出重要指示指出,要着力赓续中华文脉、推动中华优秀传统文化创造性转化和创新性发展。AI文言文翻译技术对促进古籍传承与发展、了解中华文明、弘扬中华文化和民族精神、增强国家文化软实力,对推动中国古籍文物数据挖掘、知识发现、智能化开发与利用等领域的技术进步有重要意义。

文言文翻译这项技术是如何做到的呢?

我们的方法在一个基于LLaMA的人工智能大语言模型(LLM)的基础上,使用文言文数据来扩充词表,并创新性地使用预训练模型的词嵌入对文言文词表进行融合扩充,以充分利用预训练模型中存储的知识。其次,整合和精炼现有的文言文语料,构建了一个大规模的文言文数据集,并使用该数据集对扩充词表后的模型进行增量式无监督预训练,使模型具备了丰富的文言文先验知识。后,针对比赛数据进行多阶段的有监督训练,最终训练了一个先进的文言文到白话文翻译大模型

金连文教授团队学生


目前AI文言文翻译的发展现状如何呢?

现在的AI自动翻译以现代文为主,在”文言文-白话文“方面的公开研究报道极少。尽管微软翻译和百度翻译等引擎也支持文白翻译,但是它们在一些较难的文言文翻译上表现仍不佳。本次比赛中,我们采用基于大语言模型改进的方法,战胜了来自北京大学、香港中文大学等队伍,以明显的技术优势取得了第一名的佳绩。同时,根据主办方报道,我们提出的方法在比赛测试集上的性能也明显优于国内的商业应用,体现了华南理工大学本次参赛团队的研究实力和领先的技术水平。

中国几千年辉煌的华夏文明,留下了海量的古籍文献资料,这些文字记录反映了当时社会在政治、军事、经济、科技、教育、文化等各个领域的状况,承载着丰富的历史信息和文化传承。但是,现在大部分人都很难流畅的阅读和理解古籍文献,利用先进的AI技术可以让普通人能读懂古籍、理解古籍,也为挖掘和利用古籍文献中蕴含的丰富知识提供了技术支撑。

在研究开发AI文言文翻译都遇到过哪些困难呢? 

基于大模型的翻译系统对计算资源的需求很高,需要很大的GPU算力才能开展较完整的研究工作,寻找充足的计算资源是我们遇到的最大困难。大模型一般有非常多的参数,在训练和推理的过程中,计算机运行的计算量是一个非常庞大的数字。在计算资源有限的情况下,如何高效地训练我们的文言文翻译模型,是一个非常大的挑战。本次竞赛我们有幸获得了合作企业给予的多台A100 GPU服务器的大力支持,才顺利完成了模型的训练和优化

硕士生曹家欢讲解竞赛方案


获得冠军后,未来这项技术会进一步推向实际应用吗?

我们团队会继续在古籍理解和保护上深入研究。文言文翻译技术可以和文字识别等技术结合,形成较为完善的古籍数字化和理解方法;也可以和ChatGPT等大模型技术结合,形成可交互的古籍理解系统。如果有足够的算力支持,我们还将开展古籍对话大模型、数字人文大模型、文档图像理解大模型、多模态大模型等方向的研究工作。


团队成果的最新应用


古彝文示例


诚如团队所言,该项技术在古籍理解和保护上有着广阔的应用前景。9月26日,华南理工大学联合上海大学、合合信息发布了业内首个古彝文基础编码数据库,该项目针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,使古彝文在数字社会中有了“身份证号码”。


金连文教授担任了该项目的技术负责人。他表示,原生态彝文此前没有被系统性地进行数字化编码,古彝文没有公开数据集,标注困难,所以从最初语料的收集开始,就需要做大量的前置工作。再者,古彝文异体字繁多,每个字的异体写法少则两三种,多则几十种,且字体间风格差异大。因此,建立一个专门的数据库,通过基础编号将不同样式归纳,才能“破解”古彝文“一对多”的关系,解决文字查询问题。


在对7万6千字符的样本进行训练后,团队成功建立了包含上千个古彝文基础编码的数据库。通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛。


金连文教授团队学生



创新突破  勇于探索

用科技形成与古人交流的纽带

AI翻译

让文言文通俗易懂

让古语与白话交汇

 是今人与先贤思想的碰撞

是五千年文化薪火的赓续

 

你心目中的AI翻译还有什么用途呢?

古人和我们的语言艺术有存在着什么异同呢?

欢迎在评论区留言分享哦!


华南理工大学 学生记者团

策划:刘怡笑

图:刘子牧

文:李桥顺 刘怡笑 郭裕成 受访者 环球网

微信编辑:丁治博

整理:丁治博

初审:冀早早

二审:卢庆雷

终审:邹浩


华工原创,版权所有

若需转载,敬请联络

邮箱:hgxcb@scut.edu.cn


保研成功!来听听学长学姐怎么说?

服务企业超2000家,华南理工这家研究院何以“向新而行”?

4414,试试?要试!

以创新基因导航教育强国建设 《瞭望》专访张立群校长

“分享”“点赞”“在看”,记得一键三连哦

继续滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存