免费开放390部经典,未来3年整理上万本古籍,这座图书馆上线了测试版
从2021年6月开始,字节跳动联合国家图书馆等机构、中国文物保护基金会等,在古籍修复、活化和数字化等领域开展了一系列合作,包括捐资1000万元,联合成立古籍保护专项基金等,定向修复百余册件珍贵古籍。
2022年3月17日,北京大学与字节跳动合作成立“北京大学-字节跳动数字人文开放实验室”,致力于研发开放的“古籍数字化平台”,将人工智能和大数据应用在海量的古籍文献上,实现对古籍内容的智能化整理和古文本知识图谱的自动生成。
近期上线的“识典古籍”平台测试版,便是这一合作的最新进展。据项目负责人介绍,该平台主要使用了三种技术,即文字识别、自动标点、命名实体识别。
文字识别技术,是对古籍的影印版文字进行单个切分、文字识别、顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别,则是通过序列标注识别古籍文本中的命名实体,支持识别人名、地名、书籍、时间、官职等信息。目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。
同时,这些先进技术也离不开人的支持。北京大学数字人文研究中心主任王军表示,北大在这次合作中联合各大高校学者和文献专家,负责人工审核与校对,弥补人工智能有识别错误率的短板,并利用自有学术平台,连接更多专业研究者和学生群体。
该平台测试版已免费向所有用户开放,在数字化文本内容之外,提供足够权威的影印底本作为参照,同时提供主题词检索和繁简体转换功能,方便专业研究人员、古籍爱好者以更加高效便利的方式获取古籍内容。同时,“识典古籍”测试版也存在一些不足,比如典籍数量相对较少,标点错误率还需进一步降低。
接下来,“北京大学-字节跳动数字人文开放实验室”计划通过人工智能技术,实现全自动整理校对,借助全社会的力量,更高效地实现存量古籍全部数字化。同时,“识典古籍”还将向全社会开放古籍阅读检索研究能力,助力古籍文化传承和传统文化研究。
编辑:段雅露