免费开放390部经典，未来3年整理上万本古籍，这座图书馆上线了测试版

常驻编辑科普中国 2022-10-14 国家图书馆古籍北京大学人工智能典籍标点中国字节图书馆未来经典平台技术

从2021年6月开始，字节跳动联合国家图书馆等机构、中国文物保护基金会等，在古籍修复、活化和数字化等领域开展了一系列合作，包括捐资1000万元，联合成立古籍保护专项基金等，定向修复百余册件珍贵古籍。WIW拜客生活常识网

字节跳动古籍保护专项基金启动现场WIW拜客生活常识网

WIW拜客生活常识网

2022年3月17日，北京大学与字节跳动合作成立“北京大学-字节跳动数字人文开放实验室”，致力于研发开放的“古籍数字化平台”，将人工智能和大数据应用在海量的古籍文献上，实现对古籍内容的智能化整理和古文本知识图谱的自动生成。WIW拜客生活常识网

近期上线的“识典古籍”平台测试版，便是这一合作的最新进展。据项目负责人介绍，该平台主要使用了三种技术，即文字识别、自动标点、命名实体识别。WIW拜客生活常识网

文字识别技术，是对古籍的影印版文字进行单个切分、文字识别、顺序识别。自动标点技术，是通过序列标注的方式对古籍自动进行标点划分。命名实体识别，则是通过序列标注识别古籍文本中的命名实体，支持识别人名、地名、书籍、时间、官职等信息。目前行业内OCR识别准确率平均为93%至94%，“识典古籍”的准确率为96%至97%。WIW拜客生活常识网

同时，这些先进技术也离不开人的支持。北京大学数字人文研究中心主任王军表示，北大在这次合作中联合各大高校学者和文献专家，负责人工审核与校对，弥补人工智能有识别错误率的短板，并利用自有学术平台，连接更多专业研究者和学生群体。WIW拜客生活常识网

该平台测试版已免费向所有用户开放，在数字化文本内容之外，提供足够权威的影印底本作为参照，同时提供主题词检索和繁简体转换功能，方便专业研究人员、古籍爱好者以更加高效便利的方式获取古籍内容。同时，“识典古籍”测试版也存在一些不足，比如典籍数量相对较少，标点错误率还需进一步降低。WIW拜客生活常识网

“识典古籍”测试版页面WIW拜客生活常识网

WIW拜客生活常识网

接下来，“北京大学-字节跳动数字人文开放实验室”计划通过人工智能技术，实现全自动整理校对，借助全社会的力量，更高效地实现存量古籍全部数字化。同时，“识典古籍”还将向全社会开放古籍阅读检索研究能力，助力古籍文化传承和传统文化研究。WIW拜客生活常识网

编辑：段雅露WIW拜客生活常识网

首页上一页 12

免费开放390部经典，未来3年整理上万本古籍，这座图书馆上线了测试版

相关阅读:

热门信息

热门文章

最近发表

免费开放390部经典，未来3年整理上万本古籍，这座图书馆上线了测试版

相关阅读:

猜你喜欢

热门信息

热门文章

最近发表