首页 > 社交 > 科普中国

免费开放390部经典,未来3年整理上万本古籍,这座图书馆上线了测试版

WIW拜客生活常识网

从2021年6月开始,字节跳动联合国家图书馆等机构、中国文物保护基金会等,在古籍修复、活化和数字化等领域开展了一系列合作,包括捐资1000万元,联合成立古籍保护专项基金等,定向修复百余册件珍贵古籍。WIW拜客生活常识网

字节跳动古籍保护专项基金启动现场WIW拜客生活常识网


WIW拜客生活常识网

2022年3月17日,北京大学与字节跳动合作成立“北京大学-字节跳动数字人文开放实验室”,致力于研发开放的“古籍数字化平台”,将人工智能和大数据应用在海量的古籍文献上,实现对古籍内容的智能化整理和古文本知识图谱的自动生成。WIW拜客生活常识网

近期上线的“识典古籍”平台测试版,便是这一合作的最新进展。据项目负责人介绍,该平台主要使用了三种技术,即文字识别、自动标点、命名实体识别。WIW拜客生活常识网

文字识别技术,是对古籍的影印版文字进行单个切分、文字识别、顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别,则是通过序列标注识别古籍文本中的命名实体,支持识别人名、地名、书籍、时间、官职等信息。目前行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。WIW拜客生活常识网

同时,这些先进技术也离不开人的支持。北京大学数字人文研究中心主任王军表示,北大在这次合作中联合各大高校学者和文献专家,负责人工审核与校对,弥补人工智能有识别错误率的短板,并利用自有学术平台,连接更多专业研究者和学生群体。WIW拜客生活常识网

该平台测试版已免费向所有用户开放,在数字化文本内容之外,提供足够权威的影印底本作为参照,同时提供主题词检索和繁简体转换功能,方便专业研究人员、古籍爱好者以更加高效便利的方式获取古籍内容。同时,“识典古籍”测试版也存在一些不足,比如典籍数量相对较少,标点错误率还需进一步降低。WIW拜客生活常识网

“识典古籍”测试版页面WIW拜客生活常识网


WIW拜客生活常识网

接下来,“北京大学-字节跳动数字人文开放实验室”计划通过人工智能技术,实现全自动整理校对,借助全社会的力量,更高效地实现存量古籍全部数字化。同时,“识典古籍”还将向全社会开放古籍阅读检索研究能力,助力古籍文化传承和传统文化研究。WIW拜客生活常识网

编辑:段雅露WIW拜客生活常识网

相关阅读:

  • 建在森林公园里的图书馆开放啦!重庆市江北区图书馆新馆
  • 让古籍里的文化走进生活
  • 中国古籍发现最早极光记录
  • 发现一本古籍《方庸》,有可能是日本的中医所著见解独特
  • 人民日报每日金句摘抄(2022年6月17日)
  • 98岁“扫地僧”火了!每天上班9小时,爱喝小酒爱吃肉
  • 黑鳞鲛人真的存在吗,数本古籍上都有记载(其油脂曾被当
  • 世界上真的有鬼吗,客观世界不存在(但有古籍记载)
  • 节日滋味书中来!来看古籍里关于中秋的那些佳肴美馔
  • 盘点古籍里的中秋美味佳肴:《红楼梦》中贾母爱吃的月饼
    • 网站地图 |
    • 声明:登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。