—— 中新系全媒体矩阵 ——
新闻行业垂直网站据字节跳动宣布,由字节跳动和北京大学联合开发的古籍数字化平台读古籍测试版上线目前平台已推出390部经典古籍,共计3000多万字,免费向公众开放未来三年,知古籍将逐步完成1万种古籍的智能整理,基本覆盖儒释道核心书目
据不完全统计,我国约有20万种古籍,其中8万种完成了数字图像扫描,而数字化的只有3—4万种。
为了方便人们在图书馆中搜索和阅读古籍,阅读古籍平台主要采用了三种人工智能技术:
1.字符识别,即利用OCR技术将古籍影印图像识别为字符目前行业内OCR的识别准确率平均为93%到94%,读古籍将这一数字提高到96%到97%
二,自动标点,指的是算法,对古籍上原来缺少的标点符号自动进行处理比如《论语》以学而学不如说开头,自动标点的结果是学而学不如说
第三,命名实体识别,即古籍中专有名词的识别,包括名称,地点,书籍,时间,官职等。
本站了解到,未来读古籍将实现自动整理校对,并免费开放这一能力,推动库存古籍的数字化平台还将向全社会开放古籍阅读检索的研究能力,鼓励有文献的学者上传自己的文献用户也可以参与再创造和再诠释
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。