首页 > 社交 > 科普中国

聊聊Node.js

常驻编辑 科普中国 2022-07-18 在线   可能会   示例   仓库   文本   语言   方式   智能   数据   图片

以上示例为对文本对识别。2X4拜客生活常识网

自行训练自定义数据

默认支持的训练数据相对比较弱,对于文字比较清晰的图片来说一般没有问题,但对于存在干扰的验证码这种需求来说,则需要通过自行训练来提升准确率。2X4拜客生活常识网

tesseract.js 使用的训练数据只是将 tesseract-ocr gzip 压缩了一下而已,训练自定义的数据需要安装 tesseract-ocr 以及其训练数据相关工具。2X4拜客生活常识网

具体的方法可参考官方相关仓库和文档:2X4拜客生活常识网

  • 安装 tesseract-OCR:https://github.com/tesseract-ocr/tessdoc/blob/master/Installation.md
  • https://github.com/tesseract-ocr/tesstrain
  • https://github.com/tesseract-ocr/tessdoc/blob/master/Compiling.md

另外也有一些可参考的教程:2X4拜客生活常识网

  • https://zhuanlan.zhihu.com/p/103714876
  • https://github.com/kekxv/TesseractTrain
  • https://www.bbsmax.com/A/6pdDb7pDJw/
  • https://www.bbsmax.com/A/8Bz8KNOkdx/
  • https://www.ershicimi.com/p/9bf5ec129082ac6800b1cb6f56c6f71c
  • https://blog.csdn.net/sylsjane/article/details/83751297
  • https://blog.csdn.net/holmofy/article/details/80867243
  • https://blog.csdn.net/makesibushuohua/article/details/52058310

获取用于训练的图片

以验证码为例,下面为获取一定数量的验证码作为训练集。由于训练的图片只能为 png 格式,使用了 sharp 将下载得到的图片转换为 png 格式。sharp 安装过程中需要从 GitHub 仓库下载二进制资源,可能会因为无法下载而安装失败,我们执行如下命令设置从淘宝镜像下载相关资源:

相关阅读:

  • 关晓彤密室恋爱教学,不仅推理智商在线,传授恋爱知识表白
  • caj文件怎么打开(caj转pdf在线转换器)
  • qq资料怎么弄空白(空白资料在线清空)
  • 新东方在线怎么样(高中最好的十个网课平台)
  • 新东方网课怎么样(新东方在线网课收费标准)
  • 小牛在线怎么样(小牛在线现在到底什么情况)
  • 优速物流怎么样(优速在线人工客服)
  • 小牛在线最近怎么了(小牛在线最新消息1月3日)
  • 网上买戒指怎么量尺寸(在线测量戒指尺寸)
  • 太平人寿怎么样(太平人寿在线测评)
    • 网站地图 |
    • 声明:登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。