聊聊Node.js

常驻编辑科普中国 2022-07-18 在线可能会示例仓库文本语言方式智能数据图片

使用tesseract.js库实现 OCR 识别

tesseract.js 本质上也是基于 tesseract-ocr 的封装，但其不同的是它借助 emscripten 将 C++ 开发的 tesseract-ocr 编译为 WebAssembly 实现能力支持，现代浏览器均支持 WebAssembly ，故其也可直接在浏览器中应用。2X4拜客生活常识网

以下对使用 tesseract.js 实现 OCR 文本识别作简要介绍。2X4拜客生活常识网

安装tesseract.js依赖

npm i tesseract.js
# or
yarn add tesseract.js

下载训练数据

tesseract.js 默认从其网站下载训练数据，但由于训练数据包比较大，可能需要比较久的时间。我们可以先使用迅雷等工具将其下载下来，然后通过 langPath 参数指定训练数据的位置。2X4拜客生活常识网

下载地址示例： https://tessdata.projectnaptha.com/4.0.0_fast/chi_sim.traineddata.gz2X4拜客生活常识网

下载其他语言类型的训练数据，只需将示例地址中的 chi_sim 改为要下载的语言标识即可。2X4拜客生活常识网

当然你也可以从其默认训练数据的仓库下载（可能会因为 git 拉取太久而失败），所有默认支持的的语言也都可以从这里知晓。2X4拜客生活常识网

默认训练数据仓库地址为：https://github.com/naptha/tessdata2X4拜客生活常识网

基于tesseract.js的图片文本识别示例

const Tesseract = require('tesseract.js');
const path = require('path');

const worker = Tesseract.createWorker({
    logger: m => console.log(m),
    errorHandler: err => console.log('[error:]', err),
    // 使用离线训练数据
    langPath: path.resolve(__dirname, './tessdata/4.0.0_best'),
});

const ocrTest = async () => {
    await worker.load();
    await worker.loadLanguage('chi_sim');
    await worker.initialize('chi_sim');
    await worker.setParameters({
        // 验证码只为数字的情况下，设定白名单
        // tessedit_char_whitelist: '0123456789',
        tessedit_pageseg_mode: tessedit_pageseg_mode: Tesseract.PSM.AUTO,
    });

    // const image =  require('fs').readFileSync('./donate_wx.png');
    const image = 'https://lzw.me/wp-content/uploads/2017/02/donate_wx.png';
    const { data: { text } } = await worker.recognize(image);
    console.log(text);
    await worker.terminate();
});

ocrTest();



      
 
        首页上一页1234下一页尾页 
  
相关阅读:

关晓彤密室恋爱教学，不仅推理智商在线，传授恋爱知识表白
caj文件怎么打开(caj转pdf在线转换器)
qq资料怎么弄空白(空白资料在线清空)
新东方在线怎么样(高中最好的十个网课平台)
新东方网课怎么样(新东方在线网课收费标准)
小牛在线怎么样(小牛在线现在到底什么情况)
优速物流怎么样(优速在线人工客服)
小牛在线最近怎么了(小牛在线最新消息1月3日)
网上买戒指怎么量尺寸(在线测量戒指尺寸)
太平人寿怎么样(太平人寿在线测评)
 

               
上一篇 : APP里的适老化改造原来不是我们想的那么简单 

下一篇 : 7月15日区块链资讯汇总(一)


        
        猜你喜欢


    
    
    
 
   
	 
        热门信息
        
            疫情
         中国
         生肖
         游戏
         孩子
         时间
         身体
         怀孕
         美食
         旅游
         上海
         孕妇
         时尚
         北京
         月经
         人生
         篮球
         美国
         多久
         都会
            
      

   

    
  
         
        
      
        热门文章
        
                          1TikTok网络无法连接，无法使用7大常见原因
                         2二线明星出场费价格表2020，内地明星出场费价排行榜
                         3中国极具世界影响力的25个重大科技成就（精选）
                         4《优酷视频》黑屏怎么办（为什么优酷视频打开后是黑屏） ()
                         5刘强东套现要跑了4月7日，刘强东辞去京东集团CEO，由徐雷接替
               
      
      
   
    
  
         
        
      
        最近发表
        
                  鸡胗炒多久熟 鸡胗炒熟的时间控制
                  沙姜粉是什么调料 什么是沙姜粉
                  减肥方法立刻见效 马上见效的减肥方法
                  小孩早晨运动注意事项以及运动小常识 幼儿早晨运动注意事项以及运动小常识
                  名场面是什么意思 名场面一词是怎么来的