Raspberry Pi3でTesseract.jsを利用してみた

Tesseract.jsはTesseract OCR(光学文字認識)エンジンをjavascriptでラップしたライブラリです。日本語を含めた60以上の言語の文字を認識でき、javascriptで実装されているので、サーバー上でもブラウザ上でも実行できます。ここではRaspberry Pi3におけるTesseract.jsについて解説していきます。

01: 環境

  • Raspbian GNU/Linux 8.0 (jessie)

02: インストール

bash


# 作業ディレクトの作成/移動
$ mkdir JS0301-Tesseract
$ cd JS0301-Tesseract

# Tesseract.jsのインストール
$ npm install tesseract.js --save

# sample.jsの作成
$ nano sample.js

sample.js


var Tesseract = require('tesseract.js') //ブラウザで使う場合はこの項目は不要

Tesseract
  // (読み込む画像、言語) jpeg || png
  .recognize('test.png', {lang: 'jpn'}) //exp: jpn, eng
  //.ImageLike('media', lang)  //* browser only img || video || canvas
  .progress(function(message) {
    // 進歩状況の表示
    console.log('progress', message)
  })
  // 結果のコールバック
  .then(function(result) {
    console.log(result)
});

// 実行後、'.trained'というトレーニングファイルが作成される。

03: 実行

bash


$ node sample.js

入力画像

結果

結果


'米アップ丿レのテイム ー クック最高経営貢任者 (CE。) は3日、 米国内で高度な\n技術を必要とする製造業の成長や投資を促進するためー 。億ドル (約ー ー 20億\n円) のファンドを作ることを明らかにした。 投資先などは明かしていないが、 国内\n雇用の創出を目指す卜ランプ政権への配慮とみられる。\nクックCE。が米テレビCNBCの取材に対して答えた。 クックCE。は 「製造\n業の雇用を増やせば、 サ一ビス業など周辺の雇用も生むことができる」 と語り、 5\n月中にも最初の投資先を発表すると した。 (サンフランシスコ=宮地ゆう)\n\n'