忍者ブログ
よくわからないことを調べて解説してみるブログ。

2024

1205
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2015

0222
・tesseract
 google製のOCR ライブラリ
 Windows向けインストーラ(https://code.google.com/p/tesseract-ocr/downloads/list
  で「Windows installer」にあたるもの

Tess4j(http://tess4j.sourceforge.net/usage.html
  tesseractのJNI呼び出しを実現したライブラリ。

精度向上のための学習手順(http://hadashi-gensan.hatenablog.com/entry/2014/01/15/135316
 超重要。 
 英語ドキュメントを読み解いた方が手順を懇切丁寧に記載してくれている。

jTessBoxEditor(http://vietocr.sourceforge.net/training.html) 
 学習用boxファイルの生成の簡便化ツール。
 いちいちコマンドラインで打つよりは簡単に作業出来そうである。

・VietOCR
 GUIのOCRツール。詳細不明。
 参考ブログ(http://nokoshitamono.blogspot.jp/2014/03/tessarctocrguivietocr.html

メモ
 学習手順
  ・BOXファイルの生成(教師データ作成)
   画像を読み込ませ、各単語の読み取り範囲及びその単語を訂正する。
  ・画像ファイルをboxファイルと同様の命名方式にする。
  ・TRファイルの生成
   tesseract eng.test.exp0.tif eng.test.exp0 nobatch box.train.stderr)
   ※このタイミングで複数のtrファイルがあるなら、catですべて結合する。
    windowsではcopy file1+file2という感じでいける。
  ・フォントデータの生成
   →unicharset_extractor  eng.test.exp0.box
   新規作成>テキストファイル>font_properties
  ・トレーニングデータの作成
   mftraining -F font_properties -U unicharset eng.test.exp0.tr 
   mftraining -F font_properties -U unicharset -O eng.unicharset unicharset eng.test.exp0.tr
   cntraining eng.test.exp0.tr
   copy inttemp eng.inttemp
   copy shapetable eng.shapetable
   copy pffmtable eng.pffmtable
   copy normproto eng.normproto
   combine_tessdata eng.
    cp eng.traineddata "tessdataディレクトリ"


※適宜更新予定。

拍手[0回]

PR
プロフィール
HN:
たんてーくん
性別:
非公開
フリーエリア
最新CM
[09/25 http://2017.bblbuy.com]
[09/24 http://www.japanform.com]
[09/23 http://www.japanform.com]
[09/22 http://www.japanform.com]
[09/21 http://2017.bblbuy.com]
ブログ内検索
忍者ブログ [PR]
* Template by TMP