よくわからないことを調べて解説してみるブログ。
2015
・tesseract
google製のOCR ライブラリ
Windows向けインストーラ(https://code.google.com/p/tesseract-ocr/downloads/list)
で「Windows installer」にあたるもの
・Tess4j(http://tess4j.sourceforge.net/usage.html)
tesseractのJNI呼び出しを実現したライブラリ。
・精度向上のための学習手順(http://hadashi-gensan.hatenablog.com/entry/2014/01/15/135316)
超重要。
英語ドキュメントを読み解いた方が手順を懇切丁寧に記載してくれている。
・jTessBoxEditor(http://vietocr.sourceforge.net/training.html)
学習用boxファイルの生成の簡便化ツール。
いちいちコマンドラインで打つよりは簡単に作業出来そうである。
・VietOCR
GUIのOCRツール。詳細不明。
参考ブログ(http://nokoshitamono.blogspot.jp/2014/03/tessarctocrguivietocr.html)
・メモ
学習手順
・BOXファイルの生成(教師データ作成)
画像を読み込ませ、各単語の読み取り範囲及びその単語を訂正する。
・画像ファイルをboxファイルと同様の命名方式にする。
・TRファイルの生成
tesseract eng.test.exp0.tif eng.test.exp0 nobatch box.train.stderr)
※このタイミングで複数のtrファイルがあるなら、catですべて結合する。
windowsではcopy file1+file2という感じでいける。
・フォントデータの生成
→unicharset_extractor eng.test.exp0.box
→新規作成>テキストファイル>font_properties
・トレーニングデータの作成
mftraining -F font_properties -U unicharset eng.test.exp0.tr
mftraining -F font_properties -U unicharset -O eng.unicharset unicharset eng.test.exp0.tr
cntraining eng.test.exp0.tr
google製のOCR ライブラリ
Windows向けインストーラ(https://code.google.com/p/tesseract-ocr/downloads/list)
で「Windows installer」にあたるもの
・Tess4j(http://tess4j.sourceforge.net/usage.html)
tesseractのJNI呼び出しを実現したライブラリ。
・精度向上のための学習手順(http://hadashi-gensan.hatenablog.com/entry/2014/01/15/135316)
超重要。
英語ドキュメントを読み解いた方が手順を懇切丁寧に記載してくれている。
・jTessBoxEditor(http://vietocr.sourceforge.net/training.html)
学習用boxファイルの生成の簡便化ツール。
いちいちコマンドラインで打つよりは簡単に作業出来そうである。
・VietOCR
GUIのOCRツール。詳細不明。
参考ブログ(http://nokoshitamono.blogspot.jp/2014/03/tessarctocrguivietocr.html)
・メモ
学習手順
・BOXファイルの生成(教師データ作成)
画像を読み込ませ、各単語の読み取り範囲及びその単語を訂正する。
・画像ファイルをboxファイルと同様の命名方式にする。
・TRファイルの生成
tesseract eng.test.exp0.tif eng.test.exp0 nobatch box.train.stderr)
※このタイミングで複数のtrファイルがあるなら、catですべて結合する。
windowsではcopy file1+file2という感じでいける。
・フォントデータの生成
→unicharset_extractor eng.test.exp0.box
→新規作成>テキストファイル>font_properties
・トレーニングデータの作成
mftraining -F font_properties -U unicharset eng.test.exp0.tr
mftraining -F font_properties -U unicharset -O eng.unicharset unicharset eng.test.exp0.tr
cntraining eng.test.exp0.tr
copy inttemp eng.inttemp
copy shapetable eng.shapetable
copy pffmtable eng.pffmtable
copy normproto eng.normproto
combine_tessdata eng.
cp eng.traineddata "tessdataディレクトリ"
※適宜更新予定。
cp eng.traineddata "tessdataディレクトリ"
※適宜更新予定。
PR
プロフィール
HN:
たんてーくん
性別:
非公開
最新記事
(03/29)
(03/29)
(06/26)
(05/21)
(04/23)
カテゴリー
最新CM
[09/25 http://2017.bblbuy.com]
[09/24 http://www.japanform.com]
[09/23 http://www.japanform.com]
[09/22 http://www.japanform.com]
[09/21 http://2017.bblbuy.com]
ブログ内検索