忍者ブログ
よくわからないことを調べて解説してみるブログ。

2024

0420
×

[PR]上記の広告は3ヶ月以上新規記事投稿のないブログに表示されています。新しい記事を書く事で広告が消えます。

2015

0222
・tesseract
 google製のOCR ライブラリ
 Windows向けインストーラ(https://code.google.com/p/tesseract-ocr/downloads/list
  で「Windows installer」にあたるもの

Tess4j(http://tess4j.sourceforge.net/usage.html
  tesseractのJNI呼び出しを実現したライブラリ。

精度向上のための学習手順(http://hadashi-gensan.hatenablog.com/entry/2014/01/15/135316
 超重要。 
 英語ドキュメントを読み解いた方が手順を懇切丁寧に記載してくれている。

jTessBoxEditor(http://vietocr.sourceforge.net/training.html) 
 学習用boxファイルの生成の簡便化ツール。
 いちいちコマンドラインで打つよりは簡単に作業出来そうである。

・VietOCR
 GUIのOCRツール。詳細不明。
 参考ブログ(http://nokoshitamono.blogspot.jp/2014/03/tessarctocrguivietocr.html

メモ
 学習手順
  ・BOXファイルの生成(教師データ作成)
   画像を読み込ませ、各単語の読み取り範囲及びその単語を訂正する。
  ・画像ファイルをboxファイルと同様の命名方式にする。
  ・TRファイルの生成
   tesseract eng.test.exp0.tif eng.test.exp0 nobatch box.train.stderr)
   ※このタイミングで複数のtrファイルがあるなら、catですべて結合する。
    windowsではcopy file1+file2という感じでいける。
  ・フォントデータの生成
   →unicharset_extractor  eng.test.exp0.box
   新規作成>テキストファイル>font_properties
  ・トレーニングデータの作成
   mftraining -F font_properties -U unicharset eng.test.exp0.tr 
   mftraining -F font_properties -U unicharset -O eng.unicharset unicharset eng.test.exp0.tr
   cntraining eng.test.exp0.tr
   copy inttemp eng.inttemp
   copy shapetable eng.shapetable
   copy pffmtable eng.pffmtable
   copy normproto eng.normproto
   combine_tessdata eng.
    cp eng.traineddata "tessdataディレクトリ"


※適宜更新予定。

拍手[0回]

PR
Post your Comment
Name:
Title:
Font:
Mail:
URL:
Comment:
Pass: Vodafone絵文字 i-mode絵文字 Ezweb絵文字
ウブロ激安ブランド館
激安、安心、安全にお届けします、安心して買って下さいパネライコピー時計高品質のブランドコピーを超激安な価格で販売しています。
人気商品コピー ブランド通販専門店。
全国送料無料!
当社は2017逸品が満載している好評度業界No.1ブランド コピー激安通販店です
店長お薦めは以下の商品:
パネライコピー時計,パネライスーパーコピー,パネライN級品
IWCスーパーコピー,IWC N級品,IWC時計コピー, IWC ポルトギーゼ
ウブロ激安ブランド館 http://www.baggobuy.com
ウブロ激安ブランド館 URL 2017/08/24(Thu)18:17:59 編集
プロフィール
HN:
たんてーくん
性別:
非公開
フリーエリア
最新CM
[09/25 http://2017.bblbuy.com]
[09/24 http://www.japanform.com]
[09/23 http://www.japanform.com]
[09/22 http://www.japanform.com]
[09/21 http://2017.bblbuy.com]
ブログ内検索
忍者ブログ [PR]
* Template by TMP