OCR(特殊記号の事前登録)

Posted on by

Kanji-Graphを利用し読み取り(OCR)で特殊記号を学習させる例です。
仙台市の1:25000地形図のテキストレイヤを使います。

ナレーションの和訳は下記ご参照ください。


通常の文字情報は非常に効率よく読み取りされるが、
地形図の特殊記号は一般の文字セットに含まれていません。
この場合は、追加学習モジュールを使います。
それと同時に、文字と記号が重なったり、接触したりするデータでも
どのように対応できるのかもお見せします。
(文字と記号のエリアが交差されるのはOCRにとって難題です)。
特殊記号のフォントがあれば問題なく登録できます。
この例では、特殊フォントではなく、一般の文字セットを用いて
地図の記号と置き換えます。
OCRの作業として、まず一般のフォントに含まれ、追加学習を要しない
文字列から認識させます。
横書きの日本語からスタートします(先に記号とぶつからないところ
からOCRします)。
次に縦書きの文字列を処理します。
「若林区」は他の記号が干渉していますので、OCRの「選択領域に引っかかった
テキストのみを認識」というオプションにします。
横書きに切り替えもお忘れなく!
干渉する記号が選択ラバーバンドに引っかからなければ、OCRの対象にならないので
うまく認識できます。
テキスト(文字列)の次に数字を認識させます。
正確にOCR処理するには、変換文字を「数字」に限定します。

残りの情報は、あらかじめ辞書に登録した特殊記号をシンボルOCRオプションで
処理します。
チェック作業では、OCR対象オブジェクトのダイアログを呼び出し、
1個ずつ見ていきます。
この例では、84個のオブジェクトが見つかりました。
(ここでオブジェクトとは、認識された文字列の連続領域を言います)。
「X」という文字は、辞書に登録しなかったので「☆」に変換されました。
記号として変換したい場合は、先程の方法で登録してもいいし、または
ローマ字の「X」として認識するのであれば、通常のOCR処理をしてもOKです。
インデックスチェックでは、文字列⇒数字⇒記号の順に認識結果を
確認することができます。
シンボルの追加学習(事前辞書登録)により画像のOCRにかかる時間が短縮され、
認識率も完璧に近いです。
OCRの処理結果をここでRTF形式で保存します。引き続きMS Word等で閲覧・編集できます。
上記の作業で保存したファイルはこちらからダウンロードできます:

sendai_A_img
Wordでは斜めの文字列は水平・垂直になりましたが、A-CAD等でしたら、文字列の角度が保たれます。