UiPathの日本語OCR(Googleエンジン)を有効にしよう!

By | 2018年7月4日

UiPathの日本語OCR(Googleエンジン)を有効にしよう!

UiPathには画像の中の文字をOCRして、その結果に対して処理をする(クリックさせる、テキストを読み取るなど)機能があります
ただし、バージョン2018.3時点でも、この機能はデフォルトでは英語しか使えません。
こちらのGoogleエンジンの日本語OCRを有効にする方法を紹介いたします

まず、下記サイトを開きます(githubに接続します)。バージョンがいくつかあり、OCRの結果も事なります。

Ver4.0.0
https://github.com/tesseract-ocr/tessdata/blob/4.00/jpn.traineddata

Ver3.04
https://github.com/tesseract-ocr/tessdata/blob/3.04.00/jpn.traineddata

Downloadボタンを押して、「jpn.traineddata」ファイルをダウンロードしてください。
もし複数切り替えて使いたい場合はjpn4.0のようにファイル名を変えてください。

ダウンロードできたら、そのファイルを自分のPC内の下記に移動させます。
私はCommunityEdtionですので、下記が移動先となっていますが、
製品版ユーザーの場合はインストール先が違いますのでご注意ください。
※2018.3からなのかわかりませんが、tessdataフォルダが初期状態では存在しませんので、
 基本的にtessdataフォルダを自分で作成する必要があります。

C:\Users\(自分のログイン名)\AppData\Local\UiPath\app-XX.X.X\tessdata

※XXの部分は自分が使っているバージョンで異なります。

このフォルダの中に先ほどダウンロードしたデータを入れましょう。
これで日本語OCRができるようになります。

ためしにリボンメニューから画面スクレイピングウィザードを立ち上げて見ましょう。

このように、スクレイピング方法(Scraping Method)をOCRにし、OCR エンジン(OCR Engine)をGoogle OCRにすると、
言語(Languages)から先ほど追加した日本語用OCRファイルが選択できるようになります

jpnを選んだ状態で「更新」を押せば、日本語でOCRを行ってくれます。ただし、精度には期待しないほうがいいです
文章を読み取るというよりは、こういう形の物体がある(内容が合ってようがいまいが)場所を見つける、
画像認識に毛が生えた程度にしか使うことしかできません。