UiPathの日本語OCR(Googleエンジン)を有効にしよう!
UiPathには画像の中の文字をOCRして、その結果に対して処理をする(クリックさせる、テキストを読み取るなど)機能があります。
ただし、バージョン2018.3時点でも、この機能はデフォルトでは英語しか使えません。
こちらのGoogleエンジンの日本語OCRを有効にする方法を紹介いたします。
まず、下記サイトを開きます(githubに接続します)。バージョンがいくつかあり、OCRの結果も事なります。
Ver4.0.0
https://github.com/tesseract-ocr/tessdata/blob/4.00/jpn.traineddata
Ver3.04
https://github.com/tesseract-ocr/tessdata/blob/3.04.00/jpn.traineddata
Downloadボタンを押して、「jpn.traineddata」ファイルをダウンロードしてください。
もし複数切り替えて使いたい場合はjpn4.0のようにファイル名を変えてください。
ダウンロードできたら、そのファイルを自分のPC内の下記に移動させます。
私はCommunityEdtionですので、下記が移動先となっていますが、
製品版ユーザーの場合はインストール先が違いますのでご注意ください。
※2018.3からなのかわかりませんが、tessdataフォルダが初期状態では存在しませんので、
基本的にtessdataフォルダを自分で作成する必要があります。
C:\Users\(自分のログイン名)\AppData\Local\UiPath\app-XX.X.X\tessdata
※XXの部分は自分が使っているバージョンで異なります。
このフォルダの中に先ほどダウンロードしたデータを入れましょう。
これで日本語OCRができるようになります。
ためしにリボンメニューから画面スクレイピングウィザードを立ち上げて見ましょう。
このように、スクレイピング方法(Scraping Method)をOCRにし、OCR エンジン(OCR Engine)をGoogle OCRにすると、
言語(Languages)から先ほど追加した日本語用OCRファイルが選択できるようになります。
jpnを選んだ状態で「更新」を押せば、日本語でOCRを行ってくれます。ただし、精度には期待しないほうがいいです。
文章を読み取るというよりは、こういう形の物体がある(内容が合ってようがいまいが)場所を見つける、
画像認識に毛が生えた程度にしか使うことしかできません。