Category Archives: OCR

UiPathの日本語OCR(Googleエンジン)を有効にしよう!

UiPathの日本語OCR(Googleエンジン)を有効にしよう! UiPathには画像の中の文字をOCRして、その結果に対して処理をする(クリックさせる、テキストを読み取るなど)機能があります。 ただし、バージョン2018.3時点でも、この機能はデフォルトでは英語しか使えません。 こちらのGoogleエンジンの日本語OCRを有効にする方法を紹介いたします。 まず、下記サイトを開きます(githubに接続します)。バージョンがいくつかあり、OCRの結果も事なります。 Ver4.0.0 https://github.com/tesseract-ocr/tessdata/blob/4.00/jpn.traineddata Ver3.04 https://github.com/tesseract-ocr/tessdata/blob/3.04.00/jpn.traineddata Downloadボタンを押して、「jpn.traineddata」ファイルをダウンロードしてください。 もし複数切り替えて使いたい場合はjpn4.0のようにファイル名を変えてください。 ダウンロードできたら、そのファイルを自分のPC内の下記に移動させます。 私はCommunityEdtionですので、下記が移動先となっていますが、 製品版ユーザーの場合はインストール先が違いますのでご注意ください。 ※2018.3からなのかわかりませんが、tessdataフォルダが初期状態では存在しませんので、  基本的にtessdataフォルダを自分で作成する必要があります。 C:\Users\(自分のログイン名)\AppData\Local\UiPath\app-XX.X.X\tessdata ※XXの部分は自分が使っているバージョンで異なります。 このフォルダの中に先ほどダウンロードしたデータを入れましょう。 これで日本語OCRができるようになります。 ためしにリボンメニューから画面スクレイピングウィザードを立ち上げて見ましょう。 このように、スクレイピング方法(Scraping Method)をOCRにし、OCR エンジン(OCR Engine)をGoogle OCRにすると、 言語(Languages)から先ほど追加した日本語用OCRファイルが選択できるようになります。 jpnを選んだ状態で「更新」を押せば、日本語でOCRを行ってくれます。ただし、精度には期待しないほうがいいです。 文章を読み取るというよりは、こういう形の物体がある(内容が合ってようがいまいが)場所を見つける、 画像認識に毛が生えた程度にしか使うことしかできません。