絵本の読み聞かせをAIにお願いしたく、Cloud Vision APIのOCRを使うことにしました。想像以上に精度がよいものの、やはり誤認するパターンがあります。
※これは2020年7月14日現在の情報で、OCRは日々進化していると思われます。
1行に言語が混在する文章は難しい
「横書きの文章を、
Cloud Vision API を使って読み取る。」
と、書かれた写真を、昨日作ったOCRのWebアプリで読み取ってみました。
結果、APIより後ろの文字を盛大に誤認します。
「横書きの文章を、
Cloud Vision API &EƆCAH3.」
文字の形状より、言語の判断を優先して認識しているようです。
API以降も英語(一部記号)として読み取られました。
念のため他のサンプルでも試してみましょう。
「MUFG 三菱UFJ銀行」の文字は、やはり誤認します。
けっこう身の回りに、英語と日本語の混在する文字が多く、日本で日常的にOCRを使えるのは、英語圏より1歩遅れそうな気がします。
行を変えれば言語影響も大丈夫
今度は、日本語と英語の行を変えてみました。
「横書きの文章を、
Cloud Vision API
を使って読み取る。」
問題なしです。
行単位か、または文字の距離で、言語がリセットされるのだと思います。
ちなみに背景に比較的ごちゃごちゃした写真を使っていますが、文字の識別には影響ないようです。
言語の混在はダメ。文字背景がごちゃごちゃしていてもOK。
直近の目的である、絵本の文字を読み取ることには支障なさそうです。
縦書きの文字も読み取れるがカタカナに弱い
絵本の文字は縦書きが多いです。
Cloud Vision APIのOCRは賢いことに、縦書きも理解してくれます。
ただ、カタカナで「クラウドビジョンエーピーアイ」と書かれているところは誤認しました。
著作権の関係で画像掲載を控えますが、絵本でも縦書きのカタカナを誤認します。
「ゴー」が「ロー」になったり。
カタカナの学習量が少ないのでしょうか?
絵本の読み聞かせアプリを使うときは、カタカナが苦手なことをあらかじめ子供に伝えたほうがよさそうです。
最後に、カタカナをやめて、漢字にしたパターンです。
「人工知能の光学文字認識」
しっかり認識できました。
OCRの認識・誤認のパターンを知ることで、どういう場面でOCRを活用できるか、判断基準にもなるでしょう。