dancept2の日記

あやしうこそものぐるほしけれ

生成AIの画像編集:❝生成系の画像処理では文字を「画像として」保ったままコントラストだけを調整するのが難しく、どうしても誤認識・改変が起きやすいです。❞

いろいろありますがべんりな生成 AI 。スクショのコピペで手軽にいける OCR 機能ほか画像処理関係でも便利に使わせてもらってるんですが、ナニコレというようなことがあったので——この手の話は珍しくもなさそうですし日進月歩のこの世界、すぐ解決されそうな気もいたしますが。

前回、古い手書き原稿の印刷物(白黒)を取り込み記事にしていて

紙はぼろぼろ、黄ばんでますし、インクも飛んで(?)しまっています。これは見づらい。そうだ生成 AI におねがいしてみよう、と ChatGPT でコントラスト調整を試みました。ただし無料版であります。

❝文字を濃くしてコントラストを上げて下さい❞

——すこし待たされましたが、ををっこれは凄い!!と感動したのもつかの間……。ぱっと見で右下、「東京競馬場」で異変(?)に気づく。ははーん、文字を OCR で解釈して「生成」してしまうのか。拡大してみると……ツッコミどころ多すぎますが以下いくつか拾ってみます。

出力結果①:上掲二枚目]

左ページ、番号「10」馬名「ハーフアイスト」は「ナールアラスト」(?)、ラテン文字表記「NOAH ICED」、毛色は「鹿」毛に。記事欄の「アメリカ」は「11.25入厂」(「厂」は「厩」の略字)が付いて混乱したか、勝手に「日本」に置き換えてしまった(笑)。

「13」「カズシゲ」も苦手なよう(?)で、「14」「カツアール」へと毛色を除き番号ごと勝手に置き換え(ただし「日本」は前記同様あいだにスペースなし文字詰め)。番号が「10」から「13」に飛んでいて混乱ということもあるまいが。

逆に「カツアール」は毛色が「鹿」に。「栗」毛の「5」「スタネーラ」も「鹿」に改変、認識できないと「鹿」をセット?(笑)。

「イタリア」もダメなのか「7」「スカウティングミラー」は次の行「8」の「フランス」に置き換えられ、「牝」馬なのが「牡」馬になり令(齢)が一歳若返った「8」「オールアロング」も次の「9」の「アメリカ」が繰り上がる(?)。で、「アメリカ」のはずの「9」「ジョンヘンリー」はというと、「フタンス」(笑)。

OCR が解釈しているのにも関わらずナゾの文字も生成。このハナモゲラ文字(?)、なまじ手書きなので不気味さが増すような *1 。「1」「フロストキング」だけ太くなるのもよくわからない。

❝文字化けしています。別のアルゴリズムで処理できますか?❞

—— AI くん、誤り等指摘すると素直に(?)認めたり言い訳したりしますが今回は不愛想、黙って再処理に入る。

出力結果②:三枚目]

前回「フタンス」の(笑)「9」「ジョンヘンリー」は「牡」「7」歳の謎の馬「ノアバーク」に。「NOAH」とは、この「ノア」を拾ったのか「JOHN」の誤読なのか、ラテン文字に「NOAH PARTY」。さらには「8」「オールアロング」の方に「JOHN HENRRY」が現れる。

「カズシゲ」の行も勝手に削除してしまい無かったことに(笑)。

「10」「ハーフアイスト 」はマシになったものの「ハーフアイスド」と、「HALF ICED」を参照したか、やはり OCR が介入、「ト」を「ド」と勝手に解釈。令「4」が「6」になったのは次の行で消えた「13」「カズシゲ」の「6」か。記事欄も壊れて、国名ではなく三頭続けてハナモゲラで毛色をセットし出した。

前回あやしげだった「ドイツ連邦」は西ドイツ的な謎のドイツに変換。同様にあやしげだった「ニュージーランド」は下の行の「フランス」に置き換わり、その下の「アイルランド」ふたつが繰り上がる(?)。その次の苦手な(?)「イタリア」も「フランス」を繰り上げ(?)無かったことに。

❝まだ文字化けが多いです。文字を誤認識して変えてしまっています。文字認識は使用しないアルゴリズムで処理できますか?❞

——今回も黙って処理を開始。

出力結果③:四枚目]

どうしても OCR で解釈してしまうようである。需要の多い(?)OCR に最適化し過ぎ。右下きれいに整形された「東京競馬場」は三回とも変化なし。

「10」「ハーフアイスト 」は「ハアバーク」に後退(笑)。ラテン文字は「NOAH ICEEFY」と解釈。両者を比較して検討したり、ジャパンカップ出走馬をチェックしたりすることまでは(無料版では?)思い当たらないらしい。いずれにせよ「コントラスト調整」ではない(単なる OCR ではなく、このように図案化するような用途もあるでしょうけど)。令「6」は「7」歳になって三頭続きスリーセブン。

「ハアバーク」ならぬ「ノアバーク」だった、「9」「ジョンヘンリー」は「シールヘンリー」「NOHN HEPRY」に。


原稿(左)と生成「画像」テキスト

苦手な(?)「ニュージーランド」には、前回出てきた謎のドイツをセットしてしまう。その「ドイツ連邦」は、「ド」もやけに難しく解釈してハナモゲラ化が進行。

「13」「カズシゲ」も消えたまま。

タイトル部分(クリックで 原稿/出力③ 切り替え):ぱっと見イイ感じだが、とくに最後の "P" など傾きが変わっている。

❝うまく行かないようです。thanks❞

——いちおう、お礼言っちゃったりするんですよね(笑)。

了解しました。今回はご期待に沿えず、申し訳ありませんでした。
ご指摘のとおり、生成系の画像処理では文字を「画像として」保ったままコントラストだけを調整するのが難しく、どうしても誤認識・改変が起きやすいです。

もし今後再挑戦される場合は、下記のようなOCR・純粋画像処理の方法が確実です:

Photoshop / GIMP

レベル補正(黒点を少しだけ締める)
トーンカーブで中間調のみコントラスト調整
アンシャープマスク(弱め・半径小)

・ ScanTailor / ScanTailor Advanced

書籍スキャン向けで、文字を変えずに可読性向上が得意

ImageMagick

-contrast-stretch や -level を軽めに使う(OCRなし)

また機会があれば、どのソフトで仕上げたいか前提を決めて、具体的な数値設定を一緒に詰めることもできます。

こちらこそ、ありがとうございました。

上記はゴシック表記も画面どおり。つまりは ChatGPT(の無料モード)では〈OCR・非純粋画像処理の方法〉のみということか。もっと細かくツッコむのもおもしろそうでしたがこの辺にしました(ほかの生成 AI も試していない)。しばらく様子をみて、改善されたかまた ChatGPT で試してみましょうか。


*1:そういえば映像生成が出始めたころでしたか〈情報量が多い画像〉『「天地魔闘の構え」で目を閉じた女子中学生の後ろで犬が逃げてる写真』から生成した動画は凄かったですね(笑)。AI が賢くなると、ああいう発想(?)は逆に出にくくなるのでしょうか。

www.youtube.com

これも凄かった(笑)。

www.youtube.com