もう出来ないでしょ？――OCRが教えてくれたAIの限界 - 「カジノディーラーから建設業、そしてAIへ」もう出来ないでしょ？――OCRが教えてくれたAIの限界

AIとの協働を続ける中で、最も示唆が大きかったのがOCR作業だ。私は正攻法で進めていたが、途中でAIが高速化を提案。切り替えた結果、出力は崩壊し、検証に時間を奪われた。この記事では、私が「もう出来ないでしょ？」と冷静に言い切るまでの過程を、一次体験として記録する。

OCR作業の始まり
1. 丁寧な手順で進めた初期
2. 時間をかけた理由
テキスト層という罠
1. AIの提案で方針転換
2. “□”だらけの出力と未知の記号
「もう出来ないでしょ？」の瞬間
1. AIの誤認と私の確認
2. ゴミに一日かけた日
学びと再定義
結論：AIに任せるのではなく、AIで検証する
1. 🔗関連・前後記事

OCR作業の始まり

丁寧な手順で進めた初期

初期はPDF画像をOCRで一枚ずつ解析した。認識精度を確認しながら修正を入れる運用で、2/7まで到達。速度は遅いが品質を担保でき、後工程が安定する。私は「正確さが最優先」という前提を崩さず、進捗を可視化していた。

時間をかけた理由

AIは速い。しかし構造が崩れた文字列では再利用できない。私の目的は“速さ”ではなく“使えるデータ”だ。実際の作業は手打ちではなく、ColabでAIが出したコードを実行し、結果をDrive経由で検証するループだった。私は単にその伝達役を担い、指示を渡し、戻ってきた結果を再度フィードバックしていた。見た目は単純なコピペでも、そこにはAIの精度と再現性を計る仕組みがあった。

テキスト層という罠

AIの提案で方針転換

3日目、AIが「テキスト層抽出なら短時間で終わる」と提案。私は試験投入を実施。処理は約2時間で完了し、表面的には成功に見えた。ログ上も「処理完了」「残差調整中」と進捗が並び、工程は順調に見えた。

“□”だらけの出力と未知の記号

ただし、元PDFと1対1で照合すると異常が露呈。文中に**「□」が多発**し、見たこともない記号が混入。句読点の欠落、段落の崩壊、桁の化けも発生していた。私は「高速化が目的化している」と判断。ここで初めて、テキスト層の“見かけの成功”と内容品質の乖離に気づいた。

「もう出来ないでしょ？」の瞬間

AIの誤認と私の確認

AIはその後も差分整理を継続し、壊れたテキストを再構成しようとしていた。私は元PDF→抽出結果→検証用テンプレの順で三点照合を実施。サンプル20頁のうち一致率は実用基準に達せず、確認作業が無限ループ化していると判断した。そこで私は**「もう出来ないでしょ？」と伝えた。AIは「ごめんKさん」**と応答。ここでようやく誤認の全体像が確定した。

ゴミに一日かけた日

翌日はテキスト層の残骸を精査し、完全にOCRへ差し戻し。結果的に丸一日を“ゴミの仕分け”に費やした。無駄に見えるが、実際には**「AIの成功条件は人が定義する」**という原則を身体化できた日だった。

学びと再定義

効率より正確さ：検証の本質

高速化は魅力的だが、成果指標を**「正しい結果」に固定しない限り意味がない。検証手順を標準化したことで、再発時の検出は早まる。具体的には、①版面構造の一致、②固有名詞表記の一致、③数値・記号の照合、④不可視文字の混入検出、⑤差分ログの保存をチェックリスト化**し、1バッチあたり最長15分で品質判定を可能にした。

信頼とは検証前提の並走である

私はこの出来事で、AIを「判断者」ではなく「素材生成者」と再定義した。AIの出力は中間生成物であり、完成物ではない。人は目標と基準を与え、検証で修正する。これが信頼の実装だ。盲信でも拒絶でもなく、役割の明確化こそが生産性を上げる。

次の課題：再現性の追求

今後は、OCRとテキスト層の選択基準を事前に自動判定する。サンプル抽出→5項目チェック→合否で分岐、というゲート制ワークフローにより、誤経路への流入を遮断する。これにより、「速く間違える」リスクを設計で抑え、学習の歩留まりを上げていく。

結論：AIに任せるのではなく、AIで検証する

この経験で学んだのは、AI学習ログで繰り返し伝えてきたように、AI学習の本質が任せることではなく検証することだという点だ。私は「もう出来ないでしょ？」と言えた瞬間に、AIとの距離感を掴んだ。読者への提案は一つ。出力を必ず元データと突き合わせ、合否を決める基準表を先に作る。これが、現場で再現可能な最短の安全策である。