• 2026年05月25日
  • blog

IoT×AIで帳票を即データ化!SORACOM Fluxで直面した“2つのギャップ”と、その乗り越え方

はじめに:AIで「紙のデータ化」は、本当に楽になるのか?

こんにちは!クラウドソリューション部のエンジニアです。

現場に溢れる手書きの点検記録表、日報、作業報告書…。これらの紙媒体をデータ化する手作業は、多くの企業が抱える根深い課題です。

この課題を解決する有力な候補として今回私たちが注目したのが、IoTプラットフォームの「SORACOM」と、そのサービスの一つである「SORACOM Flux」です。

ご存じない方のために簡単にご紹介すると、「SORACOM」とは、IoTシステムを構築・運用するための「IoTプラットフォーム」です。IoT向けのデータ通信SIMをはじめ、デバイスから送られてくるデータを処理・活用するための多彩なクラウドサービスが一体で提供されており、IoTプロジェクトをスムーズに始めることができます。(より詳しい説明は SORACOM公式サイトへ)

そして今回主役となる「SORACOM Flux」は、そのSORACOMが提供する「ローコードIoTアプリケーションビルダー」です。これは、センサーやカメラといったIoTデバイスからのデータをトリガーに、生成AIによる分析などの様々な処理を、Webブラウザの画面上で組み合わせるだけで実現できるサービスです。本来であればサーバーの準備や複雑なプログラミングが必要になる処理も、Fluxを使えばローコードで構築できるのが大きな特長です。

このFluxを使えば、「SIMを挿したデバイスで撮影した帳票を、簡単にデータ化できるのでは?」と考え、大きな期待を寄せました。

本記事では、この検証で明らかになった「想定との2つのギャップ」と、その具体的な解決策をご紹介します。これからAI-OCRを試される方にとって、実践的なヒントになれば幸いです。

準備編:AI-OCRへの挑戦、必要なものはこれだけ

今回の検証に必要なものは非常にシンプルです。

  • SORACOMアカウント: アカウント作成は無料です。SORACOM Fluxをはじめとする各サービスは、処理回数やデータ量に応じた従量課金制のため、大規模な初期投資をすることなく、少ないコストで気軽に検証を始めることができます。
  • 帳票の画像データ: 今回は手書きの数値を書き込んだ点検記録表を用意しました。
    ※本記事で使用している帳票は検証用に作成したサンプルであり、実在する企業のデータではありません。
  • 使いたいAIモデルの選定: SORACOM Fluxは、GPT-4oやClaude Sonnet 4など、複数の主要なAIモデルに対応しています。本検証ではGPT-4.1を使用しました。

プログラミングは一切不要。画面操作だけで設定できるため、導入のハードルは非常に低いと言えるでしょう。

【ギャップ1】構築の壁:Fluxだけで画像は送れない?

さっそく設定を開始!…と、ここで早速、私が直面した一つ目のギャップについてお話しなければなりません。

当初の想定:「Fluxに直接画像をアップロードできるはず!」
私は最初、FluxのAIアクションに、直接画像をアップロードする機能があると考えていました。

判明した事実:「画像ファイルは、一度『SORACOM Harvest Files』に置く必要があった」
実際に試してみると、FluxのAIアクションが入力として想定しているのはテキストデータであり、画像ファイルを直接アップロードすることはできませんでした。画像のようなバイナリデータをAIに渡す場合、ファイルストレージサービスであるSORACOM Harvest Filesに画像をアップロードし、それをトリガーにFluxを起動するのが、SORACOMにおける標準的な手順でした。

【解決策:Harvest Filesとの連携手順】
構成は少し複雑になりますが、すべてGUIの操作で完結します。

  1. Harvest Filesを有効化: まず、SIMグループの設定でHarvest Filesを有効にします。
  2. Fluxのトリガー設定: Fluxのトリガー設定で、イベントソースを『SORACOM Harvest Files』に変更します。
  3. AIアクションの設定: AIアクションのプロンプトで、画像の場所を指定する部分に、Harvest Filesから渡される一時的な公開URL (${event.payload.presignedUrls.get}) を指定します。

この構成により、デバイスからHarvest Filesに画像をアップロードするだけで、自動的にAI処理が実行される仕組みが完成しました。

【ギャップ2】精度の壁:AIは帳票全体を正しく理解できるのか?

仕組みはできましたが、肝心なのはその「精度」です。ここで、私は二つ目のギャップに直面することになります。

検証①:帳票全体の画像で、AIの実力を試す

まずは、帳票全体が写った画像をHarvest Filesにアップロードしてみました。

結果:出力が安定せず、誤認識も発生
この段階での結果は実用には程遠いものでした。具体的には、以下のような事象が確認されました。

  • 出力内容の「揺らぎ」: 設定は同じなのに、実行するたびに「釜の温度」を「蒸気の温度」と読み取るなど、項目名が安定しませんでした。
  • 不要情報の読み取り: 表データだけでなく、ヘッダーの「文書番号」や欄外の注記といった、必要のない情報まで読み取ろうとしてしまいました。
  • 誤認識の発生: 一部の手書き数字を誤って認識するケースも見られました。

【考察】なぜAIは「複雑な表形式」の認識に苦戦するのか?

この結果は、現在のVision系AIが持つ特性をよく表しています。

AIは画像内の「文字」をテキストとして認識する能力(一般にOCRと呼ばれる技術)は非常に高いレベルにあります。しかし、それらの文字が配置されている「表」という二次元の「構造」を正しく理解するのは、また別の、より高度なタスクです。

AIにとって、画像は単なるピクセルの集まりです。

  • 罫線の解釈: 私たちが「セルの境界」と認識する罫線も、AIにとっては「黒い線のピクセル」に過ぎません。これがセルの区切りなのか、下線なのか、あるいは図形の一部なのかを文脈から判断するのは、実は非常に難しい処理です。
  • レイアウトの解釈: 特に、Excelでよく使われる「セルの結合」や段組といった複雑なレイアウトは、AIが「どのデータがどの項目に対応するのか」という論理的な関係性を推測する上での大きな障壁となります。

今回、情報量が多く複雑な「帳票全体」の画像で出力が安定しなかったのは、AIがこの複雑な「構造」の解釈に迷い、得意なはずの文字認識能力を最大限に発揮しきれなかったためだと考えられます。

検証②:「部分拡大」でAIのパフォーマンスを最大限に引き出す

この考察に基づき、「AIが解釈に迷わないよう、人間側で情報を整理して渡す」というアプローチに切り替えました。いわゆるデータの前処理(Preprocessing)です。
具体的には、「読み取ってほしい項目と手書き部分だけを拡大した画像」を用意しました。

この画像は、AIにとって「この範囲の文字を読み取り、表として解釈する」という、より単純で明確なタスクになります。これにより、AIは構造解釈の負担が減り、得意な文字認識能力に集中できると期待しました。

結果:高い精度でのデータ化に成功!
その結果、出力の揺らぎは解消され、最も重要である手書きの数値についても、非常に満足のいく結果が得られました。

項目 正解データ AIの読み取り結果 評価
釜の温度(℃) 181 181
圧力(MPa) 1.2 1.2
回転数(rpm) 1552 1552
電流値(A) 21 21
油温(℃) 63 63
冷却水温度(℃) 25 25
排気温度(℃) 211 211

まとめ:2つのギャップを乗り越えて見えた、AI活用のリアル

今回の検証を通じて、SORACOM Fluxを使ったAI-OCRには、当初の想定と異なる2つの重要なポイントがあることがわかりました。

  1. 構成のギャップ: 画像を扱う際は、Flux単体ではなくHarvest Filesとの連携が必須であること。
  2. 精度のギャップ: 高い精度を引き出すには、帳票全体を丸投げするのではなく、読み取るべき箇所を「部分拡大」するといった、適切な前処理が極めて重要であること。

そして、これらのギャップは決してネガティブなものではなく、AIと上手く付き合っていくための貴重な学びでした。特に、ひと手間加えるだけで、手書きの数値も高い精度でデータ化できるという事実は、業務改善の大きな可能性を感じさせます。

SORACOMを使えば、このような試行錯誤をコーディングなしで高速に回すことができます。皆さんもぜひ、このリアルな知見を参考に、身近な業務の自動化に挑戦してみてください。

※ SORACOM, SORACOM Air, SORACOM Flux, SORACOM Harvest Files は、株式会社ソラコムまたはその関連会社の商標または登録商標です。
本文中のスクリーンショットの著作権は株式会社ソラコムに帰属します。

【次回予告】AIモデル徹底比較!一番賢いのはどれだ?

今回はGPT-4.1で検証を進めましたが、SORACOM FluxではClaudeやGeminiといった他のAIモデルも利用可能です。
次回は、「AIモデルを変えると、帳票の読み取り結果はどう変わるのか?」を比較検証します。それぞれのモデルの個性と実力を明らかにしていきますので、どうぞご期待ください。

この記事の著者: DTUHブログ編集部

著者の他の記事を見る