報告書を書くのが面倒なので、画像とメモを渡すだけで報告書を作るAIツール作ってみた

概要

テキストと画像を同時に理解するGPT-5-nanoで“観察・評価・課題・次のアクション”の4項目に自動構造化する報告書を作成するツールを紹介。Cloudflare Workers×Reactの軽量実装で、議事録・顧客対応・引き継ぎなどの記録作業を自動化し、思考整理をAIが担う未来を示す。業務現場で直ちに使える点を強調。

  • テキストと画像を同時理解するマルチモーダルAIで4項目構造化
  • 出力をJSON化・テンプレート化して用途別に切替
  • Cloudflare Workers+Reactの軽量サーバーレスで低コスト・即運用可能

こんにちは、Room8オーナーの鶴田です。

「AIが文章を要約してくれる」のはもう珍しくなくなりましたが、実際の業務では“要約”よりも“整理”のほうが面倒だったりします。たとえば会議のメモ、顧客対応の記録、チームの引き継ぎノート。書くこと自体より、頭の中の情報をどう構造化してまとめるか——そこに時間を奪われている人は多いはずです。

僕も同じで、気づけば一日の終わりに「報告書を書くだけで30分経ってる」なんてことがよくある。そこで考えました。“書くAI”ではなく、“まとめるAI”を作れないか?

今回紹介するのは、テキストと画像を入力するとAIが自動で4項目の構造化レポートを生成するツールです。スクリーンショットとメモを渡すだけで、AIが内容を理解し、「観察」「評価」「課題」「次のアクション」のような整理済みレポートを返してくれる。技術的には、GPT-5の画像理解機能(マルチモーダル)を使い、Cloudflare Workers上で動く軽量なウェブアプリとして実装しています。

この仕組みの面白いところは、業種を問わないこと。医療でも教育でも営業でも、“人の思考を構造化する”という部分は共通なんです。AIがレポートを代筆するのではなく、「人間が整理していたプロセス」を代わりに担う。つまり、頭の中の“メモリ整頓係”をAIが引き受けるようなものです。

この記事では、このツールの仕組み実際の応用例を紹介します。「AIが文章を生成する」から一歩先へ——AIが人の思考を整理する時代の入り口を、少し覗いてみましょう。

テキストと画像を同時に理解する仕組み

マルチモーダルAIの活用

今回使っているのは、GPT-5の軽量モデルである「GPT-5-nano」。このモデルの特長は、テキストと画像を同時に理解できる“マルチモーダル処理”が可能な点にあります。つまり、スクリーンショットを見て文中の数字や項目を読み取り、その横に書かれたメモの内容を文脈として解釈できる。従来のOCRのように「文字を認識する」だけではなく、「何がどういう意味を持つのか」まで推論してくれるわけです。

たとえば業務システムの画面をキャプチャして、「この内容を4項目で整理して」と指示すると、AIは画像中の情報を抽出し、メモと照合しながら観察・評価・課題・対応案といった構造に自動で整理してくれる。OCRや画像認識のようにピクセル単位で処理するのではなく、文脈理解を含めた“要約処理”ができる点が最大の違いです。単なる文字読み取りではなく、画像全体を“文章として読む”感覚に近い。

これによって、報告書や議事録のような「人が読み取って整理してきた作業」をAIが肩代わりできるようになります。言い換えれば、AIが“読解と編集”を同時に行うフェーズに入ったということです。

構造化出力の仕組み

このツールでは、AIに自由な文章を書かせるのではなく、最初から出力フォーマットをJSON形式で指定しています。たとえば次のように構造を定義しておく。

{
  "structure": [
    {"title": "観察"},
    {"title": "評価"},
    {"title": "課題"},
    {"title": "次のアクション"}
  ]
}

`

AIには「この構造に沿って文章を生成せよ」と指示します。これにより、出力結果は最初からデータ化されており、そのままReact側で整形して表示できます。たとえ7項目や3項目など構造を変えても、同じ仕組みで動く柔軟な設計です。

実装はシンプルで、Cloudflare WorkersをAPIとして使い、ブラウザ側はReact(Vite)で構築しています。Workersは低コストで高速に動作し、データをサーバーに保存せずに処理を完結できるため、軽量かつセキュア。リクエストを受け取ったら画像とテキストをmultipart/form-dataで受け取り、base64に変換してAIに投げるだけの構成です。通信量が少なく、動作も安定しています。

結果的に、シンプルで管理しやすい。サーバーの設定もほぼ不要で、ローカルで試作したものをそのままデプロイできる。小規模なAIツールを最速で動かすなら、Cloudflare Workers+Reactの組み合わせが最も合理的だと感じます。

この仕組みでできること

この仕組みは「画像+テキストを解析して構造化レポートを生成する」という単純な原理ですが、応用範囲は驚くほど広いです。どの業種でも“情報を整理して共有する”作業は必ず発生します。AIがそこを自動化するだけで、日々の業務が驚くほど軽くなる。

会議議事録の自動要約

会議の後に議事録をまとめるのは、地味に時間を食う仕事の代表格です。ホワイトボードの写真とメモをアップロードするだけで、AIが「要点」「決定事項」「課題」「次回アクション」を抽出。手作業で整理していた部分を自動化できます。結果は構造化されているので、SlackやNotionに貼っても即共有可能。議事録を書くというより「AIに書かせる」が自然になります。

顧客対応ログの自動整形

メールやチャットのやりとりをAIに渡すと、「顧客の要望」「現状」「分析」「対応方針」の4項目で整理されます。つまり、AIがそのままCRM入力の草稿を作ってくれるようなものです。サポート担当者や営業職にとって、文章作成ではなく“理解と判断”に時間を使えるようになります。

チーム引き継ぎや作業報告

Slack投稿や業務メモをまとめて渡せば、「背景」「現状」「課題」「次対応」といった日報的な構成に変換されます。書式やテンプレートの統一が不要になり、報告フォーマットが自動で揃う。結果として、情報の見通しが良くなりチーム全体の共有速度が上がる。

つまり、この仕組みは「文書作成を自動化するAI」ではなく、「思考の整理を自動化するAI」。人が考える時間を奪わず、むしろ考えやすくする方向に働くのがポイントです。業務記録・議事録・引き継ぎ・顧客対応──どの現場にも“構造化すべき情報”が眠っています。それを掘り起こして形にするのが、このツールの役割です。

技術的ポイントと工夫

軽量なサーバーレス構成

この仕組みの中核は、Cloudflare Workers にあります。Workersは“エッジで動く関数”のようなもので、サーバーの用意も管理も不要。APIエンドポイントを定義しておけば、世界中のエッジネットワークで最も近い場所から応答してくれます。AIのようにリクエストが短く頻繁に発生する用途には理想的な環境です。しかも低コストでスケールする。業務アプリとして使う場合でも、月数百円程度で安定稼働します。

データは保存せず、その場で処理して返すだけ。ログを残さないことでセキュリティリスクを最小化し、同時にレスポンス速度も最適化できる。APIは画像とテキストをmultipart/form-dataで受け取り、base64変換した画像をGPT-5に送信するだけという構成です。これ以上ないほどシンプルで、ミスの起きにくい設計になっています。

フロントエンドの仕組み

フロントエンドはViteベースのReactで構築。アップロードした画像のプレビュー、メモ入力欄、そして生成結果のコピー機能を備えています。Reactのステート管理によって、AIの応答を即座に反映し、ユーザー体験を滑らかに保っています。ドラッグ&ドロップで画像を放り込むと、AIがすぐに解析を始め、数秒後には構造化されたレポートが表示される。通信量も少なく、モバイル環境でも動作が軽いのが特徴です。

可変テンプレート設計

もうひとつのポイントは、出力構造をテンプレート化していることです。業務によって必要な項目数は違うため、4項目でも7項目でも設定ファイルを変えるだけで対応可能。たとえばYAML形式で定義しておけば、こんな風に切り替えられます。

template:
  - title: 要点
  - title: 課題
  - title: 改善提案
  - title: 次のステップ

このテンプレートをReactから選択できるようにすれば、「日報」「議事録」「面談記録」など、用途に応じてフォーマットを切り替えるだけで済む。コードを変えずにプロンプトと出力構造を同時に変えられるのは大きな利点です。
つまり、ひとつの仕組みで複数の業務をカバーできる汎用AI記録エンジンになっているわけです。

応用事例と発展可能性

教育・コーチング現場での活用

教育やコーチングの現場では、面談や授業の内容を記録する必要があります。従来はノートやWord文書で感覚的にまとめていましたが、AIが画像とメモをもとに「発言要旨」「観察」「分析」「次の行動目標」を自動生成できれば、記録の一貫性と再利用性が高まります。特に1on1ミーティングなどでは、毎回同じ構造で記録されるため、進捗の振り返りが容易になります。教育者やコーチは“書く”ことから解放され、“考える”ことに集中できるようになります。

エンジニアリング・レビュー支援

開発チームでは、Pull Requestやデザインレビューの内容を記録することが多いです。コメント欄やスクリーンショットをAIに渡すだけで、「問題点」「根拠」「修正案」「完了条件」といった技術レポートを生成。レビュー内容が自然と構造化されることで、チーム全体の判断基準が明確になります。誰がどの視点からコメントしたのかをAIが抽出できるため、後から検索・参照する際のナレッジベースにもなります。

将来の展開

今後の方向性として、まず考えているのはGemini API対応。GoogleのマルチモーダルAIを組み合わせれば、画像理解の精度がさらに上がるでしょう。加えて、音声入力との統合も有効です。会議の録音や打ち合わせの音声を自動で文字起こしし、そのまま構造化レポートに変換できれば、議事録作成は完全に自動化できます。さらに、業種別テンプレートを拡張すれば、教育・医療・製造・コンサルなど、それぞれの現場に最適化した記録フォーマットを選べるようになる。

AIが“記録係”として働く未来はもう遠くありません。今はまだツールの一形態に過ぎませんが、近い将来、AIがあらゆる現場で「理解し、整理し、残す」存在になるでしょう。人が伝える力を拡張する方向でAIを使う。その第一歩が、この構造化レポート生成の仕組みです。

まとめ

テキストと画像から構造化レポートを生成する仕組みは、単なる技術実験ではなく、人の思考を整理するAIツールとして実用段階に入っています。業務の中で発生する「記録」「報告」「共有」といった行為は、どんな職種にも共通するものです。その中でAIが“まとめ役”として動くことで、人は考えることに集中できるようになる。これは、AIが文章を作るのではなく、人間の理解を補助する方向への進化と言えます。

この仕組みを作ってみて感じたのは、「AIができること」は思った以上にシンプルで、それを“どう使うか”の設計がすべてを決めるということです。GPT-5やGeminiのようなマルチモーダルAIは、もはやツールではなく知的インフラ。入力(テキスト・画像・音声)を問わず、思考の構造化を担う段階にきています。

今後は、テンプレートを業種別に拡張し、音声との統合を進めながら、「AIが記録を残す文化」を当たり前にしていきたい。レポートを書くことが目的ではなく、“理解を共有する”ためのプロセスをAIが代行する未来。その始まりが、この構造化レポート生成ツールだと感じています。

よくある質問

入力には何を使うのか?

テキスト(メモ)と画像を同時に理解する。スクリーンショットとメモをドラッグ&ドロップやアップロードして送信すると、観察・評価・課題・次のアクションの構造化レポートが生成される。

出力フォーマットはどのようになる?

出力はJSON形式で返され、デフォルトは4項目(観察、評価、課題、次のアクション)。ニーズに合わせてテンプレートを変更すれば、7項目など別構成にも対応可能。

データの取り扱いは安全か?

データは処理時のみ使用され、保存されずログも残さない。エッジ環境(Cloudflare Workers)で完結するため、セキュリティと低遅延を両立。

どんな場面で役立つ?

会議議事録の自動要約、顧客対応ログの整形、チーム引き継ぎ・日報、教育・コーチングやエンジニアリングレビューなど、情報を整理して共有する業務で効率化が進む。

この記事を書いた人

コワーキングスペース 代表 鶴田 賢太

「AI系」起業アドバイザー 鶴田賢太です
春日井・名古屋で コワーキングスペース「Room8」 を運営しながら、起業家をサポートしています。

もともとは 簿記1級 から始まり、ITエンジニア、マーケティング、補助金、財務相談と、いろんな分野を経験してきました。でも、これからの時代は AI。今は 生成AI(ChatGPT・Claude・Geminiなど)を駆使して、起業を加速させる方法 を探求しています。

Webサイト制作は 100社以上、SEO対策も得意。補助金申請も 15回以上サポート してきました。けど、これからは AIをどう活用するかが、起業の成否を分ける 時代。Room8では、AI活用の相談も大歓迎です。

このブログでは、AI・IT・マーケ・補助金 など、起業に役立つ情報を発信していきます。AIを武器にしたい人、ぜひRoom8に遊びに来てください!