目と耳を持つAI！マルチモーダルAIの仕組みとITパスポート試験対策

画像・動画理解: 手書きのメモを写真に撮って要約させる、動画の中の特定のシーンを説明させる。
音声・感情分析: 声のトーンから話し手の感情を読み取ったり、リアルタイムで多言語同時通訳を行ったりする。
現実世界への応用: 医療用X線写真と問診票を組み合わせて診断を支援する、自動運転でカメラ画像と地図データを統合して判断する。

シラバス上の位置付け

試験では、マルチモーダルAIがこれまでのテキストAIと比べて「何ができるようになったか」という具体的利用シーンが問われます。

マルチモーダルAIの「すごさ」を、AI自身にアピールさせましょう。

「スマートフォンのカメラで冷蔵庫の中身を映すと、中にある食材を判別し（画像認識）、それを使った今日の献立（テキスト）を提案するアプリを考えました。このときに必要なAIの能力を『マルチモーダル』という言葉を使って解説してください。」

合格へのヒント：
「モード（形式）」が「マルチ（複数）」ある、と分解して覚えましょう。人間が大根を見て、触って、匂いを嗅いで「新鮮だ」と判断するのと同じことをAIがやろうとしているのがマルチモーダルです。

AIはますます「人」に近づいています。この進化のスピードについていくためには、素早い意思決定が欠かせません。
次は、DX時代の意思決定フレームワーク、「OODA（ウーダ）ループ」をハックしましょう。