MENU

03 大規模言語モデルとマルチモーダルモデル ~生成AIの進化を支える技術、テキスト特化型か、複数情報の統合処理型か |新・IBM i入門ガイド[コード生成AI編]基本用語

大規模言語モデルとは

生成AIの能力は、その多くが大規模言語モデル(Large Language Model:LLM)と呼ばれる技術によって支えられている。LLMとはその名のとおり、巨大なテキストデータセットを用いてトレーニングされた言語モデルであり、人間が使う自然言語を極めて高い精度で理解し、生成する能力を持つ。

LLMは文章の文脈を理解し、単語間の複雑な関係性を捉えることで、まるで人間が書いたかのような自然なテキストを生成する。

ここでいう文章とは、「意味を持った文字の集まり」である点に注意してほしい。いわゆる「日本語の文章」とか「英語の文章」だけでなく、プログラムのソースコードも広い意味での文章だ。

LLMを使えば、質疑応答、文章要約、翻訳、そしてプログラミングコードの生成まで、多岐にわたるタスクをこなせる。この能力の基盤となっているのが、前にも触れたトランスフォーマー(Transformer)アーキテクチャであり、これにより文中の単語の重要度を動的に評価し、文脈に応じた最適な出力を生成できるようになった。

2026年現在、音声の文字起こしが当たり前のように行われている。さまざまな会議ツールは会話の音声を文字化することが当たり前であり、文字化さえされていれば、LLMでいかようにでも検索・加工できる。会議の議事録も参加者がまとめるのではなく、生成AIが作成するのがスタンダードになりつつある(図表1)。

図表1 大規模言語モデル

マルチモーダルモデルとは

LLMの登場はAI技術に大きな変革をもたらしたが、その進化は留まることなく、現在はマルチモーダルモデルに注目が集まっている(図表2)。

図表2 マルチモーダルモデル

初期のOpenAIのChatGPTやGoogleのPaLM(その後Geminiに名称変更)、Anthropic のClaudeといったLLMは、主にテキストデータの理解と生成においてその能力を発揮してきた。

しかし近年ではテキスト情報のみならず、画像や音声を生成・理解し、それらを統合して多様な形式でアウトプットするAIが登場している。これがマルチモーダルモデルである。

「モーダル」とはテキスト、画像、音声、動画など、情報の様式や形式を指す言葉である。マルチモーダルモデルは、これらの異なる様式を同時に処理し、統合する能力を備える。

従来のLLMがテキストデータに特化していたのに対し、マルチモーダルモデルは複数の情報様式を横断的に扱うことで、より人間に近い複合的なコミュニケーションと情報処理を可能にしている。

たとえばユーザーが画像とテキストで質問を投げかけると、モデルは両方の情報を統合的に理解し、テキストで回答を生成する。また文章の説明に基づいて画像を生成したり、動画の内容を要約したりすることもできる。

これにより、AIとの対話はより人間のコミュニケーションに近い形へと進化し、応用範囲も飛躍的に広がることが期待されている。

近年、スマートフォンで録音した音声からスライド作成、解説音声データ生成、さらには動画生成まで行うサービスが登場している。これはAIがまるで人間のように「目と耳と口」を持つかのごとく、多様な情報処理が可能になったことを示しており、マルチモーダルモデルの本質を捉えていると言えるだろう。

IBM i開発へのインパクト

これらのモデルの進化は、IBM iの開発現場にも直接的な影響を与えるだろう。

① LLMの活用

・RPGやCOBOLで書かれた既存のソースコードをLLMに解析させ、仕様書やドキュメントを自動生成する。
・自然言語で書かれた要件定義から、コードの雛形を生成させる、など。

② マルチモーダルモデルの活用

・アプリケーションの画面設計書(画像)と要件(テキスト)をインプットとして、対話型プログラムのソースコードを自動生成する
・システムの挙動を録画した動画から、テストケースを自動で作成する。

 上記は、現在可能であることを保証するわけではないが、IBM i以外のプラットフォームではすでに実現されているものもある。将来、IBM iの開発でも同様のことが実現されるのではないだろうか。

著者|
小川 誠

ティアンドトラスト株式会社
代表取締役社長 CIO  CTO

1989年、エス・イー・ラボ入社。その後、1993年にティアンドトラストに入社。システム/38 から IBM i まで、さまざまな開発プロジェクトに参加。またAS/400 、IBM i の機能拡張に伴い、他プラットフォームとの連携機能開発も手掛ける。IBM i 関連の多彩な教育コンテンツの作成や研修、セミナーなども担当。2021年6月から現職。

新・IBM i入門ガイド [コード生成編]

<基本用語>

01 生成AI&IBM i市場動向
02 生成AI
03 大規模言語モデルとマルチモーダルモデル
04 プロンプトとコンテキスト
05 AIエージェント
06ハルシネ―ションとセキュリティ
07ファインチューニングとRAG
08 APIとMCP

<基本ツール>

01 コード生成AIの思考プロセスと主要ツール
02 IBM i開発環境構築ロードマップ
03 Visual Studio Code
04 Code for IBM i
05 Git
06 Markdown

<開発ツール>

01 AIファースト開発環境
02 IBM Bob
03 対話型・CLI型AIツールの戦略的活用術
04 学びを止めないための次の一歩 リンク集

[i Magazine 2026 Spring掲載]

新着