生成AIの基礎技術(Large Language Model:大規模言語モデル)について解説! ~ニワトリ頭から閻魔帳まで、生成AIの進化と問題点をわかりやすく
こんにちは!アドダイスCEOの伊東大輔です。
Chat GPTを「チャッピー」と呼んで小学生も使うほど、生成AIは私たちの生活に急速に入り込んできました。レポートの下書きも、メールの返信も、旅行の計画も…気づけば「まずAIに聞く」が当たり前になってきています。
AI関連のニュースは毎日のように流れてきますが、その仕組みをわかりやすく説明してくれる記事はなかなかありません。そこで、今回は皆さんが使っているAIの仕組みを、AIが歩んできた進化の歴史とともに解説します。
なおAIの仕組みと言っても、ChatGPT(OpenAI社)やGemini(Google社)のような個別の生成AIサービスの説明ではなく、これらAIの基礎技術となる「LLM(大規模言語モデル)」のご説明になります。
LLM(Large Language Model:大規模言語モデル)は、生成AI裏側で言語処理を行う「AIの基礎技術」です。プログラミングや数式は一切なし。ニワトリと、ウナギ屋の秘伝のタレ、地獄の閻魔様の閻魔帳があれば説明できます。ぜひ最後までお付き合いください。
まず「モデル」とは何か
AIの性能は、データとモデルの掛け合わせで決まります。
データは「AIに学ばせる素材」、モデルは「AIの脳みそのネットワーク構造」のことです。どんなに良いデータを用意しても、モデルの構造が適切でなければ性能は出ない。逆に優れたモデルがあっても、データが偏っていたり量が足りなかったりすれば意味がない。この両輪が揃って初めてAIは機能します。
では、このモデルはどんな進化をたどってきたのでしょうか。3つの世代に分けて見ていきましょう。
第1世代:「ニワトリ頭」——スレッシュホールド
最初期のAIは、3歩歩くと忘れてしまうニワトリのようでした。
「スレッシュホールド(threshold:しきい値処理)」という単純な処理しかできず、直前の入力だけを見て出力を返す。前後の文脈も、これまでの流れも、一切考慮しません。入力が一定の値を超えたら「YES」、超えなければ「NO」…それだけです。「あれなんだっけ…?」が口癖のような、まさに忘れっぽいモデルです。
これでは複雑な判断や会話が必要な現実の問題にはとうてい使えません。「もっと前のことを覚えながら処理できないか」…その要求から、次の世代のモデルが生まれます。
について解説!アドダイスEO伊東大輔ブログ-2-1024x576.jpg)
スレッシュホールド(スレッショルド:threshold)という単純な処理しかできなかった
※ここで「AI」と言っているものは今となっては単なるプログラム処理です。しかし、当時は人によってはこうしたものもAIと呼ぶ人がいました。特に条件が複雑なものをエキスパートシステムと呼んでいました。
第2世代:「老舗ウナギ屋の秘伝のタレ」——LSTM
そこで登場したのが「LSTM(Long Short-Term Memory:長・短期記憶)」という改良されたモデルです。
イメージしてほしいのは、老舗ウナギ屋が毎日継ぎ足し続ける秘伝のタレ。今日のタレには昨日のタレが溶け込んでいて、昨日のタレにはその前日のタレが入っている。100年続く老舗なら、遠い昔の職人の仕事まで今のタレに受け継がれているわけです。
LSTMはこれと同じように、ちょっと前の処理結果を引き継ぎながら次の処理に活かす仕組みです。会話の流れや時間の順番を持つデータ(時系列データ)を扱う精度が大幅に向上しました。音声認識や自然言語処理の分野でLSTMが普及したのも、この「記憶を引き継ぐ」能力があってこそです。
について解説!アドダイスEO伊東大輔ブログ-3-1024x576.jpg)
改良されたモデル…LSTM Long Short-Term Memory(長・短期記憶)
LSTMにも限界があった——「ちゃぶ台返し」問題
LSTMで万事解決、と思いきや。現実の会話や文章では「ちゃぶ台返し」が起きます。
たとえばこんな場面を想像してください。長い打ち合わせの最後で「そういえば最初に出た案、やっぱりあれが一番良くないですか」と言われる。あるいは小説を読んでいて、最終章で冒頭の伏線が一気に回収される。
こういう展開では、「ちょっと前」だけ参照しても全く足りません。最初から全部覚えていないといけないのです。
LSTMの「継ぎ足し方式」では、遠い過去の情報はだんだん薄まっていってしまいます。これがLSTMの本質的な限界であり、次世代のモデルが求められた理由です。
について解説!アドダイスEO伊東大輔ブログ-4-1024x576.jpg)
「ちゃぶ台返し」に対応するには、最初から全部覚得ておく必要がある
第3世代:「閻魔帳」——RAGとLLMの登場
そこで登場したのが、今の生成AIの核心にある技術——「RAG(Retrieval-Augmented Generation)」と「LLM(Large Language Model:大規模言語モデル)」です。
閻魔大王をイメージしてください。「おぬしの悪行、すべて書いてあるぞ」——閻魔帳には、その人物に関するあらゆる記録が事細かに書いてある。閻魔大王はそれを参照することで、十把ひとからげの判断ではなく、その人個人の事情に基づいた判断が下せるわけです。
RAGはまさにこの「閻魔帳」の役割を果たします。個人や組織に固有のデータをあらかじめ記録しておき、AIが回答を生成するときにそれを参照することで、より的確な答えを返せるようになります。
一方で、一般的な生成AIは「十把ひとからげ」でもあります。インターネット上の膨大な一般データで学習しているため、あなたの会社の独自ルールや、あなた個人の状況や好みは知りません。
「どいつもこいつも同じような答えが返ってくる」と感じた経験がある方は多いと思いますが、それはこの構造上の理由があります。RAGはその弱点を補う技術として広がりました。
最近は、RAGも使わず、「閻魔帳」をMarkdown形式のテキストファイル(MD)にしておくという活用に変化し、より簡便かつ利用しやすい形になっています。
について解説!アドダイスEO伊東大輔ブログ-6-1024x576.jpg)
一般的な生成AIは、個別事情は斟酌しない十把ひとからげ回答になる
について解説!アドダイスEO伊東大輔ブログ-7-1024x576.jpg)
参照先(閻魔帳)に固有のデータ(RAG)を書くことで、十把ひとからげ対応という弱点を補うことができる。RAGは対象の固有(personalな)データである
LLMの最大の問題点——「脳」が巨大化しすぎる
RAGやMDとLLMの組合せは強力な技術ですが、大きな問題を抱えています。
モデルが大きくなりすぎるのです。
「だいぶ前のことまで全部参照できる」を実現しようとすると、保持・処理するデータ量が爆発的に増えます。その結果として起きるのが次の3つです。
- データ量が多く、処理が重くなる
- 回答が返ってくるまでに時間がかかる
- 運用のサーバー代が高額になる
「ChatGPTが混雑時間帯に応答が遅い」「生成AIのAPIコストが想定の2〜3倍かかった」という体験をお持ちの方は多いはず。それはまさにこの「脳の巨大化問題」が現れている瞬間です。高機能である代償として、莫大なコンピューティングリソースを消費するという構造的な課題が、今のLLM業界全体が向き合っているテーマのひとつです。
について解説!アドダイスEO伊東大輔ブログ-8-1024x576.jpg)
モデルが大きくなりすぎるが故に、遅く、重いという課題がある
について解説!アドダイスEO伊東大輔ブログ-9-1024x576.jpg)
脳の巨大化によって、莫大なコンピューティングリソースを消費してしまう
まとめ
| 世代 | モデル | たとえ | 課題 |
|---|---|---|---|
| 第1世代 | スレッシュホールド | ニワトリ頭(すぐ忘れる) | 文脈を一切考慮できない |
| 第2世代 | LSTM | 老舗ウナギ屋の秘伝のタレ(継ぎ足し) | 遠い過去の情報が薄まる |
| 第3世代 | RAG+LLM | 閻魔帳(個人の記録を参照して判断) | モデルが巨大化しコストが増大 |
| 第4世代 | MD+LLM | 閻魔帳(同上。Markdown形式文書) | 同上 |
LLMは「過去すべてを参照できる閻魔帳方式」で非常に自然な会話・生成を実現した一方、モデルの巨大化という、コストと速度の課題を抱えています。兆円単位の投資が必要になります。
この問題をどう解決するかが、今のAI業界の最前線のテーマです。
アドダイスでは、生成AIとは異なる独自の「予兆制御AI」…SoLoMoN Technologyが、AIの基礎技術となっています。「まだ言葉にも形にもなっていない、曖昧な異変の兆し」をいち早く捉える、生成AIとは一線を画したアプローチなのです。
こうした技術の詳細や現場での活用事例は、またこのブログで書いていきます。
本件にご関心ある方は、ぜひお気軽にご連絡ください。
お問い合わせフォーム