公認会計士による日経ニュース解説(2024年7月1日_KDDIとNICTが大規模言語モデルに関する共同研究を開始)

日経ニュース解説

日経は難しい?

「若者の活字離れ」と言われることがあります。私はもう30代なので若者の括りからは外れそうな勢いですが、漫画と共に育ってきた我々にとって、文字だけを読むのってちょっと敷居が高いですよね。

ではなぜ活字を読むのは難しいのか?それは、文字を読むことそのもの以上に、書いてある内容に対する前提知識が不足していることが原因です。極端な話ですが、いくら平易な内容であってもアラビア語で書いてある文章は読めないですよね。それはアラビア語に対する知識が不足していることが原因です。また、自分が興味のある内容であれば、スラスラ読めたりしますよね?好きな子のSNSの投稿とか、多少長くても頭にすっと入ってくるはずです。

以上より、日経を読もうと息巻いたのに、ちょっと読んだら

くま
うおー、わけわからん

となってしまうのは、「活字が苦手だから」ではありません。単純に書いてある記事の前提知識が足りていないだけです。

かく言う私も、ぶっちゃけ日経読んでて理解できないことの方が多いです。そこで、日経の記事に書かれている内容の前提知識をぶたくん、くまくんと一緒に整理し、スラスラと日経を読めるようになっていきましょー!

今日の解説記事

日本語特化AI開発へ 総務省とKDDI、使いやすさ向上

日本語特化AI開発へ 総務省とKDDI、使いやすさ向上 – 日本経済新聞 (nikkei.com)

NICTってなーに?

NICTとは、記事中にもあります通り総務省傘下の公的機関です。”National Institute of Information and Communications Technology”の略であり、日本語では国立研究開発法人情報通信研究機構とされています。

くま
ちーん

ぶた
大変や、くまくんが●んでしもた!もうちょっとわかりやすく説明せな!

NICTの採用ページには、下記の記載があります。

NICTは、情報通信分野を専門とする我が国唯一の公的研究機関として、情報通信技術の研究開発を基礎から応用まで統合的な視点で推進し、同時に、大学、産業界、自治体、国内外の研究機関などと連携し、研究開発成果を広く社会へ還元し、イノベーションを創出することを目指しています。

INFORMATION|NICTについて|情報通信研究機構(NICT)

換言すると、世に数多ある情報通信分野の情報を、公的機関としてとりまとめて社会に還元することでよりよい日本を目指しているようです。それでは今回の記事で取り上げられているAIの大規模言語モデルに関する研究がどのように社会に還元されるのでしょうか。まずは大規模言語モデルとは何ぞや?というところから考えていきましょう。

大規模言語モデル(LLM)

生成AIはどのように文章を生成するか

大規模言語モデル(LLM:Large Language Models)とは、

非常に巨大な学習データ(テキスト)と深層学習を用いて構築された巨大なニューラルネットワークによる言語モデル。言語モデルとは、基本的には単語の並びが与えられるとそれらの単語の並びが出現する確率を計算するものであるが、GPT等の大規模言語モデルは、与えられたテキストに対し後続する単語を確率的に予測し、確率が最大となる単語を出力することを繰り返し、それらの単語を繋いでいくことでテキストを生成することができる。

NICTとKDDIが大規模言語モデルに関する共同研究を開始|2024年|NICT-情報通信研究機構

私も知りませんでしたが、生成AIの文章は上記のように単語ごとの繋がる確率を基に生成されているのですね。ただ、皆さんも疑問に思いますよね、果たして単語と単語との繋がる確率などという機械的な方法で正しい文章が出来るものだろうかと。

ぶた
ここで簡単なゲームをしてみましょう。その名も予測変換ゲームです

くま
なんだそのクソつまんなそーなゲーム略してクソゲーは…

ぶた
やり方はとっても簡単!スマホで「あ」と入力し、その際に表示された予測変換を押してください。その後、更に表示された予測変換を次々に押していってください。

くま
さっそくやってみたくま!【あるって理解でおの、ありがとうございますをありがとうございます(…以下ループ)】

是非皆さんもにもやってみてほしいのですが、上記のやり方で正しい文章が出来ることって少ないのではないでしょうか。予測変換とLLMは異なるものですが、なんとなく正しい文章が出来ないのではというイメージは付いたと思います。

このように、LLMには必ずしも事実に基づく文章を生成できないという問題があり、この問題のことを「ハルシネーション」といいます。

ハルシネーション

LLMが事実に基づかないテキストを生成する現象を指す表現。LLMが幻覚(=ハルシネーション)を見ているかのように、事実と異なる内容やもっともらしい嘘を生成するため、このように呼ばれる。事実を期待して出力を求めた際に、もっともらしく事実と異なる内容を出力するため、問題視されている。

NICTとKDDIが大規模言語モデルに関する共同研究を開始|2024年|NICT-情報通信研究機構

共同研究の具体的な内容

ここまでの基礎知識を踏まえて、今回の共同研究の中核となるのは、下記の内容となっています。

この共同研究では、NICTが長年蓄積してきた膨大なWebデータやそこから作成したLLMの事前学習用データ等をKDDIと共有し、共同研究を進めます。これらのデータ等と、KDDIのハルシネーション抑制技術、マルチモーダルAI技術を活用し、高性能なLLMを実現することを目指します。

NICTとKDDIが大規模言語モデルに関する共同研究を開始|2024年|NICT-情報通信研究機構

AIにそこまで詳しくない方がいきなりこれを読んでも意味が分からないと思いますが、この解説記事をここまで読んできた皆さんであれば、なんとなくその意味とイメージが付くのではないでしょうか。

しかしここで2つの疑問が浮かびます。

  • KDDIってスマホの通信事業者だよな。なぜAIの共同研究でKDDIなのか?
  • 生成AIってchatGPTとかだよな。会社とか個人でも使ったりしてて日本でもかなり普及してるけど、なんでわざわざ日本で研究する必要があるのか?

以降でこの疑問について考えていきます。

なぜKDDIとの共同研究なのか?

それは下記2つの記事を見るとよくわかります。まずは一つ目。

東京大学発のスタートアップ企業が国内最大規模の国産の生成AIを開発し、完成したと発表しました。(中略)発表したのは、東京大学発のスタートアップ企業「イライザ」で、(中略)国産の生成AIとしては最大規模の処理能力となります。

東大発のスタートアップ企業 “国内最大規模 国産生成AI完成” | NHK | 生成AI・人工知能

東大発のスタートアップ「イライザ」が国内最大規模の生成AIを完成させたという2024年3月12日付のニュースであり、更に6日後の2024年3月18日にはKDDIから下記のプレスリリースが発表されています。

2024年4月1日を目途に、(中略)ELYZAはKDDIの連結子会社となります。

ELYZAとKDDIグループ、生成AIの社会実装に向け資本業務提携を締結 | 2024年 | KDDI株式会社

つまり、KDDIは国内最大規模の生成AIを擁する企業なのです。それであれば、公的機関であるNICTが共同研究のパートナーに選ぶのも納得ですね。

国産生成AIの必要性

日経の記事の中では、GPTなど海外大手のLLMの言語データにおける日本語比率が小さいことを理由としていますが、もう少し深堀してみます。

GPTについて

アメリカOpenAI社がリリースした、生成AIの先駆けであり、日本でも有名な生成AIが、GPTです。皆様も一度は耳にしたことがあると思います。記事の中ではGPT-3とNICTのデータ量を比較していますが、最新のGPTはGPT-4です。各LLMに含まれるパラメータで比較すると、下記の通りになります。

パラメータ数で生成AIの性能を単純比較することは出来ないと思いますが、上記数値だけを見ると、NICTのデータはGPT-3より多いですが、GPT-4は更に上をいっていると言えそうです。

生成AIのパイオニアであるOpenAI、そのOpenAIが従前のGPTから改良を加え、更に膨大なデータを取り込んでリリースしたGPT-4。またGPT以外にもアメリカのTech企業を中心に次々とLLMが開発されています。それと比べて規模で劣る日本企業が大金をはたいて国産生成AIの研究を進める背景には何があるのでしょうか?

国産生成AIの必要性

これについては様々な考え方があると思いますが、下記のブログに興味深い記述がありましたのでご紹介します。

日本企業が独自にLLMを持ちたい理由は、
 ①根本的に特定領域、業界向けにカスタマイズしたいから
 ②莫大な利用料金を、OpenAIやGoogleに支払いたくないから

 と、大きく2つの理由があります。

NTT,KDDI…和製LLMの必要性 -Chat-GPTではだめなの?【後編】|中山 高史 (note.com)

①については補足が必要と思いまして、上記のブログを読んでいただければわかるのですが、GPT等の多くのLLMは、システムの中身は秘密にしていて、そのLLMを開発した企業だけが、中身を知っており、バージョンアップしていく「クローズ系」と呼ばれるものであり、小手先でカスタマイズするだけでは、限界があるそうです。

まとめ

今回の解説のまとめは下記の通りです。

  • 公的機関NICTとKDDIがLLMの共同研究を開始するよ
  • KDDIは国内最大規模のLLMを持ってるよ
  • 国内でがっつりカスタマイズしたいからやっぱり質の高い国産生成AIが必要だよ
  • NICTは質の高い国産生成AIを完成させて日本経済に役立てることで、社会に還元することを目指してるよ

コメント

タイトルとURLをコピーしました