2023年2月11日土曜日

ChatGPT と Character.AI 〜自然言語処理とチューリングと私〜 その1

 

 2023年のIT界隈において、最大の話題になっているのは「自然言語AI」(対話型AI)こと「ChatGPT」と、それに付随しての「Character.AI」についてであろう。

ChatGPT

Character.AI

https://beta.character.ai/

 これらが何かを簡単に説明すれば
「まるで人間が書いているかのように誤解されるほど、自然な会話ができる文章AI」
ということになる。


 こうしたコンピュータ上の処理は「自然言語生成モデル」と呼ばれ、現段階でも極めて精巧に「人間らしい」ことばのチョイスができるようになっている。

 すでに、発表段階から多くの人たちが実際にその性能を試して、「驚愕に値する」との感想が出るほどで、私もいくつか試してみたが、たしかにこれまでの人工知能AIに比較して、高性能であることは疑いがない。

(基本的には英語での対話が望ましいらしい。日本語での対話も可能)


 ちなみに、もうすこし具体的にこれらのAIでどんなことが出来るのかは下の記事に詳しい。(いずれも現代ビジネスさんより)



 さて、こうした自然言語型の人工知能がある程度実現・完成されたことは、10代だった昔の私からすれば、極めて当然なこととして受け止めている。
 ちょうど、大学に入学して、情報処理学の基礎を学んだ時、「アラン・チューリングのモデルと、オートマトン理論」から入ったが、まさにそのあたりの話が30年後の今に実現しているからだ。

 少し余談として脱線するが、「情報処理学」の基礎基本として、チューリングの考え方を学ぶのが「座学」としての「情報学」であったとすれば、「実学・現実」としての当時の情報学は、(文系の学部生にとっては)

「80286を積んだNECのPC9801で、ロータス123の表計算をする」

というレベルであった。もちろん、そこから1年ごとあっという間に、Windowsが普及し、PCやCPUの能力と処理速度が一気に向上したことを申し添えておく。

 そのため、私が大学を卒業するまでの4年間で、コンピュータを取り巻く環境も、めまぐるしく変化したのだが、それはまた別のお話である。


 しかし、現実レベルの情報学は、(民生的には)8086に毛が生えたほどの性能しかなく、自然言語処理AIなど、夢のまた夢だった。しかし、チューリングの理論や、チューリングマシン/オートマトンの理論は、今でも、IT技術の核心と直結している。

 ようやく、時代がチューリングに追いついて来たとも言えよう。

==========


 さて、大学生になった18歳当時の私は、アラン・チューリングの理論に衝撃を受け、その考え方は今でも「世界を定義する」上でのベースになっている。

 アラン・チューリングは第二次世界大戦中にドイツのエニグマ暗号機の解読を手がけ、その後、現在の情報処理学の基礎を築いた人物である。

 情報学の分野では、ものすごくざっくり言えば、彼は2つのテーマで名を残している。

 そのひとつは「チューリングテスト」というものだ。これはまさしく自然言語処理AIに関わるもので、

◆ ある機械が人間のふりをして文章を吐き出す時、人はそれを機械と見破れるか

というテストのことを示す。

 これについては、chatGPTなどがこれからどんどんブラッシュアップされれば、そう遠くないうちに「チューリングテストをクリアするだろう」と言える。


 もう一つは「チューリングマシン」というものである。これは

◆ 長さ無制限のテープに、情報の読み書きができるヘッドがついており、左右に制御移動しながらデータの読み書きをする

という機械のことである。(現実問題として、これは今のコンピュータそのものだ。)

 さて、このチューリングマシンは、

「数学的に計算できる問題は、すべてチューリングマシンで計算できる」

という定義を持っている。

 このあたりから先は「情報哲学」の領域で、難解に感じられるかもしれないが、ものすごく平たく言えば

「この世界で起きている現象を数式ですべて表せるとすれば、その現象はすべてコンピュータで計算可能である」

ということを意味する。

 厳密にこの定義が正しいかどうかは、別の議論を待たねばならないのだが、さらに平たく言えば、

「この世界で起きていることは、無限のテープ(記憶媒体)に書ける。そして、そこで起きていることは、未来を含めて計算できる可能性がある」

ということを意味する(かなり大げさに考えてだが)


 これを大学の教室で学んだ時に、10代の少年は衝撃を受けたのである。

 インドの伝説に「アガスティアの葉」というものがあり、そこにはかつての賢人が世界の「過去・現在・未来」のすべてを書き残している、と言われているのだが、まるでそれと同じように、

「この世界が過去から未来まで、一本のテープ上に書き表せる」

ということは、とてつもなく魅力的に思えた。

(ちなみに、「アガスティアの葉」自体は、占いやトリックめいたものであるので、信じる必要はない)


 この話のすごさは「無限」で考えるとわかりにくいが、「有限」で考えるとすぐに誰でも理解できるものだ。

 たとえば、私は日本文学を専門としたが、俳句や川柳は17音で出来ている。

「ふるいけや かわずとびこむ みずのおと」

という松尾芭蕉の名句は誰でも知っている。

 しかし17音(17文字)の有限文字列であるということは、コンピュータよって

「あああああ あああああああ あああああ」
から

「んんんんん んんんんんんん んんんんん」

までの、この世のすべての俳句を自動生成できる、ということを意味する。

 そして、そのすべての文字列を私が「私が考えた俳句です」とすべて出版してしまえば、これより以降、誰も俳句を新たに作れなくなる、ということをになるわけだ。なぜなら、出版してしまった以上、それらすべての俳句は、(これまでに誰かが発表したものを除いて)著作権がすべて私にあるからである。

 なおかつ、他者にはそれが「私の創意によってできた俳句か、自動生成された俳句か判定することは極めてむずかしい」というポイントもある。

 こうして、過去に発表されたすべての俳句も、これから生み出されるであろう未来の俳句も、すべてチューリングマシン(コンピュータ)の手の内に置かれてしまう、ということが実際に起きうる。

 それをただ誰もやっていないだけで、今この文章を見た人間がやれば、この世のすべての俳句の著作権を牛耳ることは瞬時に可能なのだ。

 有限文字列である以上、短歌でも同じことができる。ただデータ量は増えてしまうが。

 そして、極論を言えば、ある書籍が有限文字列である以上、理論的には

「かつて出版されたすべての書物と、これから出版されるすべての書物は、チューリングマシンによって書ける」

「すなわち、人類が考えたすべての文章と、これから人類が考えるすべての文章は、チューリングマシンによって書ける」

ということが可能になる。これがチューリングの理論の真骨頂である。


========

 ChatGPTなどの自然言語処理AIがやっていることは、実は今話したことの「逆バージョン」である、と考えることができよう。

 まず、自然言語処理における文法は、口語やスラングを取り除けば、ある程度の法則性を持つ。つまり、書き言葉かつ標準語であれば、一定の範囲内に出力データを整形できるということになる。

 では、そこにどんな「内容」を載せて書き出せばいいのか?それは、既に膨大に蓄積された原簿データに載っている「ことば」から、関連性に基づいて総合的に抽出してくればよい。

(※原簿データという微妙な言い方をしたのは、「chatGPT」はインターネットに接続していないと公言されているからである。

 インターネットに接続すれば、それこそ無限のテープに相当するデータ量となるだろう。)

 つまり、「全俳句集」「全短歌集」に匹敵するような「膨大に書き出された側の文書集」が原簿(もしくはネット空間)にある以上、そこから引っ張ってくればいいのである。

 それはすなわち「これまでに書き出されたすべての(ネット上の)文章」というやつだ。チューリングマシンが扱う「前半部分」から、「後半部分」の未来について書き出すことが、「AIが吐き出す回答」ということになるわけだ。

 これらはすべて自動的になされるから、自然言語処理AIは、まさに「擬似的にほぼ無限のテープを持つ(インターネットと繋がった)チューリングマシン」と定義できるだろう。


 アラン・チューリングの死から70年で、「(ほぼ)無限テープのチューリングマシン」の本物が登場したことになるわけだが、ここから先の進化はさらに早くなる。

 チューリングマシンは、人類がその内容を認めたくなくとも、これまでの世界の歴史から、「未来」を書き出せる。

 「全俳句集」では”人類の思いは介在しないが、答えはすべて書かれている”のと同様、これからのチューリングマシンが書き出す未来には、人類の思いは考慮されないだろう。

 そこに出てくるのは、人類がやってきた「過去の行い」の蓄積から算出された無慈悲な結論かもしれない。


(つづく)

 

0 件のコメント:

コメントを投稿