MCスプラウト 数学 夏の学校 「確率的言語モデルとステガノグラフィ」

京都大学大学院情報学研究科知能情報学コース准教授の村脇有吾先生に「確率的言語モデルとステガノグラフィ」というテーマの講座をお願いしました。

参加者は、35名であった。

ChatGPTに代表されるテキスト生成AIが世間を騒がせている。そうしたAIの核になっている確率的言語生成モデルについて講義していただいた。

テキストを生成するために単語を生成する関数fを作る。その際、条件つき確率を利用している。次に続く単語の確率を推定するためのモデル(確率的言語モデル)を作るのに、最近では(人工)ニューラルネットワークを利用している。パラメータ(数億~数千億個)を使って段階的に加工し、次の単語候補の確率を出力する。大規模テキストを使って入力に対して適切な出力が得られるようにパラメータを調整する。パラメータを増やすと性能が上がることがわかっており、大規模化競争が進んでいる。

後半は確率的言語モデルの応用としてステガノグラフィを扱った。ステガノグラフィは、自然なカバーデータに秘密のメッセージを隠しておくる。カバーデータとしては、画像データを使うことが多いが、言語のカバーデータを使うことで画像より気軽に作れ、紛れ込ませやすくなる。