key

WORLDis DescribedInMathematics

この文章を書いたのは?

CENTAI Institute,
Research Scientist

黒木祐子

逐次的学習の数理

 私たちはいつも、選択をしています。次に何を食べるか、どこを旅行しようか、どの服を買うか。どんな選択をしても、後で「これでよかったのかな?」と思うことはありますよね。逐次的学習は、そんな選択をより良くするための方法です。逐次的に新しい情報を学びながら、次に何をするかを決めていきます。
 例えば、Web 広告があなたの好みに合わせておすすめの音楽を提案してきたり、オンラインで買い物をしたときの履歴をもとに新しい商品をすすめてきたりする仕組みがあります。この仕組みが、逐次的学習によって成り立っています。逐次的学習の大きな課題は、「不確実性の中で最適な決定をすること」です。どうやって、知らないことを探りながら、すでに知っている情報をうまく使うかをバランスよく学べば良いのか。
このトレードオフは「探索と活用のジレンマ」と呼ばれ、逐次的学習における大きなテーマなのです。

 「多腕バンディット問題」とは、「どの選択肢が一番良いか分からない状況で、いろいろ試しながら、できるだけ早く一番良い選択を見つける方法を考える問題」です。この問題は、逐次的学習の枠組みの中で最も基本的でシンプルな問題と言えます。例えば、5 つの選択肢があるとしましょう。それぞれの選択肢を試し、どれが最も報酬 (満足度) が大きいのかを知りたいとします。しかし、最初はどの選択肢がベストなのか分からないので、試行錯誤しながら「最も報酬を多く得られる選択肢」を見つけていくことになります。
 ここで、プレイヤーの目標は最適な選択肢を見つけるまでの過程で生じる「後悔」を減らすことです。例えば、選んでみた選択肢があまり良くなくて、「もっと別の選択肢を選んでいればよかった」と感じることが「後悔」です。選択した選択肢によって得られる報酬が、ベストな選択肢で得られる報酬に比べてどれだけ少ないか,その累積の「後悔」をなるべく減らすことが目標になります。この問題を数式でどう表現できるか、見てみましょう。

• $A_t$ は、時刻 $t$ において選んだ選択肢(アクション)です。

• $r_t(A_t)$ は、時刻 $t$ に選んだ選択肢 $A_t$ に対する報酬です。

• $a^*$ は、最適な選択肢で、最も多くの報酬を得られる選択肢です。

• $r(a^*)$ は、最適な選択肢 $a^*$ によって得られる報酬です。

• $\sum_{t=1}^{T} r_t(A_t)$ は 1 回目から $T$ 回目までの選んだ選択肢に対する報酬すべてを足し合わせたものです。 

上記の定義を使うと、累積の後悔は次のように定義することができます:

$$R_T := T \cdot r(a^*) – \sum_{t=1}^{T} r_t(A_t)$$

つまり $R_T$ は、$T$ 回の試行を通じて最適な選択肢による累積報酬から、実際に選んだ選択肢による累積報酬を引いた値です。この $R_T$ の値を最小化するための方法(アルゴリズム)を提案するのが、逐次的学習とバンディット問題における大事な目標です。例えば、「まだあまり試していない選択肢を楽観的に考えて試す」というアプローチが有効なことが知られています。

 私の研究では、累積後悔の大きさや、ベストな選択肢を見つけるまでに必要な時間などが、問題の複雑さによってどう変わるのかを理論的に調べています。定理を証明するためには、確率や統計、離散数学や最適化理論といった応用数学とよばれる道具をたくさん使います。
 私は現在イタリアで研究しており、バンディット問題に対する画期的なアルゴリズムを提案し、世界中で研究されるきっかけを作ったイタリア人の教授の先生に実際に会うことができました。さらに、その先生と一緒に研究を行い、論文を出版することができました。数学は得意ではなかったものの、地道に続けていくうちにどんどん楽しくなり、今では数学を通じて尊敬できる先生に出会い、国境を越えて好きなことを議論できることが本当に嬉しいです。読者のみなさんには、ぜひ自分の「好きなこと」を大切にし、それを追い続けてほしいと思っています。

 

※2025年5月掲載。情報は記事執筆時に基づき、現在では異なる場合があります。

著者略歴

CENTAI Institute,
Research Scientist
黒木祐子
東京大学大学院情報理工学系研究科コンピュータ科学専攻博士課程修了(2021 年 3 月)。同大学助教(2021 年 4 月~2023 年 1 月)。その後、イタリア、トリノに新設された人工知能研究所 CENTAI Institute にて、逐次的学習、アルゴリズム設計、グラフマイニングなどに関する研究を行っています。最近はピエモンテ地方のワインや料理に魅了されています。

SNS Share Button