2025.02.14

失敗を考慮したベイズ最適化

本記事では、材料開発において多様な失敗が発生する現状を踏まえ、失敗試行を有効活用したベイズ最適化手法を解説します。失敗は装置の制御ミスや配合ミス、環境変動、サンプル未取得などとして現れ、単なるノイズではなく、どの条件下で失敗が起こりやすいかの情報源となります。そこで、過去の実験データから失敗確率を推定する分類モデルを構築し、その予測結果を反映した獲得関数を用いて失敗リスクと目的性能最適化のトレードオフを探索する手法を紹介します。また、失敗コストが大きい場合や外れ値、打ち切りデータがある場合といった、失敗試行に関連する様々な状況を考慮したアプローチとの使い分けについても簡単にご紹介します。

プロダクト開発部機械学習リサーチャーチームを率いて、マテリアルズ・インフォマティクスのソリューション開発に取り組む。前職では素粒子物理学分野のフロンティア研究に従事。カリフォルニア大学バークレー校博士課程修了（Ph.D. in Physics）。東京大学素粒子物理国際研究センター特任助教、高エネルギー加速器研究機構研究員などを経て、MI-6にジョイン。

実験計画における失敗試行の考慮
失敗試行を組み込むシンプルなアプローチ
応用的なアプローチ
結論と今後の展望
参考資料
備考

実験計画における失敗試行の考慮

化学実験や製造プロセスを含む材料開発の過程では、実験が必ずしも成功するとは限らず、様々な「失敗」が発生します。たとえば、装置の制御ミスや配合ミス、環境の微妙な変動により妥当な結果が得られないケースや、合成条件が満たされず測定可能なサンプルが得られないような失敗も存在します。これらの失敗情報は単なるノイズや外れ値と捉えるのではなく、「どの条件下で失敗が起こりやすいか」という貴重な知見として活用でき、限られた試行回数の中で最適な条件を見出すための鍵となります。

材料開発における失敗試行の特徴

材料開発現場では、多様な要因による失敗が見られます。いくつか例を挙げます。

実験装置の不調や制御ミス

温度や圧力の不適切な制御、装置の故障などにより、目的とする反応が進まない場合

材料の配合ミス

原料の混合比率や添加順序の誤りにより、望む材料特性が得られず、実験が失敗する場合

環境変動による再現性の低下

同じ条件に見えても、手動操作のばらつきや微妙な環境変動により、実験結果が安定しない場合

サンプルが得られないケース

反応物が溶解しなかったり、逆に融解してしまったり、均一に混合しなかったりと、目的のサンプル自体が得られず測定が不可能になる場合

これらの失敗は、実験の成功／失敗という二値情報としてだけでなく、どの条件下で失敗が頻発するかという情報源として、実験計画における意思決定に大いに役立ちます。

失敗を考慮した実験計画の最適化

失敗試行を考慮した実験計画では、単に目的関数の最適化を行うだけでなく、各条件での失敗リスクを定量化するモデルを併用します。たとえば、測定可能なサンプルが得られない（＝失敗）場合と得られる場合（＝成功）、化学反応においては生成物が得られない・または収率が著しく低い（＝失敗）条件とそうではない（＝成功）条件などを明確に区別し、これまでの実験データから各条件における失敗確率を推定します。

この失敗確率情報を用いることで、次の実験条件の選択時に、成功の可能性が高い領域を重点的に探索でき、無駄な試行を削減し、全体の実験効率を向上させることが可能となります。

失敗試行を組み込むシンプルなアプローチ

ここでは、失敗試行の情報をシンプルに取り入れる方法について説明します。基本戦略は、失敗を決定論的に扱い、過去の実験結果から失敗（1）または成功（0）という二値で記録し、これをもとに失敗確率を推定する分類モデルを構築、その予測結果をベイズ最適化の獲得関数に組み込むというものです。

失敗は確定的？確率的？

実験条件における失敗は、本質的に「決定論的」とも「確率論的」とも捉えることができます。

決定論的仮定:

「設定した実験条件に対して、失敗するかどうかは確定的に定まる」と仮定すれば、各条件での失敗（1）と成功（0）の情報を明確に記録でき、シンプルな分類モデルが構築できます。

確率論的観点:

一方、実際には操作のばらつきや環境変動により、同一条件下でも結果が変動する場合があります。その場合、各条件に対して失敗する確率そのものをモデル化する必要があり、より多くのデータが必要になります。

本稿ではシンプルな議論として決定論的仮定を採用しますが、実際に適用するケースにおいては確率的なアプローチも検討すべきであることに留意してください。

失敗の明示的な分類モデル化

実験の成功と失敗を明確に区別し、各実験条件における失敗の発生傾向を定量化するためには、まず過去の実験データに基づいて各条件を「成功（0）」または「失敗（1）」という二値でラベル付けする必要があります。ここで得られる二値情報を用いて、未探索の領域を含む任意の実験条件に対する失敗確率を推定する分類モデルを構築します。

ベイズ最適化における目的変数の予測モデルとしては、一般的にガウス過程が用いられます。これと同様に、失敗の予測モデルもガウス過程を用いて分類モデルを構築することが可能です。ガウス過程分類器を用いることで、各点における失敗確率を推定することができます。その他の機械学習の分類アルゴリズムも活用可能です。

ガウス過程分類器については、うまくモデリングできると高い予測精度が期待できる一方で、ハイパーパラメータの最適化や計算コストの面で課題が生じます。そのため、ロバスト化や高速化のためにスパース近似や近似推論手法を併用することで、計算負荷を抑えつつ精度を維持する工夫が必要です。

完成した予測モデルは、データが存在しない領域における失敗確率（確定的失敗がその点で起こる確率）を出力します。この失敗予測モデルを用いて獲得関数を調整することで、失敗を考慮したベイズ最適化戦略を構築できます（図1）。

実験における失敗情報を二値ラベルでモデル化し、その予測値をガウス過程の目的性能予測モデルと合わせてベイズ最適化の獲得関数に組み込むことで、マテリアルズ・インフォマティクス（MI）における材料探索で失敗リスクの低い条件を優先的な選定を行う

図1. 失敗予測モデルを用いた獲得関数の調整

失敗を考慮した獲得関数

従来のベイズ最適化では、目的関数の予測モデルから得られる Expected Improvement (EI) などの獲得関数を用いて次の実験条件を決定します。しかし、失敗が伴う場合は、失敗リスクも同時に考慮する必要があります。失敗領域の予測モデルをどのように獲得関数に組み込むかが、ベイズ最適化の成功を左右する重要なポイントとなります。

目的変数の予測モデルから作成される獲得関数には、次のような様々な種類があります。

Expected Improvement (EI)
Upper Confidence Bound (UCB)
Probability of Improvement (PI)

ここでは例として、EIをベースに議論を進めます。

目的変数の予測モデルからは、期待改善量 $$ \text{EI}(x) $$ が算出されます。一方、失敗領域の予測モデルからは、任意の入力点における失敗確率 $$ P_{\text{fail}}(x) $$が算出されます。

これらの値を組み合わせることで、失敗を考慮した新しい獲得関数を定義できます。非常にシンプルな方法として、以下のような定義が考えられます。

$$ \alpha(x) = \text{EI}(x) \times \bigl(1 - P_{\text{fail}}(x)\bigr) $$

$$ \text{EI}(x) $$：各条件 xx における期待改善量（Expected Improvement）。目的変数の改善が期待できる度合いを示します。

$$ P_{\text{fail}}(x) $$：条件 xx において実験が失敗（fail）する確率（Probability）。

式の意味

たとえ期待改善量が高い条件であっても、失敗リスクが高ければ獲得関数の値が低下します。期待改善量が高い点のうち、失敗リスクの低い条件が優先的に選ばれます。

目的変数の予測モデルから作成されるEIは、目的変数の最適化において、探索と活用のトレードオフを考慮します。一方、失敗領域の予測モデルから作成される$$ P_{\text{fail}}(x) $$は、失敗領域を予測します。これら2つを組み合わせることで、失敗領域を避けながら探索と活用のトレードオフを行う獲得関数が実現します。

失敗領域の付近に最適解がある場合の挙動はどうでしょうか？仮に過去に失敗した点の近くであっても、EIの値が十分に大きければ、その点が候補点として選択されます。したがって、サイクルを繰り返すことで、失敗領域付近を積極的に探索する候補点も得ることが可能になります。

応用的なアプローチ

実験や製造プロセスでは、失敗情報の性質に応じて、さまざまなアプローチが有効となります。以下に、失敗情報の取り扱い方と、それに対応する方針を紹介します。

失敗による損失が大きい場合

上述のアプローチは、失敗がある程度許容でき、リスクと改善のトレードオフを考える場合に有効でした。一方で、安全性やコストなどの観点から失敗試行の影響が多大な場合は、より厳しい制約を加えるほうが適切です。簡単には、$$ P_{\text{fail}}(x) $$が閾値以下でなければ候補点として除外するといったアプローチがあります。

外れ値が発生する場合

極端な外れ値、すなわち一部の失敗試行が通常のデータ分布から大きく逸脱している場合、モデル全体が歪むリスクがあります。ガウス過程回帰は通常、観測誤差をガウス分布で仮定していますが、外れ値に対しては影響が大きいため、外れ値に対して頑健な Student‐t 分布など裾の重い分布を尤度関数として用いることで、極端な値の影響を抑制します。このように、同じ尺度で失敗を測定できる場合は、失敗ラベルを用いたモデリングをせずに、回帰モデルを頑健にするアプローチがあります。

測定値が部分情報しか得られない場合

測定機器や手法の限界により、実際の測定値が得られず、検出下限や上限など、部分的な情報しか取得できないケースがあります。打ち切り（censoring）データといいます。打ち切りデータはガウス分布に従わず、そのまま通常のガウス過程を適用するのは不適切です。

そのようなデータに適したモデリングを行うことも技術的には可能（例：打ち切りデータを用いたバッテリーの残存寿命）ですが、もっとシンプルなアプローチもあります。たとえば、他の物性値との相関関係を用いて打ち切りデータの補完があります。すべての測定値が同時に打ち切りをしない場合、このようなアプローチも可能です。完全な情報は得られませんが、情報損失を低減できます。

このように、データの性質や測定機器の特性に応じて適切な手法を選択・組み合わせることで、より精度の高いモデリングや最適化戦略を考えることができます。

結論と今後の展望

本稿では、材料開発や製造プロセスの現場における「失敗」を有効活用したベイズ最適化の全体像を紹介しました。中心的に説明したアプローチでは、ガウス過程回帰を用いた予測モデルを構築し、ベイズ最適化の獲得関数に組み込むことで、失敗を考慮した効率的な材料探索を可能にします。

失敗領域の予測モデルを逐次最適化戦略にどのように組み込むかは、重要な課題です。より良いアルゴリズムも存在するため、今後の記事で紹介します。

参考資料

Iwazaki, S.; Takeno, S.; Tanabe, T.; Irie, M. Failure-Aware Gaussian Process Optimization with Regret Bounds. In Advances in Neural Information Processing Systems; Oh, A., Naumann, T., Globerson, A., Saenko, K., Hardt, M., Levine, S., Eds.; Curran Associates, Inc., 2023; Vol. 36, pp 24388–24400. [Online] Available: https://proceedings.neurips.cc/paper_files/paper/2023/file/4ccf72339d1f650cb898c55dccbc5cda-Paper-Conference.pdf.
MI-6が2023年のNeurIPSで発表した研究です。
S. Ly, J. Xie and H. D. Nguyen, "Censored-Variational Gaussian Process for Predicting Probabilistic RUL of Li-ion Battery Using Right-censored Data," IECON 2023- 49th Annual Conference of the IEEE Industrial Electronics Society, Singapore, Singapore, 2023, pp. 1-7, doi: 10.1109/IECON51785.2023.10312509.
右側打ち切りデータを用いてバッテリーの残存寿命のガウス過程モデリングを行った研究です。