2024.12.04

MIにおける画像解析手法の使い分けガイド

大学院にてCRESTのプロジェクトに参加し電池材料、磁性体材料の画像解析、機械学習を用いた研究を行う。現職ではデータサイエンティストとして幅広いテーマで解析を担当している。

1.はじめに
2.画像特徴量の使い分け
3. 解釈が容易な特徴量の抽出手法
4.解釈が難しい特徴量の抽出手法
5.まとめ
参考文献

1.はじめに

マテリアルズ・インフォマティクス（以下、MI）において、解析の対象となる計測データがSEMやTEMなどの画像形式で得られることは珍しくありません。そこで、画像解析が重要な武器になってきます。しかし、画像解析と一口で言っても多種多様な手法があります。これらを使いこなす上で重要になるのが画像から何を知りたいのかをはっきりさせておくことです。画像から知りたいことに応じて、どのような手法を用いたら良いのかが変わってきます。

画像解析では、画像から特徴量の抽出を行うことが一般的です。ここでいう特徴量というのは、画像に写っている材料の特徴を数値データで表したものです。分かりやすいところで言うと、粒子の粒径などが特徴量に当たります。また、粒子の形状が円に近いかを定量的に表した「円形度」という特徴量もあります。

上記の特徴量は人間が容易に解釈できますが、そうではない特徴量もあります。例えばDeep Neural Network（DNN）を用いた画像解析では画像を高次元のベクトルに変換します。この高次元のベクトルを人間が見ても材料のどのような特徴を表しているのか解釈することは容易ではありません。それでも、これらも材料の何らかの特徴を数値化しているだろうと言うことで特徴量と呼ばれます。

どのような特徴量を画像から抽出するかは、画像から何を知りたいのかに応じて変わってきます。本稿では、どの画像特徴量がどのような場合に使われるかを第2章で説明したあと、第3章で解釈が容易な特徴量の抽出手法について、第4章で解釈が難しい特徴量の抽出手法について説明します。

図1. 解釈が容易な特徴量と解釈が難しい特徴量の例

2.画像特徴量の使い分け

この章では、解釈が容易な特徴量（粒径など）と解釈が難しい特徴量（深層学習より変換された数値ベクトル）がMIにおいてどのような場合に使われるか説明します。

2.1 解釈が容易な特徴量が使われる場合

解釈が容易な特徴量が使われる場合は次の2パターンがあります。

画像から理論式を計算するための数値データが知りたい場合
画像から物性に関係している材料の特徴を知りたい場合

2.1.1 理論式を計算するための数値データが知りたい場合

この場合の例として、ストークスの式を計算したいとします。ストークスの式は液体中を小さい粒子が沈殿する速度を計算する式であり、下式で表されます。

$$ v_s = \frac{2}{9} \frac{R^2 (\rho_p - \rho_f) g}{\mu} $$

$$ v_s : \text{終端速度}, \, R : \text{粒子径}, \, \rho_p : \text{粒子の密度}, \, \rho_f : \text{流体の密度}, \, g : \text{重力加速度}, \, \mu : \text{流体の粘度} $$

この計算には粒子径Rと粒子の密度pが必要になるため、粒子の画像からこれらの特徴量を抽出する必要があります。他の例としてはコゼニー・カルマンの式があります。

$$ \frac{\Delta p}{L} = \frac{180 \mu u (1 - \epsilon)^2}{D_{ps}^2 \epsilon^3} $$

$$ \Delta p : \text{圧力損失}, \, L : \text{粒子充填層の高さの合計}, \, u : \text{空塔速度}, \, \mu : \text{流体の粘性}, \, epsilon : \text{気孔率}, \, D_{ps} : \text{比表面積径} $$

この式は固形粒子充填層を流れる層流の圧力損失を計算するために用いられる式です。この式の計算には比表面積径が必要であるため同様に特徴量の抽出が重要になります。

2.1.2 材料の物性に関係している特徴を知りたい場合

この場合の例としては「粒子の大きさと物性の関係を理解して、粒子をどの程度の大きさにすれば良いのか知りたい」「粒子の大きさ、形状、散らばり具合のうちどれが物性に深く関わっているか知りたい」などがあります。この場合には物性との関係性を知りたい特徴量を第3章で説明する手法で抽出したのち、機械学習による予測モデルの構築と重要特徴量の特定を行います。これにより、選択された特徴量と物性の関係や、どの特徴量が物性と関係が深いかを知ることが出来ます。

このような洞察を得ることで、上記のような理論式の構築に繋げることが出来るかもしれません。また、物性に影響を与える粒子サイズの範囲を明らかにし、それを基に材料設計の指針を作成することも考えられます。

図2. 機械学習を用いた重要特徴量特定の流れ

2.2 解釈が難しい特徴量が使われる場合

解釈が難しい特徴量を用いる場合、人間がそれを見ても仕方がないため、システムの内側で特徴量を処理して数値データとして出力しない場合も多いです。ここではそのようなシステムの内側で特徴量を処理して物性を予測するようなモデルも、解釈の難しい特徴量が使われている場合として紹介します。

解釈が難しい特徴量が使われる場合として次の２つが挙げられます。

画像と物性の対応が知りたい場合
画像から材料の特徴量自体を知りたい場合

2.2.1 画像と物性の対応を知りたい場合

画像と物性の対応さえ分かればより細かい特徴と物性の関係が分からなくても重要な知見が得られるパターンです。例としてここでは2つの研究事例を挙げます。

１つ目はCNN（Convolutional Neural Network）を用いた磁区パターンの研究です。この研究では磁区のパターン形成シミュレーションに用いられるGinzburg-Landau⽅程式のパラメータとシミュレーション結果の画像を学習させることで、観測画像からパラメータの予測を行っています。これにより、シミュレーションと実験の間にある溝を埋めることが期待されます。

２つ目は、破断面の解析にDNNを用いた研究です。この研究では高分子材料が力を加えられて破断した断面の画像から、破壊への抵抗力を表す破壊靱性値K1cをViT（Vision Transformer）を用いて推定しています。これにより、材料の破壊特性の機序をより詳細に解明出来ることが期待されます。

上記二例はどちらも画像と物性の対応が分かれば、具体的に画像のどの特徴が関係しているのか分からなくても材料に対する重要な知見が得られることが期待できます。このような場合にDNNによる特徴量抽出は大きな武器になります。

2.2.2 画像から材料の特徴量そのものを知りたい場合

この場合の例としては、「画像が複雑すぎて人間が解釈できる特徴量を取ることが難しい」「解釈が容易な特徴量を用いて物性の予測を行ったが上手くいかず、人間が気づいていない材料の特徴がありそう」といった状況が挙げられます。この場合は特徴量を可視化して重要な特徴が何なのか探ると言うことが行われます。詳しくは第4章で説明しますが、ViTやCNNといった画像のDNNモデルでは特徴量の抽出（そして物性の予測）に際して画像のどの部分の重要度が高いかを可視化することができます。この機能を用いれば、材料のどの特徴が重要視されているかを判別して、材料の新しい特徴を発見することに繋げることができます。

この章では解釈が容易な場合と難しい場合に分けて、それぞれの特徴量がどのような状況で使われるかを説明しました。次の章では実際に特徴量を抽出するための手法について説明します。

	解釈が容易な特徴量	解釈が難しい特徴量
使用されるパターン	画像から理論式を計算するための数値データが知りたい場合画像から物性に関係している材料の特徴を知りたい場合	画像と物性の対応が知りたい場合画像から材料の特徴量自体を知りたい場合

3. 解釈が容易な特徴量の抽出手法

3.1画像の分割

解釈が容易な特徴量抽出にあたって、最も大事な工程は対象の特定と画像分割です。画像を対象と背景に分割できなければ、対象の特徴を測ることができません。そのため、解釈が容易な特徴量の抽出は、画像を分割し、対象を特定したのち、それらの特徴を何らかの「物差し」を用いて測るという手順で特徴量の抽出を行っていきます。

図3. 解釈が容易な特徴量の抽出フロー

画像分割はこれまで多種多様な手法が提案されていますが、ここではよく使われる輝度値ヒストグラムを用いた手法、MRF（Malkov Random Field）を用いた手法、そしてDNNを用いた手法を紹介します。

3.1.1輝度値ヒストグラムを用いた手法

これは画像の明るい部分と暗い部分に分けて分割する手法です。これは背景と対象との間に強いコントラストがある場合に行われます。特に2値に分割する手法が「大津の2値化」として有名です。

輝度値を用いて分割するにあたって問題になる点が、どのようにして分割の閾値を決めるのか、という問題です。大津の2値化ではクラス内の分散の重み付け和を計算し、分散が最小になる閾値を選びます。3以上の値で分割する際にも同様の考え方で行うことが出来ます。

3.1.2 MRFを用いた手法

MRFは無向グラフによって表現される2次元の確率モデルです。この手法では画像に対して幾つかの仮定をおき、それを満たす画像の分割をモンテカルロ法などの確率的な推定手法を用いて調べます。よく使われる仮定としては

画像の隣接するピクセルはほとんどの場合で近い値である
ただし、異なる分割領域（例えば材料の領域と背景の領域）の境界線では近い値にならない

というものがあります。

この手法の長所は上記の仮定を対象に応じて変えて物理的な仮定を反映できるところにあります。例えば「画像の現象は拡散方程式にしたがっている」と言う仮定をおいて、それに従う分割を推定することができます。これにより、既存の知見や理論に基づいた解析を行うことが可能です。また、大量のデータを必要とする機械学習を行わないため、データが少ない場合でも画像解析を行うことが出来ます。

図4. MRFモデルの模式図

3.1.3 DNNを用いた手法

画像を分割する問題は、画像をインプットとしてそこから分割結果を生成する問題と看做せます。そこで、DNNを用いて画像と分割結果のペアを学習させれば、分割を自動で行ってくれる機械学習モデルができることになります。

この試みの中で最も有名なのはMeta（旧Facebook）が公開しているSegment Anything Model（SAM）です。これは1100万枚のライセンス画像、110万枚の分割マスク、そして10億以上のマスクアノテーションで学習されており、画像分割モデルの中でも高い性能を持ちます。SEM画像などの分割タスクに対しても問題なく働きます。このモデルは公開されているため、各自で目的に応じて微調整を行うことが可能です。

図5. Segment Anything Modelの概要

3.2 分割された画像の特徴量

画像を分割して対象と背景を分離したあとは、それぞれの目的に応じて対象の特徴を測っていきます。よく使われる特徴量としては以下のものがあります。

3.2.1 粒径と粒度分布

特にSEM画像を解析する際には粒子の粒径と、それがどのように分布しているのかは重要な情報です。

3.2.2 円形度

円形度は主に粒子の形状を定量的に測るための代表的な指標です。円形度は0~1の値を取り、1に近いほど粒子の形状は円に近づきます。

図6. 円形度が高い図形と低い図形の例

3.2.3 粒子分布とボロノイ図

粒子が画像の中でどのように散らばっているか、も時として重要な指標になります。この散らばり具合を定量的に評価する方法として、ボロノイ図の利用があります。ボロノイ図とは、画像上の点（この場合は粒子）のどれが一番近いかに基づいて領域分けされた図のことを指します。

図7. 偏りが高い場合と低い場合のボロノイ図の例

ボロノイ図の各領域の面積の分散は、粒子の散らばり具合の均一さと比例します。つまり、粒子の配置が均一であればボロノイ図の各領域の面積の分散は小さくなり、逆に粒子の配置が不均一であれば各領域の面積の分散は大きくなります。これによって、画像の中での粒子の散らばり具合を定量的に評価できます。

以上が材料の特徴を定量的に計測する工程になります。この工程によって特徴量を抽出できれば、あとは第2章で説明したように理論式の計算や機械学習モデルを用いた予測に用いることができます。

4.解釈が難しい特徴量の抽出手法

この章では人による解釈が難しい特徴量の抽出手法について説明します。前述したように、これらの手法は主に物性値の予測さえ出来ればよく、その解釈が重要ではない場合や、人に解釈できる特徴量では予測が上手くいかない場合などに使われます。しかし、これらの特徴量が絶対に解釈不可能というわけではなく、後述するAttention mapなどの手法を用いてどのような特徴が抽出されているか推測することは可能です。逆にそこから、今まで思いつかなかった特徴量を発見できるかもしれません。

4.1 Vision Transformer

Transfomerは現在最も広く使われているDNNモデルの一つです。元は機械翻訳のために作られたモデルでしたが、その後、画像、音声、動画など多種多様なメディアを扱えるように拡張が行われました。特に画像を扱うものはVision Transformer(ViT)と呼ばれています。Vision TrasformerはAttention機構と呼ばれる仕組みを用いて特徴量の抽出を行います。Attention機構は元々、文章を処理する際に単語同士の関係を測るために使用されていました。ViTではこれを用いて画像の部分ごとの関係を見ていきます。

図8. Vision Transformerの概要

ViTは図のように画像を幾つかのパッチに分割し、それらの関係をAttention機構で処理します。それらの情報をさらにMulti Layer Perceptron(MLP)によって処理することで特徴量化します。ViTの良いところは、Attention機構により画像の各部分同士の関係性や、どの部分が重要かがわかるところです。このAttentionの値を可視化したものをAttention mapと呼びます。このAttention mapを見ることで、画像のどの部分が特徴量を抽出する際に重要視されていたかを知ることができます。これは特徴量の解釈に重要な役割を果たすだけでなく、材料の新しい特徴の発見にも繋がります。

4.2 CNN

画像解析における重要なDNNモデルの一つとしてConvolutinal Neural Network(CNN)があります。これは畳み込みと呼ばれる処理によって画像の特徴を抽出するモデルです。

図9. 畳み込み処理の仕組み

畳み込みとは図のようにフィルターを画像の上で少しづつ動かしながら情報を集めていく計算処理です。この処理を繰り返すことによって、画像の特徴をまとめていきます。

CNNにおいてもViTと同様に畳み込み処理の適当なところを切り出すことによって画像の特徴マップを取得できます。これもまた、Attention mapと同様に画像のどのような特徴が抽出されているかを知る手がかりになります。

ViTとCNNは異なる処理で特徴量の抽出を行っているため、抽出される特徴もそれぞれ異なります。例えば、CNNは画像のエッジなどのテクスチャを取り出しているのに対して、ViTは大まかな形状を取り出していることが知られています。そのため、このようなViTとCNNの違いを把握して使いこなすことが重要になります。

5.まとめ

本稿ではMIにおける画像解析の事例と手法について説明しました。MIにおける画像解析には多様な手法があり、画像から材料の何を知りたいのかに応じて最適な手法が変わってきます。知りたいことに繋がらない手法を選ぶことや、そもそも何が知りたいのかを明らかにせずに漫然と画像解析を行うことは、誤った結論を導くことに繋がりかねません。

適切な問題設定と手法の選択が画像解析を成功させる最も重要なポイントと言えるでしょう。

参考文献

Stokes Law - an overview | ScienceDirect Topics
コゼニー・カーマンの式｜粉体工学用語辞典
Naoya Mamada et. al., Detection of Nonuniformity in Parameters for Magnetic Domain Pattern Generation by Machine Learning, J. Phys. Soc. Jpn. 93, 054706 (2024).
山中翔太ら, Vision Transformerを用いた破断面画像からの材料特性値推定, The 38th Annual Conference of the Japanese Society for Artificial Intelligence, 2024.
Naoki Wada et.al., Performance of Region-Based Markov Random Field with XY Spins, J. Phys. Soc. Jpn. 90, 044003 (2021).
Alexander Kirillov et.al., Segment Anything, 2023.
Alexey Dosovitskiy et.al.,An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, ICLR(2021).
Alex Krizhevsky et.al., ImageNet Classification with Deep Convolutional Neural Networks, NIPS (2012).
Namuk Park et.al., How Do Vision Transformers Work?, ICLR (2022).