千葉大学大学院情報学研究院の川本一彦教授、計良宥志助教、大学院融合理工学府博士前期課程の住安宏介氏(研究当時)の研究チームは、画像認識AIが画像のどの箇所に注目して判断をしているのかを可視化する、新たな手法を開発しました。従来の手法では、画像ピクセル個々の重要度を考慮していましたが、本手法では画像ピクセル群全体としての重要度を測ることで、より精密な可視化が実現されています。その結果、Vision Transformerなどの代表的な画像認識モデルはほとんどの画像において、わずか4%から16%程度の画像領域のみから画像中の物体等を正確に認識することが可能であるとわかりました。この技術により、画像認識AIの判断根拠をより正確に可視化し、AI利用の信頼性を高めることが期待されます。
本研究成果は、2024年6月17日からシアトル(アメリカ)で開催される、コンピュータビジョン分野の最上位国際会議IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)注1)で発表されます。
■研究の背景:
画像認識AI技術により、画像や動画内にある物体の種類の判別、顔認識、歩行者の検出などの高度な認識が可能になっており、広く応用されています。そのような状況で、AIの認識において画像中のどの箇所が、どの程度重要かを可視化する技術(図1)は、AIの誤作動等の防止・理解の上で非常に重要です。
従来の可視化手法は、画像中の各ピクセルが認識に与える影響(各ピクセルの貢献度)を計算し、貢献度が上位のピクセルを可視化していました。しかし、貢献度の高いピクセルを集めることがピクセル群全体としての貢献度を最も高めるとは限りません。例えば、海鳥の認識において、海鳥という主情報が最も重要なのはもちろんですが、背景に映り込む海も補助的な情報を持ちます(図2)。従来法では、海鳥の体やくちばしといった主情報が可視化され、背景等の補助情報はあまり可視化されませんでした。
■研究の成果:
本研究では、画像認識AI技術の判断根拠を可視化する、新たな技術を開発しました。従来手法が画像内の個々のピクセルの貢献度を計算するのに対し、提案手法では画像ピクセルの集合としての貢献度を計算しています。より具体的には、ゲーム理論注2)で用いられるシャープレイ値注3)と相互作用値注4)という2つの量を画像に対して計算することで、個々のピクセルの貢献度に加えてピクセル間の協調による貢献度を考慮している点が技術的な要点です。ただし、シャープレイ値と相互作用値という量は、計算にあたり非常に大きな計算コストを必要とします。そこで貪欲法注5)による近似的な最適化を考案し、厳密な計算法を利用した場合と比較して、画像1枚の可視化あたり100倍程度の高速化に成功しました。従来手法と比較して、提案手法はより精密な可視化が可能です(図3)。
■今後の展望
本研究により、画像認識AI技術の判断根拠をより正確に可視化することが可能になりました。今後は、自動運転における歩行者や標識の検出の信頼性を高めるなど、安心・安全なAIを実現するための応用が期待されます。
■用語解説
注1)IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR): AI分野では研究トレンドの変化が迅速であるため、同分野では論文誌における発表を待たず、プレプリントサーバ(例:arXiv)による速やかな成果の公開、続いてCVPRのようなトップ国際会議への投稿・発表という流れが主流。中でもCVPRはコンピュータービジョン分野における世界最高峰の国際会議である。Google Scholarが提供するh5-indexによる2023年のランキングでは、全学術分野で4位(1位 Nature、2位 The New England Journal of Medicine、3位 Science、4位 CVPR)に位置し、その学術的影響力は非常に大きい。
注2)ゲーム理論: 複数の主体(プレイヤー)が協力的・非協力的に意思決定を行う状況(ゲーム)において、プレイヤーの行動やゲームの展開・帰結を数理的に分析するための理論およびその体系。
注3)シャープレイ値:ゲーム理論で提案された、プレイヤーの貢献度の指標の一つ。複数人が協力して得た報酬から、各個人に対しその貢献度に応じて公平に報酬を分配する目的で用いる。あるプレイヤーの貢献度は、ゲームにおいてそのプレイヤーがいた場合といなかった場合の報酬の差から計算される。
注4)相互作用値:ゲーム理論で提案された、2プレイヤーの共同貢献度の指標の一つ。ある2プレイヤーの共同貢献度は、ゲームにおいてその2プレイヤーが同時に存在した場合と、片方しか存在しない場合との差から計算される。
注5) 貪欲法:最適化手法の一つ。ある問題に対して報酬を最大化するにあたり、場当たり的に最適な選択を進めていく手法。多くの場合、(最適とは限らないが)比較的良い結果を効率的に得ることができる。
■研究プロジェクトについて
本研究は下記の事業の支援を受けて実施されました。
・科学研究費助成事業 基盤研究(B)「深層学習における敵対的デザインの開拓」(JP22H03658)
・科学研究費助成事業 若手研究「深層ゼロ関数学習の計算と理論」(JP22K17962)
■論文情報
タイトル:Identifying Important Group of Pixels using Interactions
著者:Kosuke Sumiyasu, Kazuhiko Kawamoto, Hiroshi Kera
雑誌名:Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2024
DOI:https://arxiv.org/abs/2401.03785