IMI Project Files

NO.05

廣瀨研究室

普遍的な手法「因子分析」を
数学的に拡張することにより、
データ解析の幅が格段に広がる

複数の変数の背後に潜む因子を明らかにする因子分析

「表計算ソフトのExcelには縦方向に行、横方向に列がありますね。たとえばここに数百人分の遺伝子データを記録するとします。縦の行にはAさん、Bさん…と人を並べます。横の列にはそれぞれの人の遺伝子の情報（たとえば、遺伝子発現データ）があるとします。『さぁ、このデータから肺がんになる可能性の高い人を見つけてください』と指示されたらどうします？そんなに簡単にはわかりませんよね。そこで、遺伝子の情報をコンパクトに纏めて効率よく解析する方法があれば便利です。それが、『因子分析』という手法で、私の研究のコアとなっています」。

「因子」とは、複数の変数をまとめたものを意味する。多変数の相関関係から背後に潜む因子を見出す、「因子分析」だ。

「先ほどのExcelの例で言えば、列に入力した塩基配列が、結果を決める鍵を握っています。その中には、きっとどこかに肺がんという結果をもたらす因子が隠されているはずです。データそのまま見ても、膨大過ぎて見つけにくい」。

因子分析を効率化する「スパース推定」

「ひと昔前までは、何かを知りたい、こう活かしたいという目的を決めてデータを集めていましたが、今は逆です。日々、ほぼ自動的にデータが集まる。これを活かさない手はないけれど、膨大な、言い換えれば『冗長で散漫なデータ』を活かす方法はわからない。それをサポートする有効な方法の一つが、『L₁正則化』をはじめとした『スパース推定』です」。

「スカスカ」から、必要なものだけを抽出

「スパース（Sparse）」とは、英語で「希薄な、スカスカした状態」を意味する。スパース推定は、大量のデータがあっても、本質に影響するのはごく一部＝『全体はスカスカ』という前提でデータを解析する理論だ。

そのなかで「L₁正則化」は、変数を削減すること、前述のExcelでいえば、列を削除することに相当する。

「100人の患者さんがいたとしても、その人たちのすべての塩基配列が同じではなく、特定の部分だけが影響し、ほかは関係ない。ならばいらない列は削除すればいい。『データ間の関係性を特定』して、必要な情報だけを見極めて抽出するアプローチです」。

シミュレーションも可能

「『データ間の関係性を特定』するために、必ずしも多くのサンプルを必要とはしません」。
「サンプルサイズが小さかったり、データが欠けていたりしても、うまく関係性を見出す手法はありますし、その信頼度を『シミュレーション』によって計算することができるのです」。

この研究が、どのように実社会に活かされているのか？その具体例を見てみよう。

素材生成分析と新素材生成シミュレーション

応用分野の一つには、素材開発が挙げられる。

近年、AIによるディープラーニングが注目されている。しかし、これには大量のデータが必要だ。
「たとえばAIを活用して、『堅硬だがしなやかな特性を持った新しい素材』を作るための分析を試みると考えます。その場合には『堅い・硬い』とされる素材や、『しなやか』とされるさまざまな素材のデータを学習させ、その中から共通する因子を探し出すことが必要です。そのためには、大量の実験結果が必要になります」。

「分析」から「生成」へ、実験の価値が変わる

「もちろん、多くの実験データがあるに越したことはありませんが、人手もコストもかかります。少ないサンプルで済むならその方がいい」。
「さらには、少ない実験データの中からでも『堅硬だがしなやかな特性』を構成する成分の関係性を見いだせるなら、その関係性に似た別の成分を用いて、精度を向上することもできます。
『データを取得する』ことはあくまで手段であって、『新たなものを生み出す』ことが真の目的なのだとしたら、より省コストでデータ取得ができるような実験がふさわしいのかもしれない。実際、現在では分析機器の性能も向上しており、少ないサンプルでもそうしたデータが得られる可能性は高まっているのだという。

データが欠損する場合の因子分析の最尤（さいゆう）推定

「NTTとの共同研究で、データに大量の欠損がある場合の因子分析をしなければならないということがありました。具体的にはアンケートの分析なのですが、アンケートを行う際、すべてのアンケート項目に答えてもらうのではなく、選んだ項目のみ回答するというデータの取り方をしました（図参照）」。

数百～数千倍の処理スピードを実現

「データが大量に欠損する場合、通常使われるアルゴリズムだと計算時間がかかってしまいます。そこで、いま取れているデータの関係性に注目し、データがそろわなくても分析できるアルゴリズムを開発しました。これを使えば、従来のアルゴリズムよりも数百倍、場合によっては数千倍も処理スピードが早くなることがわかりました」。

もともと教育心理学から生まれた因子分析

もともと因子分析は、教育心理学の分野で用いられ、生徒の能力向上に応用したとされる。さまざまな科目試験の結果から、なぜその結果に至ったのか？読解力や発想力、説明力などの何が結果に影響しているのかを分析する手法である。

数学的拡張を加えれば、新たな可能性も！

「因子分析自体は古くからある統計解析の基本ですから、応用分野もマーケティングや教育など幅広く、決して革新的・現代的な研究とは言えません。では、なぜ私がそれを研究しているかというと、『基本中の基本』だからこそ、数学的に拡張していけばいろんな可能性を秘めているからです」。

時間の概念を加えれば、電気需要予測も

「たとえば、因子分析に『時間』の概念を持ちこめば、電力需要予測や天気の予測にも使えるんですよ。これは『状態空間モデル』と呼ばれるものですが、過去に依存して未来が決まるもの、わかりやすく言えば『昨日の電力消費量に基づいて今日の電力需要が変わる』とか、『昨日の天気によって今日の天気も変わる』といった時系列解析の一つです」。
「研究室の学生は、これを応用してバスや食堂が今どのくらい混んでいるかを予測したりしています。また、因子分析は、いま注目されるディープラーニングの基本的なモデルにもなっています」。

普遍的でシンプルなものは、決まって美しい

「何にでも使えるものは、総じて普遍的なもので、普遍的なものはいつもシンプルです。そしてシンプルなものは、決まって美しい。正直に言えば…。私が因子分析を研究している本当の理由は、数学的に見た時に感じるその『美しさ』に魅せられているから、なのかもしれませんね」。

マス・フォア・インダストリ研究所
産業数理統計研究部門

准教授

廣瀨慧

Kei Hirose

＜学位＞

博士(機能数理学)(九州大学)

＜専門分野＞

スパース推定、L₁正則化、多変量解析

＜略歴＞

2003年4月 - 2007年3月: 九州大学理学部数学科

2007年4月 - 2008年3月: 九州大学大学院数理学府数理学専攻修士課程修了(早期修了)

2008年4月 - 2011年3月: 九州大学大学院数理学府数理学専攻博士後期課程修了

2009年4月 - 2011年3月: 日本学術振興会特別研究員 DC2

2011年4月 - 2016年3月: 大阪大学大学院基礎工学研究科数理教室助教

2017年8月 - 2022年3月: 理化学研究所革新知能統合研究センター(AIP) 客員研究員

2016年4月 - 2022年9月: 九州大学マス・フォア・インダストリ研究所准教授

2022年10月 - 現在: 九州大学マス・フォア・インダストリ研究所教授

＜受賞＞

2010年度: 統計関連学会連合大会コンペティション講演　最優秀報告賞

2015年度: 計算機統計学会　論文賞

※掲載情報は、2022年10月1日時点のものです。

普遍的な手法「因子分析」を 数学的に拡張することにより、 データ解析の幅が格段に広がる