GDAにおける組合せ論推定(暫定訳)
概要

Combinatorial Inference in Geometric Data Analysis 幾何学的データ解析GDAにおける組合せ推定
本書の主目的は、幾何データ解析(GDA)および、より一般的には探索的データ解析(EDA)における統計的推論の問題に取り組むことである。こららには通常、仮説検定とは関係なく、観測値の分布に関する正規分布や無作為抽出といった古典的な仮定が成立しない領域である。
統計的推論に関する真の問題は、それがGDAで使えるかどうかではない——例えば主成分分析(PCA)に示されるように、確かに使えるのである——むしろ、いつ、どのように実りある形で用いるかである。我々の主張は、今日広く普及している「適合と検定」手法の機械的な適用が特に有益ではないという点にある。統計的推論は、記述的データ分析の自然な拡張である帰納的データ分析(IDA)として実施されるべきだと考える(Rouanet et al., 1990, 1998)。実際、フィッシャー流の思考に連なる推論の伝統は、統計教育では(テューキーの奮闘にもかかわらず)軽視されがちではあるものの、実験室の実践においては今なお非常に活発である。この研究者の伝統において、有意性検定は効果の存在という記述的結論を拡張するための自然な手段である。我々が提案するのは、まずこの推論の伝統を研究に徹底させるべきだという点だ。
しかしGDAを用いた研究をざっと見渡すと、統計的推論は定型的なx2乗検定を超えてほとんど用いられていない。にもかかわらず多くの研究では、GDA手法で得られた記述的結論を実証したいと考えている。例えば、ある群の平均点が雲の中心から大きく離れていることが判明した場合、研究者からは(非公式に表現すれば)次のような自然な疑問が生じる:「観測された偏差は真のものか、それとも偶然によるものか?」。この疑問に対処するには、大胆な仮定を伴う通常の標本抽出モデルは全く不適切である。分布自由で母集団に関する仮定に縛られない並べ替え検定に基づく組み合せ的手法こそが、帰納的データ分析(IDA)と最も調和する。
この観点から、我々はGDAにおける組み合わせ的推論手法の開発に着手した(Le Roux 1998年の研究論文、およびLe RouxとRouanet (2004)の著書第8章を参照)。しかし当時、並べ替え検定の実践は計算上の障壁(正確な並べ替え検定を計算するための速度と記憶容量の両方がコンピュータに不足していた)によって妨げられていた。
1)実際には、IDAはフィッシャーからテューキーに至るまで、ネイマン・ピアソン学派とは強く対立しながら、統計的推論の(支配的ではないにせよ)長年にわたる一部であった。
そのため、我々は近似法を用いた。現在では、可能な限り網羅法を用いるか、それが不可能な場合にはモンテカルロ法を用いた厳密な検定が実施可能であるため、近似解は結果のオーダー・オブ・マグニチュードを得るためだけに役立つ。したがって、GDAに適用される並べ替え検定の詳細な研究を行うべきであることは明らかであった。これがソレーヌ・ビエネーズ(2013)の博士論文の主題であった。
本書では、彼女の博士論文で提示された考え方を概説し発展させる。これらの手法はGDA法で生成されたクラスターだけでなく、より一般にあらゆるユークリッド空間上のクラスターに適用可能である点を強調すべきである。その結果、純粋幾何学の観点から、検定統計量の選択を導く一般特性を証明し、適合領域の定義に至らせ、さらに計算時間の最適化を可能とする。
研究をサポートするために、統計言語Rとメニュー駆動型ソフトウェアCoheris Analytics SPAD(Rプログラムをユーザーフレンドリーに実行する内部メソッドを備える)を用いてコンピュータプログラムを開発した。
本書の構成(目次参照)
- 第1章ではGDAにおける統計的推論の問題について概説する。
- 第2章では幾何空間における点群を扱う。基本記述統計量を概説し、点群の共分散構造と主軸理論を導入した後、マハラノビス距離と主楕円体を定義する。最後に、クラス間分散とクラス内分散による点群の分割を提示する。
- 第3章では並べ替え検定の原理を紹介する。続いて、基準雲に対する点平均および雲の分散の組合せ的典型性検定を扱い、適合領域によって補完する。その後、GDA手法に適用される組合せ的手法を研究する。
- 第4章では、点群の平均点を基準点と比較する幾何学的典型性検定を扱う。続いて、2回の反復測定を伴う設計の特権的なケースを検討する。最後に、他のいくつかの手法について簡潔に概説する。
- 第5章では、同質性並べ替え検定、すなわち複数の部分点群の平均点の比較を展開する。独立群設計と反復測定設計という2つのデータ構造を検討する。
- 第6章(研究事例研究)はほぼ独立した書籍と言える。4つの大規模応用例(医学分野1例を含む)を通じて手法の実践を紹介し、政治学分野から1件、社会学分野から1件、認知科学分野から1件を収録している。いずれの場合も、当方のRスクリプトを用いた分析をSPADと連動させる詳細な手順が提供されている。
2)本研究で使用したRスクリプトとデータセットは以下から入手可能である。著者および筆頭著者のウェブサイト2で公開されている。
- 第7章では、本書を読むために必要な数学的背景、すなわち数学的基礎を簡潔にまとめている。
本書は多少の重複を承知の上で「非線形な読み方」を可能にするよう配慮した。実際、読者は序章を読んだ後、技術的な章に進む前に第6章(研究事例研究)を閲覧したいと思うかもしれない。
数学的背景は主に抽象線形代数から成る(第7章の簡潔な概説により本書は自足的である)。
統計的背景は初等的な多変量記述統計学(平均、分散、共分散、相関係数、回帰係数®)で構成される。点群(本書の中心対象)の性質は第2章で再確認されるため、この点でも本書は自足的である。ただし第6章ではGDA手法*、特に主成分分析と多重対応分析の知識が用いられる。
3 前提条件として、Freedman et al. (1991) の入門書を読むことをお勧めする。(訳注:biblioでは、第二版が参照されているが、現在は第4はんである。)
4 GDA手法の初歩的な解説はル・ルーとルアネ(2010)に、詳細な解説はル・ルーとルアネ(2004)にそれぞれ掲載されている。
著者
Brigitte Le Roux ブリジット・ルルーは、パリ・デカルト大学応用数学研究所(MAP5/CNRS)およびパリ政治学院政治研究センター(CEVIPOF/CRS)の客員研究員である。1970年にパリ大学理学部で応用数学の博士論文を完成。指導教官はジャン=ポール・ベンゼクリ。e-mail: Brigitte.LeRoux@mi.parisdescartes.fr ウェブサイトホームページ: https://helios2.mi.parisdescartes.fr/~lerb/index_en.html
訳註;Le Roux先生のサイトの本書関連のページ。https://helios2.mi.parisdescartes.fr/~lerb/livres/CIGDA/Overview.html
Solene Bienase ソレーヌ・ビエナイズはデータサイエンティスト。2013年、パリ・ドフィーヌ大学にて応用数学の博士論文を完成。指導教官はピエール・カゼとブリジット・ル・ルー。e-mail: bienaise.solene@hotmail.fr
Jean-Luc Durand ジャン=リュック・デュランは、パリ第13大学心理学部の准教授であり、LEEC(実験比較行動学研究所)の研究員である。1989年にパリ・デカルト大学で、アンリ・ルアネの指導のもと、心理学の博士論文を完成させた。e-mail: jean-luc.durand@univ-paris13.fr
翻訳・編集履歴
- 2025/11/02 Quarto Bookで翻訳をbulid開始。