1  はじめに

今日、 探索的検証と確認的検証は、並行して進めることができ、またそうすべきである。 ジョン・W・テューキー

本書では、組み合わせ論的枠組みに基づく幾何データ解析(GDA)のための統計的推論手順を概説し、並べ替え検定の役割を強調する。我々が開発する手法は主にユークリッド雲、すなわち多次元空間内の点として概念化された統計的観測値の集合の研究に関連する。

1.1 組み合わせ推論について

並べ替え検定は再サンプリング法の一種に属する。この名称は、結果を得るためにデータを繰り返し再サンプリングし再検討する手法であることに由来する。分析に必要な情報はすべて観測データ内に含まれるという点で、データ依存型の手法である。データの分布に関する仮定は一切不要である。置換検定は計算負荷が高いため、実用化には高性能コンピュータの登場を待たねばならず、実際に広く用いられるようになったのはごく最近のことである。置換検定はFisher (1935)とPitman (1937)によって提唱され、その後Romano (1989)、Edgington (2007)、Pesarin and Salmaso (2010)、Good (2011)らによって発展を遂げた。

1.1.1 並べ替え検定の実施手順

並べ替え検定を実施する手順は以下の通りである。

  1. 関心のある効果の概要を説明し、次に効果がない場合(「帰無仮説」)と一致する観測値の順列のグループを定義する。例えば、観測値のグループ g1 と gz(それぞれ n1 と n2 個の観測値を含む)の均質性の問題を考えてみよう。二つのグループが均質であると言うことは、

1 Tukey (1977, p. VII). 2 統計的並べ替え検定の歴史的発展については、Berry et al. (2014) を参照のこと。

幾何データ解析における組み合わせ推論グループへの分割を無視できると仮定すれば、観測値の2グループを統合する。置換群は、統合されたグループの観測値n個をgiに、残りをgzに、あらゆる可能な方法で再割り当てすることから成る。したがって、これはnitia通りの組み合わせを含む。 n1 + n2個の観測値の再配置。

  1. 適切な検定統計量を選択し、観測データに対して計算する。一般に、選択する検定統計量は平均点に基づくものであり、参照クラスタの共分散構造に依存する。それらの性質は詳細に研究されるため、計算アルゴリズムはかなり高速になる。

  2. すべての可能な並べ替え、またはその大規模な標本について検定統計量の値を計算することで、検定統計量の順列分布を決定する。

  3. 検定統計量の観測値を順列分布上で特定し、p値を決定する。すなわち、観測値よりも極端、または同程度に極端な検定統計量の値が得られる並べ替えの割合を計算する。並べ替え検定は一般的に、厳密検定と近似検定の2種類に分類される。 厳密検定では、検定統計量の順列分布は、観測値の全可能な並べ替えについて計算される(網羅法)。あるいは、順列の数が大きすぎる場合には、全可能な並べ替えの無作為部分集合について計算される(モンテカルロ法)*。大規模データセットでは、可能な限り近似検定を実施できる。これは検定統計量の離散分布を古典分布(正規分布、χ²分布など)で置き換える手法である。近似法の結果は計算量が極めて少なく、p値のオーダーを容易に把握できる。検定結果と共に適合領域を示すことが有用な場合が多い。これを構築するには、異なる「帰無仮説」を検定する。例えば、点群の平均点と基準点の比較を考える(「帰無仮説」は平均点と基準点の偏差がゼロであるという仮説)。純粋な幾何学的観点では、空間内の任意の点を基準点として選択可能である。水準aにおける適合領域とは、水準aで検定が有意でない点の集合として定義される。

  1. この組み合わせ論的有意水準の概念は、FreedmanとLane(1983)が提示した「非確率論的解釈」と完全に一致する。

  2. なお、これは観測データから置換なしで可能な再配置を行うアルゴリズムによるシミュレーションと等価であることに留意すべきである。したがって、置換ありで観測データから再配置を行うよく知られたブートストラップ法とは、パーミュテーション法は本質的に異なる。

1.1.2 並べ替えモデリング

周知の通り、スチューデントのt検定やF検定といった従来のパラメトリック手法は、観測値の分布に関する仮定(等分散性、正規性、無作為抽出など)に依存しており、これらは実務ではほとんど満たされない。これに対し、並べ替え検定は仮定を最小限に抑え、正当化や解釈が困難な仮定を回避しようとする。特に観測値の分布に関する仮定に依存しないため、分布自由(distribution-free)と呼ばれる。並べ替え検定は分布自由かつノンパラメトリックである。いくつかの帰納的問題は順列の枠組み内で正しく効果的に解決できるが、他の問題は枠組み外では非常に困難、あるいは解決不可能である。組み合わせ的推論は、「帰無仮説」における群間の観測値の交換可能性が仮定できるあらゆる状況で使用可能である。しかし、観測値の交換可能性が満たされない、あるいは「帰無仮説」において仮定できない場合、仮定の要求が少なく、少なくとも探索的目的には有効なブートストラップ手法の利用が有用となり得る。 統計的推論における偶然性の定式化は長い歴史を持ち、有意性検定は偶然性の検定として解釈されてきた。「効果なし」という結論が観測データと整合する場合(非有意な結果)、その結果は「偶然に起因する可能性がある」と一般的に言われ、その効果をさらに解釈しようとする試みは無駄であることを暗に示唆する。逆に、有意な効果は「偶然によるものではない」事象と見なされ、その解釈を探求することが適切とされる。 無作為化と順列置換 ほとんどの実験研究では、単位が処理レベル(群または標本)に無作為に割り当てられる。こうした場合、多くの著者は並べ替え検定の代わりに無作為化検定(Pitman, 1937; Edgington, 2007)あるいは再無作為化検定(Gabriel and Hall, 1983; Lunneborg, 2000)という名称を好む。我々は後者の名称を好む。なぜならより一般的だからである。多くの状況——例えば「前後比較」デザインや、二つの「自然集団」(例:男子と女子など)を比較する場合——では、無作為化は存在しないか不可能であるが、無効仮説の下では観測値を二つの群に無差別に割り当てることが可能である。実際、並べ替え検定を適切に適用するための十分な条件は、関心のある効果が無効(帰無仮説)である場合、観測データがグループに関して交換可能であることである。

  1. 頻度論的枠組みにおいて、並べ替え検定は単位が治療群に無作為に割り当てられる状況に限定される。すなわち、いわゆる「物理的行為」としての無作為化が存在する状況である(Edgington 2007、特にpp. 17-21、Cox and Hinkley 1974、pp. 179-204参照)。

1.2 幾何データ解析について

幾何データ解析®(GDA)は、広義には、多次元ユークリッド空間における点として対象を表現するための一連の多値モデルおよび手法と定義できる。GDAの中核は、主軸とユークリッドクラスタリングを備えたユークリッドクラウドである。GDAでは、ユークリッドクラスターは対応分析(CA)によって交絡表から、多次元尺度法(MDS)によって非類似表から、主成分分析(PCA)によって個体変数表から(数値変数の場合)、多重対応分析(MCA)によって(カテゴリ変数の場合)など、構築される。GDAの3つの主要な概念は以下の通りである。

  1. 幾何学的モデリング。データはm次元の幾何空間における点の雲として表現される。

  2. 形式的アプローチ。GDAの数学的基盤は線形代数と多次元ユークリッド幾何学の構造である。

  3. 帰納的哲学。記述的分析は帰納的分析および確率的モデリングに先行する。 本書では、p幾何学におけるユークリッド雲を研究する。すなわち、特定の座標系の選択に依存しない(座標系を特定しないアプローチ)形で扱う。もちろん、計算を行うには座標系が必要となるが、必要が生じるまではそれらに頼らない。

枠組みモデルあらゆる実証研究には枠組みモデルの提示が伴い、これがデータ収集と結果解釈を導く。GDAにおいては二つの原則に従うべきである(Benzécri, 1992, pp. 382-: 参照)。 (1) 均質性:研究の主題が収集対象分野を決定するが、時に異なるレベルで収集された不均質なデータを考慮する必要があるため、データコーディングの予備段階が重要となる。(2) 網羅性:データは研究対象領域の網羅的、あるいは少なくとも代表的な目録を構成すべきである。6この名称は1996年にPatrick Suppesによって提案された(Le Roux and Rouanet, 2004の序文参照)。7例えばMurtagh (2005)を参照。

1.2.1 構造化データ解析

個人×変数テーブルのGDAは、データテーブルの構造、すなわち個人集合と変数集合の関係性を明らかにする。しかし、これらは二つの集合自体が備える可能性のある構造、すなわち我々が構造化因子と呼ぶものによって定義される構造を考慮しない。構造化因子とは、ほとんどの場合、基本集合を記述するが幾何学的空間の構築には用いられない変数である。構造化データ分析®では、データの幾何学的モデルを出発点とし、多変量分散分析(MANOVA)の手法に沿って、記述的手法(分散の分解)と帰納的手法(並べ替え検定)を「接合」する。幾何学的設定において、構造化要因が個体にもたらす効果は幾何空間内の効果ベクトルとなる。多くの場合、構造化要因に関連する関心事項は、幾何学的構築に至った研究において単に関連性があるだけでなく、中心的な意義を持つ。明らかに、構造化データ、すなわち基本集合が構造化要因を備えたデータ表は、例外ではなくむしろ一般的である(第6章で提示する事例研究を参照)。

1.3 帰納的データ解析について

データ解析の哲学において、統計的手法は「データが語る内容」を掘り起こすべきであり、無根拠な仮説や検証不可能な前提などに可能な限り依存すべきではない。このため、データ駆動型で完全に仮定から解放された組み合わせ的枠組みは、幾何学的データ解析手法と最も調和する。

本書では、GDA手法に由来するかどうかに関わらず、点群に対して並べ替え検定を開発する。平均点に対する二つの典型性検定を提示する。一つは部分点群の平均点を基準点群の平均点と比較する組み合わせ的手法であり、もう一つは部分点群の平均点を基準点と比較する順列幾何的手法である。さらに同様の手法で、組み合わせ的推論を様々な均質性検定へ拡張する。均質性検定の理論的根拠は、データ構造に関連する置換群によって再配置集合が生成される構造化データにおいて明らかである。我々は独立群設計と反復測定設計の2ケースを検討する。データ分析の哲学に従い、記述的分析は完全な分析として最初に実施されるべきである。したがって、分析は次の2段階で構成される:

  1. 構造化データ分析の詳細な説明については、Le Roux and Rouanet (1984, 2004); Le Roux (2014b) を参照のこと。
  1. 記述的分析、すなわち効果の重要性を検討し、記述的結論を述べる;

  2. 記述的分析のフォローアップとして、帰納的分析は(可能な限り)記述的結論を裏付けることを主目的とする。

記述が先で推論が後である。

GDA®では、ブートストラップ法を用い幾何学的分布に重点を置かない統計的推論研究が数多く行われてきた。主な参考文献を挙げると:Lebart (1976, 2007); Gilula and Haberman (1986); Saporta and Hatabian (1986); de Leeuw and van der Burg (1986); Daudin et al. (1988); Gifi (1990); Le Roux (1998); Le Roux and Rouanet (2004, 2010); Beh and Lombardo (2014); Greenacre (2016) など。

1.4 計算上の側面

メニュー駆動型プログラムの利便性と、いずれメニュー駆動型プログラムの能力を超える新たな応用に出くわすことになるためプログラミング言語の両方を活用することは十分にあり得る。SPADソフトウェアとSPADと連動するRスクリプトを併用することで、この二つの側面を統合できる。つまりSPADを用いることで、データ管理や統計解析だけでなく、SPADと連動するRスクリプトを通じた組み合わせ推論に対しても、ユーザーフレンドリーなアプローチを提供する。さらに、Rスクリプトはユーザーの要望に応じて修正可能である。

1.4.1 Coheris SPADソフトウェア

SPAD10ソフトウェアは、1970年代にパリ生活条件研究観測センター(Crédoc)の研究者グループによって開発が開始されました。これはフランスで開発されたデータ分析手法を実装する先駆的なソフトウェアです。2007年以降、SPADソフトウェアは、分析およびCRM(顧客関係管理)ソリューションのプロバイダーであるCoheris社内で開発されており、特に、ユーザーフレンドリーなワークフローベースのグラフィカルインターフェイスが導入され、統計手法が拡大されています。これにより、データインポート、データマイニング、データ探索、データモデリング、予測モデルといった一連の分析プロセスが可能となり、さらに強力なグラフィカルデータ可視化手法も、様々な環境(Hadoop など)で利用できます。ツール内で各処理ごとにデータをリアルタイムで変化させる様子を見られることは、非常に重要です。

  1. J.-P. ベンゼクリは、対応分析(CA)に内在する帰納的論理を一貫して主張してきた。ベンゼクリら(1973年、第2巻)には、CAにおける推論に関する章全体(pp. 210-230)が割かれている。

  2. Système Portable d’Analyse des Données.

このツールの主な特徴は以下の通り。 - データ管理手法では幅広いコーディングを提供します。 - ほとんどの統計手法(幾何データ解析、ニューラルネットワーク、時系列など)において、SPAD研究開発チームは学術専門家と提携し、最新の研究成果を活用するとともに新たなアルゴリズムの設定を支援しています。 - SPAD内部手法では外部Rスクリプトの実行が可能であり、この機能の利便性向上のため、Rコードから呼び出せるパラメータインターフェースを提供しています。Rで開発された手法はデータ管理レベルでアクセスが困難な場合が多いため、インターフェース化されたスクリプトはこうした課題を軽減することを目的としています。さらに、Rスクリプトから生成されたデータはSPADへ転送可能であり、後続の分析(グラフ作成等)に活用できます。 - 近年、当初Fortranで記述されていたプログラムはJavaへ再実装されました。これによりコードの最適化と並列化が実現され、計算時間が大幅に短縮されます。

本書の第3章、第4章、第5章で開発する手法のコンピュータプログラムは、二つの形式で提供される。一方では、データ管理とグラフィックスを最小限に抑えた基本的なRスクリプトの概要を示す。他方では、SPADおよびインターフェースされたRスクリプトを用いた解析実行のためのガイドを説明する。

1.4.2 Base Rのスクリプト

第3章(55ページ)、第4章(97ページ)、第5章(141ページ)の末尾に掲載されているRスクリプトは、各章で概説した主要手法の単なる応用例である。これらの手法の全可能性を展開するものではないが、組み合わせ手法の中核的側面を把握することを可能にする。これらは行列計算に基づいており、読者がアルゴリズムを理解し、少なくとも本書の例題に対して手法を実行できるように、簡潔な記述と完全なコメントが付されています。

1.4.3 SPADと連動したRスクリプト

SPAD内でのRスクリプトの実行は、第3章、第4章、第5章で概説した組み合わせ手法を実装する上で非常に有用であった。各手法に対して、標準的なSPADタイプの設定ウィンドウが設計されており、これによりユーザーはRスクリプトのパラメータを非常に容易に設定できる。 グローバルプロセスは以下の通りである(図1.1参照)。 - SPAD および R がコンピュータにインストールされている必要がある。 - 組み合わせ手法のデータおよび R プログラムがコンピュータに保存されている必要がある。

  1. Javaスクリプトを使用することも可能です。12 プログラムとデータは著者から入手可能です。
  • SPADではデータのインポート、必要に応じたデータ準備、検定の実装、対話型グラフの作成が可能です。コンピュータデスクトップ

図1.1 SPADソフトウェアのプレゼンテーション

各章において、手法のパラメータ設定について説明している($3.6.2、§4.6.2、および$5.7.2を参照)。第6章で提示した実事例研究の分析には、インターフェース化されたRスクリプトを備えたSPADが用いられた。