次元削減
多様体
d次元多様体は、n次元空間の一部(d < n)で局所的にd次元超平面に似ている 例: スイスロール(d=2, n=3)
次元を下げたからといって決定境界が必ず単純になるとは限らない →次元削減の効果はあくまでもデータセット次第
PCA (主成分分析)
データに最も近接する超平面を見つけ、そこにデータを射影する。 近接する平面のほうがデータの分散を保持しやすい。 PCAは個々の主成分に対して単位ベクトルを見つける。 →向きは不定のため実行するたびに代わる可能性がある。 PCAはデータセットが原点を中心としてセンタリングされていることを前提としている。
因子寄与率
個々の主成分に沿ったデータセットの分散の分散全体に対する割合を示す。 大きいほど分散の情報を保持している。→重要な成分であることを示す
次数選択
因子寄与率の合計がある一定を超えるように次数を選ぶのが簡単。