|
|
「計算機統計学」第22巻2号 目次・要旨
|
論文
|
分布値データに対する階層的シンボリッククラスタリングについて |
片山琴絵・南 弘征・水田正弘 |
相数量化II類と2段階線形判別分析法の判別性能 |
趙 雪艶・田中 豊 |
順位に基づく経時対応データの解析 |
永久保太士・後藤昌司 |
総合報告
|
大規模なゲノムデータにおける関連解析の手法とソフトウェア |
冨田 誠・藤田利治・神出 計・花田裕典・宮田敏行・河野雄平 |
|
|
学会活動記事
|
日本計算機統計学会第23回大会報告 |
|
藤野友和 |
関連学会記事
|
ISI2009に参加して |
|
Dou Xiaoling |
|
|
|
分布値データに対する階層的シンボリッククラスタリングについて
片山琴絵・南 弘征・水田正弘
シンボリックデータ解析(SDA)は, 大規模で複雑化した現代社会におけるデータを解析する
ための新たなアプローチであり, 1980年代後半にDidayによって提案された. 従来のデータ解析は各個体を対象とし, 1つ以上の数値またはカテゴリ値で記述されている場合を想定している. これに対しSDA では各個体の集まりが解析対象であり, 区間, 分布などをデータ記述方法として想定する. これまでにSDA の枠組みで提案されたクラスタリング手法の大部分は, 区間で記述されたデータを対象としており, 他のデータに対する手法の研究はほとんどない. 本論文では対象データが分布で表わされている場合のシンボリッククラスタリング手法を提案し, 数値実験によりその有効性を検証する. |
|
相数量化II類と2段階線形判別分析法の判別性能
趙 雪艶・田中 豊
本論文では, 1) 数量化II類において馬蹄効果は存在するか. もし存在するならばどのような形に現れるか. 2) 馬蹄効果の影響を受けずに判別分析を行うにはどうすればよいか, という2つの問題について検討した. 説明変数の相関が高い場合と低い場合を想定して, 説明変数が1次元構造をもつ人工データを生成して数値的検討を行い, 馬蹄効果が存在するという結果が得られたため, その影響を受けずに分析する方法として, 説明変数のカテゴリーを適切なタイプの対応分析(CA)(大隅他, 1994) を用いて数量化した後, 線形判別分析(LDA) を行う2段階線形判別分析法を提案した. 対応分析の方法としては想定した2つの場合に適すると考えられる2種類の偏正準相関分析(偏対応分析) に基づく方法を提案したが, その他, 考えられるいくつかの方法もとりあげた. 人工データに数量化II類と2段階線形判別分析法を適用した結果, トレーニングデータの判別性能はサンプルサイズが小さければ数量化II類, 大きければ2段階線形判別分析法が優れる. 優劣の分岐点は説明変数のカテゴリー数Kに依存し, Kが大きくなるとサンプルサイズNの分岐点も大きくなった. テストデータでの判別性能はサンプルサイズによらず2段階線形判別分析法が優れる結果となり, 1次元構造をもつという情報を分析に取り入れる方が判別性能が高くなることが示された. また, 実際のデータ解析ではテストデータは存在しないが, 0.632ブートストラップ推定を応用して判別性能を評価したところ, かなり高い精度でテストデータにおける優劣が推測できることがわかった. |
|
順位に基づく経時対応データの解析
永久保太士・後藤昌司
同一の対象が時間の経過を伴って繰り返して測定される値の集合を経時対応データと呼ぶ. 経時対応データの解析では, 応答が計量値かつ正規分布に従うと仮定できる場合, 繰り返し測定分散分析がよく用いられている. しかし, そこで必要とされる正規性の仮定は常に満たされるとは限らず, 繰り返し測定分散分析のような
パラメトリック接近法の妥当性が疑われる場合がある. パラメトリック接近法における制約を緩和する方法として分布に依らない順位経験分布法をこのような場面で提示する. 事例検討から, 順位経験分布法と繰り返し測定分散分析で結果の相違がみられ, これはデータの潜在分布が異なることによるものと考えられた. そこで, 潜在分布によって群効果, 時間効果および群×時間交互作用に対する検出力が二つの手法で異なるかを検討するため, 潜在分布が正規分布に従う場合および歪んだ分布に従う場合を想定してシミュレーションを行った. その結果, 正規分布に従うデータでは, これら二つの手法の群効果, 時間効果および群×時間交互作用に対する検出力はほぼ同一であった. また, ベキ正規分布に従うデータを用いて分布の歪みを考慮に入れた結果, 群効果, 時間効果および群×時間
交互作用の検出力について, 順位経験分布法が繰り返し測定分散分析よりも高い値を示した. |
|
|
|
|
大規模なゲノムデータにおける関連解析の手法とソフトウェア
冨田 誠・藤田利治・神出 計・花田裕典・宮田敏行・河野雄平
ゲノムデータを扱う解析は, 特に2000年前後から急激に活発なものとなり, 近年はその提案されたさまざまな手法をまとめあげる解説書も増えてきている. 単なるDNAの配列の解読だけでなく, その機能的な意味を求め, 特に医療の分野で, ある疾患とDNA配列のどの範囲が関連があるかを探索するポストゲノム研究の時代へ本格的に突入している. これらの解析を行うため, 基本的にLinux上で実行するよう, C言語やスクリプト言語を用いたソフトウェアが公開されており, 遺伝統計解析を行う研究者はLinux上に解析環境を構築して実践することが常であった. しかし, この2, 3年では統計解析者にも馴染みの深いR環境で実行できる遺伝統計解析パッケージが多く提供され, 一般の統計関係者に取り組みやすくなってきた. これらの手法・ソフトウェアを紹介するとともに, 大規模なゲノムワイドなデータ解析の実例も交えて解説する. |
|
|
|
|
|
|
|
|
|
|
|
|
|