第8巻第1号 目次


論文
sXr 分割表の独立性検定における検出力近似について 種市信裕・関谷祐里
統計データ解析の並列処理 下平文彦・小林 覚・白川友紀・田村義保
わかりやすいマニュアルへの統計的な接近 高橋善文・矢野 尚・田崎武信
一般化ファジィクラスタリングモデルによる順位類似度データの解析  佐藤美佳・佐藤義治
総合報告
統計的モデルとしてのボルツマンマシン 長岡浩司・小嶋徹也
ソフトウェア記事
SASによるノンパラメトリック多重比較 浜田知久馬・岸本淳司
学会活動記事
第8回日本計算機統計学会シンポジウム報告 魚井 徹
関連学会記事
カナダ最東の大学と国際計量生物学会議 工藤昭夫
第5回日本中国統計学シンポジウム報告 一村 稔
読者の広場
新設の大学に赴任して 渡谷真吾
心の時間を大切に 佐藤美佳


分割表の独立性検定における検出力近似について
種市信裕:帯広畜産大学教養課程

関谷祐里:北海道教育大学釧路校

s × r 分割表の独立性検定において, パワーダイバージェンスに基づく検定統計量の族 R^aにおける漸近的検出力の近似は aの値に関わらず, 非心 χ^2 分布を用いて行うことができる. しかし, この近似を用いると, この族に属する統計量の検出力はすべて等しいと評価される. 多項分布の適合度検定においては, 検出力近似方法として正規近似(Broffitt & Randles, 1977)および, 統計量のTaylor展開に基づく近似(Drost et al., 1989)が知られている. 本論文では, s × r 分割表の独立性検定において統計量 R^a の検出力の正規近似および統計量のTaylor展開に基づく近似を与えた. これらの近似は統計量 R^a におけるaの値に応じて変化する. 数値計算による比較の結果, 後者の近似が平均的に優れており, 特に 0 ≦ a ≦ 1 においてよい近似となっていることが示された. 最後に検定における統計量 R^a の選択に関する考察を行った.
keyword{Power-divergence statistics, Asymptotic distributions, Multinomial tests of fit}
統計データ解析の並列処理
下平 文彦:マツダ(株) 元: 筑波大学大学院理工学研究科
小林 覚:日本電気(株) 元: 筑波大学大学院工学研究科
白川 友紀:筑波大学 構造工学系
田村 義保:文部省統計数理研究所 統計データ解析センター

本論文では, 並列計算機"QCDPAX"において統計的データ解析を並列に実行した場合の並列化の効果について考察した. 並列処理は16個の処理ユニット(PU)にデータを均等に割り付けることにより行う. 例えば, 重回帰分析における行列計算の方法は第1行をPU[0]に, 第2行をPU[1]にというように割り当てる. もし行列の次元が16を超える場合には第17行をPU[0]に, 18行をPU[1]と割り当てていくことにより, 処理ユニットの負荷均衡をはかる. 並列処理の効果を基本統計量, 重回帰分析および主成分分析について評価した結果, 基本統計量においては標本数が多くなるにつれて並列化の効果が見られるが変量の数には依存せず, 標本数が5000を超えると90%以上の並列化の効果が得られた. 重回帰分析においては標本数および変量数ともに増加するに従って並列化の効果が見られ, 32変量で標本数が10000の場合には並列化の効果が87.1%得られている. 主成分分析においては変量の増加に対してほとんど並列化の効果はなかったが標本数の増加に対しては効果が見られ, 16変量で標本数が10000の場合に66.5%の並列化効果が得られた. 結論として大量のデータに対しては並列化が有効であることが示された.
keyword{Parallel computer, QCDPAX, Efficiency of parallel processing, Scaling law}
分かりやすいマニュアルへの統計的な接近
高橋 善文:富士通(株) ミドルウェア事業本部 第三ミドルウェア 事業部ソフトウェア技術部
矢野 尚:(株)富士通大分ソフトウェアラボラトリ パッケージビジネス部
田崎 武信:塩野義製薬(株) 解析センター研究所室

著者らは先に, 回帰樹木法を適用して, 日本語マニュアルの分かりやすさに関連する形態素(例えば, 文節数, 漢字率)情報を抽出し, その結果に基づき, マニュアルの品質を定量的に改善する手法を提示した. ただし, そこでの検討で基礎にしたデータは特定の文書集合と特定の読者集団に関するものであった. 総合評価としての分かりやすさに対する, 一般の, そしてテクニカルライターの認識では, 分かりやすさの評価の観点や評価項目ごとの重みづけは, 対象とする文書の種類(分野)および対象とする読者層によって異なる. 例えば, 検索の容易さが重視される言語コンパイラの文法書では, 見出し語の頻度や索引項目の量に重きがおかれ, 初心者向けの概説書では, 専門語の割合が低いことや体裁の魅力に重きがおかれる. 従って, 先に回帰樹木法から得られた結果を, より一般の文書, より一般の読者に普遍化するためには, 分かりやすさの評価における文書分野および読者による偏りを調査することが必要である. 本論文では, この偏りの調査を目的に, 文書分野として, 新聞記事, マニュアル, 論文, 特許文, 教科書, 教養書をとりあげ, また読者層として, テクニカルライターと工学系大学院生をとりあげた. 特に, 2つの読者層において分かりやすさの評価が異なるか否か, さらにどのように異なるかを文書分野との絡みで検討した. さらに, テクニカルライター層において分かりやすさの評価が彼らの背景とどのように関係しているかを検討した. 結果として, 評価の偏りに関するいくつかの仮説を導出した.
keyword{Quality of Japanese manuals, Quantitative criteria of manuals, Clarity evaluation, Regression tree analyses, Segmentation results}
一般化ファジィクラスタリングモデルによる順位類似度データの解析
佐藤 美佳:北海道武蔵女子短期大学
佐藤 義治:北海道大学 工学部 システム情報工学専攻

クラスタリングモデルにおけるクラスターとはある種の性質を共有する分類対象の部分集合として定義される. 従来の加法的クラスタリングモデルにおいては 対象間の類似度をそれらが共通に属するクラスターに付けられた重さの和として表現している. 従って, このモデルによって類似度の構造を説明するためには, 類似度のもつ潜在次元数とクラスターの個数との関係から多数のクラスターを必要とする. そのため加法的クラスタリングモデルにファジィクラスターの概念を導入し, さらにクラスター間の類似度を考慮したモデルを構築することによってデータの潜在構造をより詳細にかつ少数のクラスターで表現する研究が行なわれている(Sato & Sato, 1994a,b). 本論文においては, 類似度の潜在構造をより一般的に表現するために一般化ファジィクラスタリングモデルを提案する.これは分類手法において最も本質的問題である個体間の類似度の定義に関して,個体がクラスターにともに属す度合を共通帰属度として定義し, これらが満たすべき条件をより一般的に示したものである.特に, データとして与えられる類似度の順序情報のみが意味をもつ場合のモデルについて考察する.
keyword{Ordinal similarity data, Structural analysis, Monotone regression}
統計的モデルとしてのボルツマンマシン
長岡浩司:電気通信大学 大学院 情報システム学研究科
小嶋徹也:北海道大学 大学院 工学研究科 システム情報工学専攻

ボルツマンマシンは, 相互結合型のニューラルネットワークとして知られるホップフィールドモデルの状態変化規則に確率や温度の概念を導入して拡張したものである. しかし, その一方では, 単なるニューラルネットワークのモデルにはとどまらず, 統計学, 統計力学, 情報幾何学をはじめとするさまざまな概念の交錯点としての側面をもつ. 本論文では, ボルツマンマシンを統計的モデルの1つとして捉え, その意義と可能性について議論する. 具体的には, ボルツマンマシンの状態変化則や学習則, 最大エントロピー性, 空間的マルコフ性等の性質を, ギブスサンプラー, 指数型分布族, マルコフ場などに関する一般理論の立場から解説する. さらに, ボルツマンマシンを応用した最近の研究例も紹介する.
keyword{Gibbs sampler, Exponential family, Markov random field}
SASによるノンパラメトリック多重比較
浜田 知久馬:東京大学医学部薬剤疫学教室
岸本 淳司:(株)SASインスティチュートジャパン

医薬分野において検証的な立場で解析を行う場合, 多群データの比較に繰り返し t検定を適用すると, 検定の多重性の問題によって第一種の過誤がかなりの大きさになるため, 適切ではないという認識が一般化している. 多群の群間比較の問題には t検定の代わりに適切な多重比較法を用いることが薦められる. 多重比較法の多くは, 正規分布に従い, かつ群間で例数が等しいことを前提として当初考案されたが, 現実の医薬データでは外れ値を含んだりカテゴリカルデータを反応変数とする場合が多く, また群間で例数が異なるのがむしろ普通であり, これらの問題に対応するため理論的な拡張がなされてきた. 本稿では, SASのリリース6.07から使用可能になった PROBMC関数を用いて, ノンパラメトリックな多重比較を実行する方法について解説し, 計算プログラムのマクロを示す.

各号の紹介へ戻る