2024年3月
« 2月    
 123
45678910
11121314151617
18192021222324
25262728293031

検索

カテゴリー

トピックス

分布

 前回担当したトピックで「分布が正規分布だと仮定すると」という話を書きましたが、分布について、学生時代にとても(今となっては)面白い実験をしました。
 
 それは、機械系学科の学生にとっては必須科目である「機械工学実験」でしたが、その第1回目の授業は、「パチンコ玉の径をひたすら測る」というものでした。事前にクラスに「パチンコをやる人はパチンコ玉を用意するように」というお達しがあり、各班6人くらいのところに、たしか400個づつのパチンコ玉を用意しました。そして、実験当日は、その400個のパチンコ玉を、各人がひたすらアルコールで拭いてノギス(もちろんアナログ式)で直径を測る、というものです。その説明を受けたときに、「ということは、集計は後でするとして、休憩時間を考えると、1個5~6秒で測らないと、時間中に終わらないぞ。」ということが分かり、みな、顔を引きつらせながら、パチンコ玉をアルコールで拭いて、ノギスで測って、隣の人に回す、という作業を繰り返しました。やはり要領の悪い人の前にはパチンコ玉の山ができ、「おーい、ちょっと休憩しようぜ。」といってそいつが山を消化し終わるのを待ったりして、皆で「フォードが大規模に導入した流れ作業によって、労働に人間阻害がもたらされた」というのは、こういうことなのではないか、などとぶつくさ言いながら測りました。
 
 しかし、測っていくといろいろ分かるもので、まず、明らかに異常な球がでてきます。他と比べて明らかに真円度が低い球や小さい球があり、「これは、パチンコ玉と認めてよいものか?パチンコ台に入れた場合、想定されたとおりに遊戯ができるのか?統計から除外すべきなのではないか?」という疑問がわきます。このときは、大きい方はそれほど飛び抜けて大きい物はありませんでしたが、小さい方は、飛び抜けて小さい物がときどきあり、「本当にパチンコ玉か?ボールベアリングの部品じゃないのか?」などとも思いましたが、いずれも文字の刻印があったので、パチンコ玉なのでしょう。それを統計から除外したかどうか、除外した場合はその理由なども、付記しなければなりません。
 
 また、「お、これは小さいぞ。○.○○mmだった。」などといって隣に渡すと、同じ球を測っているのに、結構、ひとによって測定値が違います。後に測定値をまとめた際も、平均値はもちろん、ヒストグラムの形も、人によって思った以上に違っていたりします。「一群の測定対象について、途中で測定者が変わると、(なんらかの修正処理を経ない限り)統計としての意味はほとんどなくなるのだな。」ということが分かります。
 
 そして、そのヒストグラムの形ですが、100個ごとにまとめても、200個ごとにまとめても、400個でまとめても、つまり、母集団を増やしていっても、分布の形は正規分布には近づきません!それどころか、対称形にも近づきませんし、ピークが一つすらなりません。ヒストグラムの階級の幅を上手に設定したらきれいな分布にならないか、とやってみても、正規分布っぽくはなりません。「そうか。よく分からないものについて『分布が正規分布だと仮定すると』という仮定を置くのは、すごく分析者に都合のいい勝手な前提なのだな。」と分かりました(同様に、分析者に都合のいい勝手な前提としては、「XとYとが線形の関係を有すると仮定する」というのがありますね)。
 
 何年か前に、ベイズ最適化手法が関連する出願を担当したときに(ベイズについては、このトピックのこちらでも言及されてます)、本を何冊か買って読んだり、SlideShareなどで学者さんが発表している内容などを見て、ベイズ最適化について勉強しました。ベイズ最適化では、中身が分からないブラックボックスの関数について、最大(または最小)の出力値を得るために、様々な入力値(群)を入力して、その出力値を得るのですが、まだ実際の出力値が得られていない入力値(群)の出力値の推定値について、(i)最もそうなる可能性が高いと思われる推定値を、すでに得られた出力値とそのときの入力値(群)との複数の組み合わせから推定し、(ii)その推定値から実際の出力値がはずれる可能性は、その入力値(群)がすでに出力値が得られている入力値(群)のうち最も近い入力値(群)から離れるほど大きくなるものと考えます。そして、その推定出力値の確率分布は、すでに出力値が得られている入力値(群)から離れるほど標準偏差が大きくなる「正規分布だと仮定する」のです(間違ってたらすいません)。
 
 それを知ったとき、「あ、それは、そうすれば簡単になるし、賢いやり方だけど、世の中にあるいろんな物は、全然そうだとは限らないけどな。」と、学生時代の実験を思い出して、思ったのでした。しかし、入力値(群)を入れてみれば出力値が1個しか出てこないもので、中身(挙動)が分からないものについて、その出力値がどのへんになりそうかの確率密度分布をとりあえずおいてみるのであれば、そのやり方でよいのだろうな、とも思いました。特に、工学の分野では、最適解を目指すのではなく、そこそこの手間でできるだけよい解を得る、というのが目標ですし。
 
 まあ、このように、学生時代の実験のおかげ(?)で、「分布が正規分布だと仮定すると」という話が出てくると(または自分で持ち出すとき)、「本当にそれでいいのかな?」と、疑いの目を向けるくせがついたのです。[ K.H ]

トピックス

投稿日:2020年12月08日