2.4 データと確からしさ

2.4.1 数学の対象としてのデータと確からしさ

現実社会で登場する「数」は、観測(あるいは測定や調査)を通して得られるものが多い。これらは、1)複数の数が集まりとして利用あるいは認識される;2)それぞれの数に(量としての)属性情報が付随している、という特徴をもっており、一般にはひとまとめとして「データ」(data)と呼ばれている。データの中の個々の数は、「数値」(numerical value)、「観測値」(observed value)あるいは「測定値」(measurement)などと呼ばれることが多い。

定義の形式で言うと、「データとは、それから他の情報が導ける事実のことで、数あるいは文字の形をとっていて、コンピュータに入れることができるもの」である。データの主要部分が数値の集まりなので、それについてのいろいろな検討・吟味の課題は数学の問題になる。データが数学の対象になるのはそのためである。

データが50個の数値からなっているとき、日本では「データの数は50である」と言う。英語ではこの個数を“data size”という。データを扱うことが学問の主要部分である統計学では、これを考慮して、データに含まれている数値の個数を「データの大きさ」と言う。ところがこの言い方は日常用語としての日本語になじまない。データの大きさというと、たとえば173cmというようなデータ内の数値の大きさを連想するからである。そこで動物実験の現場などでは、これを「n数」(エヌすう)と呼んでいる。データの大きさを変数記号で表すときに、nという記号を使うからである。

 A高校を卒業している20歳の大学生Bにとって、「私はA高校を卒業した」ことは確かなことであり、「2年後に私は死んでいる」ことは不確かなことである。不確かなことには程度が考えられる。その程度のことを「確からしさ」(certainty)あるいは「不確かさ」(uncertainty)という。確からしさと不確かさの関係は、近さと遠さの関係と同様、同じことの表と裏の関係である。

確からしさは、「万が一にも起こりえない」とか、「明日雨が降ることの確からしさは30%である」というように、0と1の間の数値で表現されることが多い。この表現では値が大きいことが確かなことを意味している。確からしさを数値で表すと、それについてのいろいろな検討・吟味課題は数学の問題になる。確からしさが数学の対象になるのはそのためである。

未来において不確かなことを考えるときは、確からしさという言い方より、起こりやすさという言い方の方が自然である。実際、「このサイコロを転がしたら偶数が出るか」ということを、日常会話の中で「偶数が出ることは確かだろうか」と表現することはない。しかし、サイコロを振って壺の中に伏せて偶数が出ているかどうかを問題にするときには、偶数の起こりやすさという言い方ができない。過去のことだからである。こういうときは偶数が出ていることの確からしさ、という言い方が適切になる。数学的には未来のことも過去のことも同じなので、数学では過去未来を合わせて「確からしさ」という表現を使う。

 

2.4.2 データの縮約と表示

データの基本部分は、たとえば1クラスの個々人の身長というように、変数(あるいは標識)を観測した数値の集まりである。その全体像は、数値を個々に見ているだけでは把握できない。データには、それを単純化して全体像を把握する手段が必要である。

単純化の第一歩は、例えば身長を5cm区間に区分けして、各区分に入る数値の個数すなわち「度数」(frequency)を示すことである。このようにデータの全体を度数で表現したものをデータの「度数分布」(frequency distribution)という。度数をn数で割ると、度数分布の割合による表現が得られる。これをデータの「分布」あるいは「相対度数分布」という。

データの分布は、どれくらいの数値が何個あるかを把握するのには便利であるが、ある値以上の数値がどれくらいあるかを把握するのには不便である。このようなときには分布を値の小さい方から累積した「累積分布」(cumulative distribution)が便利である。

分布よりもっと単純にデータのおおよその様子を把握するには、少数の数値を用いるのがよい。その数値を得るための計算の規則・関数(function) 、あるいはその計算結果を、分布の「代表値」(characteristics)あるいは「要約統計量」(summary statistics)という。

1種類のデータに対してどのような代表値が適切かは、データの性質によって異なるが、代表値が代表値であるゆえんは全体像をできるだけ単純に把握することであるから、あまり複雑ではない「有効数字が3桁の3個の数値」くらいのものが適切である。

たとえば465,326人の体重データに対しては、「約46万5千人について体重を測ったところ、平均は62.5kg、標準偏差は4.8kgであった」ということで概要が把握できる。データをx1, x2, …, xnと書いたとき、平均m, 標準偏差sは次式で定義される量である。

また、有効数字は、0でない数字が出てからの数値の桁数であり、筆頭数字が1の場合は有効数字3桁というときでも4桁を使うのが普通である。代表値としては、標準偏差の代わりにその二乗である分散を用いてもよい。

例えば給与を企業内で調べると、データの分布が左右対称でなく、値の大きい人が少ないのが普通である。このようにデータの分布が歪んでいるときは、平均と標準偏差ではなく、中央値と四分範囲を用いるのがよい。これらは1、2 個の極端に他から離れている値、すなわち外れ値(outlier)の影響を受けにくいという特徴を持っている。

1つのデータを他のデータと比べるときには、このように少数の外れ値の影響が小さいものを代表値として用いる方がよい。外れ値は、ときに、計算ミス、転記ミス、実験の失敗、というように、考えている対象の状態と異なる情報を与えることが稀でないからである。

数値の個数が10個以下のときは、平均と範囲(=最大値-最小値)を代表値にするのがよい。外れ値がなければ「範囲÷n数の平方根」が標準偏差の良い近似値になっているし、値の分布の幅が正確に把握できるからである。

どのような分布にはどのような代表値が良いか、ということについてのある程度の素養があると、会社間の給与比較、国際間の学力比較などで、無益な意見相違を減らすことができる。

度数分布や代表値は、データを数値として単純化したものである。これにたいして図形を用いた単純化は、数値より直感的認識に役に立つ。

例えばどのような代表値を用いるのが良いか検討するときには、柱状図(ヒストグラム)が有用である。これは、数値の区分を横軸、度数を縦軸にして度数分布を図にしたものである。適切に区分を設定したヒストグラムは、データの分布の位置と歪みを見出すのに役立つ道具である。

同じ変数の観測データが複数あって、その比較をしたいが、データサイズが20という程度に小さいというときは、箱ひげ図(box-whisker plot)を並列的に描くことが有用である。

図2 箱ひげ図

これらの他に、棒グラフ、帯グラフ、円グラフ、レーダー図、折れ線グラフなどをうまく使い分ければ、関連や推移が直観的に把握できる。これらの図の作り方と見方は社会常識として必須である(cf.[3.1.6])。

図表現は基本的に2次元(あるいは3次元)の表示である。作り方について心得るべきことは、図に登場する2つあるいは3つの変数の名前、単位、物理的意味を、図中あるいはその周辺に書き込んで明示することである。図を見る場合もそれに着目することを常識とすべきである。

図表示は、直観に理解を委ねるものであるが故に、錯覚を起こさせやすいという特徴がある。例えば、ある値以下を切り落としたグラフで時間推移が表示されると、時間的変化が拡大して印象づけられるのが普通である。この種の錯覚・誤用についての心得は1つの要点である。

データは観測という操作で入手される。その最初のものを「生(ナマ)データ」( raw data) あるいは原データという。

現実に得られる生データには測定や観測の手段に応じて物理的単位がついている。例えば、ある被験物質がどれくらいの細胞毒性を持つかを試験管内(in vitro assay)で測定するときは、生存細胞に色を付ける物質を入れ、色の濃さを測る。その場合の生データは、「吸光度(optical density; OD)」という単位の測定値になる。

例えばある病気での死亡が、年齢によってどれくらい変わるかを検討するときは、各年齢層での死亡数をその層での人口で割った死亡率を用いる。このように、生データを別の数値に換算することを一般に「変数変換」(variable transformation)という。

変数変換で最も単純なのは、きまった関数を用いて1つの数値を他の数値に変えるものである。例えば、20回の脈拍を得る秒数tを測って、(60/t) ×20 を計算すると、1分あたりの脈拍数が得られる。この場合生データはtの値であるが、実際に使われるのは変換値である。

近年の測定機器では、変換を機器内部で行って、求めたい単位での数値を生データとして出力するものが少なくない。このようなデータを扱うときに注意しなければならないのは、有効数字がどれだけか、である。見かけ上は10桁にもなっている測定値の精度が、実はきわめて悪い、ということがあり得る。例えば、遺伝子に突然変異を起こした細胞の数を細胞培養地の面積で割って突然変異率を計算すると、変異数が3個なのに、それを8450という面積で割って0.00035503という半端な数が出力されたりする。みかけは有効数字4桁であるが、実際は1桁である。

物理的な単位系を超えてデータの情報を利用するための変換に、「標準化」(standardization)と呼ばれるものがある。例えば、1,000人の成人男性の身長、体重、血圧、腹囲などを測ってそれらの1次式で脳血管疾患の危険度を表現しようとする場合、物理的単位系の影響を避けるために、それぞれの変数ごとに平均を引いて標準偏差で割ったものを用いることが多い。分散・共分散行列ではなく、相関行列に基づく多変量解析である。このように生データが持つ物理的な単位系の影響を減らすことは、データを数学的に取り扱うための1つの工夫である。

データが集団を構成する個々人に対応している場合、集団内での個人の相対的位置を示すために、生データを順位に置き換えることが行われる。この変換を「順位変換」という。順位変換は、データ全体をまとめて変換するものであり、データ内の他の数値によって、変換結果として得られる値が異なるという特徴がある。

 

2.4.3 データに含まれる不確かさ

数学の理論が対象としている「数」は不確かさのない、すべての人間に共通な意味を持つ存在である。これに対してデータを構成する数値は、データを利用するという面で不確かさを伴った存在である。

例えば「ある人の体重」は体重計で観測すると数値になる。この数値は、食事の直後では大きな値になり、排泄の直後では小さな値になる。これは日常生活の中で数として扱われている体重が、データとしては不確かであることの例である。

このように不確かさがある場合でも、それらがおおよそ60 kgの上下にあるときには、数値が観測条件で変わることを無視して、この人の体重は60 kgであるとして差し支えない。データというものは不確かさを認めた上で、それを無視して利用するのが現実的である。

このような現実的なデータ利用の有用性を数学的に扱うために導入された概念に「誤差」(error)がある。定義という形式でいうと、「観測値に真の値が考えられるとき、真の値と観測値の差が誤差」である。体重の例で分かるように、この場合の「真の値」(true value)はモデルの世界でのみ存在する定数である。当然、誤差もモデルの世界で考えられるものであり、一般には、その値を正確に知ること、測定すること、予想すること、制御することができない。それにも関わらずこの概念を用いるのは、この概念を用いることで、データの活用が数学的に理論化できるためである。

数学の理論で対象となる「変化」と「関係」では、関数とそれに伴う導関数や原始関数が主要な対象となる。データにおける変化と関係には、これと違った側面が存在している。

例えば、人の身長xと体重yとの関係を考えてみよう。もし体型が同じであれば、体重は身長の3乗にほぼ比例すると考えられる。現実には、いろいろな体型の人がいるから、xyの関係はこのような単純なものでなく、多くの人で測定したデータをxy平面にプロットすると2次式曲線の上下に点が散らばっている。xをメートル、yをキログラムで表すと、中心的関係はy= 22 x2くらいである。この曲線より上の人は太った人、下の人はやせた人と考えられるので、y/x2を肥満度の指標(body mass index; BMI)にすることが健康科学の分野で行われている。このような場合、中心的関係を表す式を「回帰式」(regression formula)という。

概ね25歳から50歳くらいまでの年齢層のサラリーマンで、年齢と年収を調べると、ほとんどの場合、年齢の高い者が大きな年収を受け取っている、という傾向が見られる。しかしこれは年齢と年収に回帰式が成り立つというものではない。この年齢と年収のように、ある変数と他の変数の間に、一方が大きいときには他方も大きく、一方が小さいときは他方も小さい、という傾向があるとき、この2つの変数には、正の「相関」(correlation)あるいは「関連」(association)があるという。逆に一方が大きいとき他方が小さくなる、というときは、負の相関あるいは負の関連があるという。

会社間の給料水準の比較には、会社内の年齢構成の違いを考慮に入れることが必要である。このようなとき、年収のような変数を「主変量」(primary variable)、年齢のような関連変数を「共変量」(covariate)という。何を主変量とし何を共変量とするかは、データを利用する目的と状況による。相関関係の指標としては「相関係数」(correlation coefficient)が標準的に使われている。

因果関係があれば一般には回帰関係や相関関係がデータに表れるが、相関関係が見られたからといって、これを因果関係と見るのは正しくない。例えば中学校であれば、英語、国語、数学の成績の間に正の相関が見られる。これは一つの科目での成績の良さが原因となって他の科目の成績が良くなっているという関係ではない。生徒の論理的知的能力がそれぞれの科目に同じように現れる結果として生じる相関関係である。

相関関係が別の共変量の影響と混じって見分けがつかなくなることがある。例えば、大学の入学試験の合格者だけで見ると英語の成績と数学の成績に負の相関が見られる。これは、点数の和で合否を決めているからである。この場合は、合格のとき値が1、不合格のとき値が0となる合否を表す共変量が影響しているためである。このような現象を共変量の「交絡」(confounding)という。前述の例における身長と年齢は、それぞれ体重や給与に交絡している共変量である。

共変量による交絡が考えられるときは、共変量の影響を調整してデータを利用すべきである。例えば、胃ガンの5年生存率を癌研究会のデータベースで調べると、10年に10%の割で良くなっているが、これをそのまま胃ガン治療法の進歩だと考えてはいけない。近年の方が、重症度が軽い胃ガン患者が多くなっていることが影響しているからで、治療法の進歩を評価するときは、重症度という共変量の影響を調整しなければならない。

新聞やテレビでは、視聴率15.7%とか、政党支持率42.1%といった調査データが頻繁に登場する。このデータは、テレビを見ている日本人全員、あるいは日本の有権者全員を調べた結果ではなく、たかだか600世帯、あるいは数千人の有権者を調べた結果に過ぎない。すなわちこれらの数値は、対象となっている集団(母集団population)の一部(標本sample)についての数値であり、本当に知りたい母集団全体での数値ではない。そういう意味で、これらのデータは不確かな数値である。母集団での視聴率などを真の値とすると、標本での値には誤差が含まれる。この誤差を「標本誤差」(sampling error)という。データが標本での数値と考えられるときは、標本誤差がどれくらいかを吟味することが必要である。

標本の観測値から母集団を評価するときには、偏りに注目すべきである。偏りとは、誤差がプラス(あるいはマイナス)の一方に偏ることである。標本に基づいて母集団についての処置を考えるときは、標本に偏りのないことが重要である。

例えば、週刊誌に郵送料受取人払いのはがきを挟み込んで、「年金問題についての政府への注文を書き込んで送って下さい」としたら、不満を持った人だけがはがきを出すことになる。そうして得られたデータで、「政府に善処を求める声が90%だった」と言っても、この90%という数字は信用できない。はがきを出した人の意向が、はがきを出さなかった人とかけ離れているからである。一般にアンケート調査では、この種の偏りが避けられないので、回答率・回収率が20%や30%のアンケートの結果は、データとして信用できない。

 

2.4.4 確からしさと確率

ある命題の確からしさを評価するには、論理と経験の一方あるいは両方が用いられる。例えば人が死ぬのには、病気や事故といった原因が必要である。これは論理である。現代では22歳の若者を死に至らせる病気がきわめて少ないが、この若者に2輪車を運転する習慣があれば交通事故が死の原因として考えられる。それによる死の確からしさは過去の事故統計で評価できる。これが経験である。事故統計の主要部分はデータなので、経験による確からしさの評価はデータに基づくことになる。

1つの命題の確からしさを0と1の間の数値で表すのは、確からしさを相対頻度、すなわち観測した回数の中でその命題が成立している回数の割合として考えているときに合理的である。実際、気象関係者が、「次の11月3日が晴れることの確からしさはほとんど1である」と言うのは、過去の気象統計上で11月3日がほとんど晴れているからである。M大を受験するある生徒に対して担任の先生が、「君が合格するかどうかは五分五分だな」と言ったとすれば、それはその生徒くらいの成績の生徒が受験して合格した例が、おおざっぱに言って2人に1人くらいだったからであろう。「さいころ投げで1が出ることの確からしさは1/6である」というのは、6通りの場合が同じ条件にあるという論理によるものであろう。

このように確からしさの指標として使われる値を、数学で扱える概念として定義したものが数学の対象とされる確率である。すなわち数学の世界では、「確率」(probability)を、ある事象がどの程度の確からしさで生起しているかを、0と1の間の数値で表したもので、1)同時には起こりえない2つの事象のどれかが起こる確率はそれぞれの確率の和である、2)絶対に確かな事象の確率は1である、という性質を持つものと定義する。こうすることで確からしさが数学で取り扱える概念になるからである。

確率という数値の意味は、多くの場合「今日の午後に名古屋市で1mm以上の雨が降る確率が30%ということは、こういう予報が出たとき10回中3回くらい雨が降り残りの7回くらいは雨が降らないことである」というように説明される。しかし実際の確率は、必ずしもこのイメージ通りではなく、もっとはるかに曖昧である。例えば、西区では1.5 mmの雨が降り名東区では雨が降らなかったというとき、これを1回と数えられないからである。

個々人が確率を利用するときも、上のような10回中3回という解釈を文字通り信じて利用しているわけではない。たとえば傘を持って出ようかどうかを決めるときに「着ていく服は濡らしたくないし、風邪を引きやすい体質だから、確率は30%と小さいが傘を持っていこう」というように利用したりしている。確率の値は、ごくおおざっぱな目安として利用するのが現実であろう。

天気予報での確率は、頻度論的立場から現実を抽象化・モデル化したものを基盤にして、科学的技術的に計算されている。しかしわれわれがそれを日常生活で利用するときは、その計算法を正確に理解して使うべきというものではない。生活経験の中で自分流に確率の値を利用するので良い場合が多いのである。

一般の人が確率について心得るべきことは、1)確率が大きい事象の方が、確率が小さい事象より、生起・実現が期待できること、2)非常に小さい(あるいは大きい)確率の事象が現実に起こったなら(あるいは起こらなかったら)、多くの場合確率計算の前提が間違っていると考えること、である。

当たる確率が0.01%でも当たりくじに引く人がいるのは、確率が小さいことでも起こるということではなく、誰かが当たる確率が100%ではあるが、その誰かが自分である確率は0.01%であるということである。

確率は「事象」(event)に対して定められる数値である。条件を定めないで、「自動車事故で死ぬ確率は飛行機事故で死ぬ確率より大きい」という表現を用いることは、確率を用いた説明として使うべきでない。「今日から1年以内に私が交通事故で死ぬ」ということは事象として考えられるが、死ぬ主体を規定しないままの「自動車事故で死ぬ」という命題は、確率を与える対象として考えられない。事象は、起こりえることの全体、すなわち考えられる根元事象の全体があったときに、その一部として確率が付与できるものである。

確率を考えるときは一般に、前提として、不確定性を持つ事象の起こりやすさを考えているのが普通である。しかし世間の人はそうでなく、曖昧なこと、はっきりしないことの程度に、確率という概念を考えていることが少なくない。

たとえば、麻雀で最初に親を決めるときにはサイコロを振る。そのときに誰が親になるかということは、純粋に不確定なことであり、確率も計算可能である。しかし、途中で「この牌を捨てたときに相手が満貫を上がる確率は80%ぐらいかな」と考えるときの確率は、「捨てられている牌から考えてかなり危ない」と感じていることを、確率という数値に置き換えたに過ぎない。「主観確率主義者」(subjectivist)と「頻度論主義者」(frequentist)が確率に異なった性質を想定するのは、こういう曖昧さの確率表現を認めるか認めないかである。認めるのが前者で認めないのが後者である。

明日午前の天気が、雨、曇、晴、のどれかであるとき、「曇の確率が0.3で晴の確率が0.5ならば、傘を持ってでなくても、濡れない確率は0.8である」というような関係が確率の「加法性」(additivity)である。同時に起こりえない複数事象のどれかが起こる(確かである)確率は、それぞれが起こる(確かである)確率の和である、という性質である。

加法性は、確率の定義として認められている確率の性質である。この性質を確率の定義として用いるのは、頻度論の立場で事象を考えたとき、その事象の起こる割合がこの性質を持っているためである。

確率に絡んで、加法性と似た感じで登場する性質に「独立性」がある。「娘が今日外で夕食を食べてくる確率は90%である。夫が今日外で夕食を食べてくる確率は80%である。したがって2人とも夕食を食べてくる確率は掛け算で72%である」という計算は、多分間違いないであろう。このようにほとんど無関係の事象が同時に起こる確率を掛け算で計算するのは、頻度論の立場で合理的である。サイコロ投げのような事柄では、よく当てはまるからである。

このように積で確率を計算してよいことを、「乗法定理が成り立つ」と言うことがある。これは適切な言い方ではない。掛け算で確率を計算してよいというのは、確率の性質ではなく、「独立性」(independency)という事象の性質だからである。

サイコロ投げの結果が偶数であることのみを知らされたときに、それが2, 4, 6である確率をそれぞれ1/3とするのは、「条件付き確率」(conditional probability)の定義によっている。これに基づいて「出ている目が2である確率を(1/2) ×(1/3) = 1/6 」と計算するのは、条件付き確率の定義を割り算でなく、掛け算で定義したものに過ぎない。これを乗法定理というのは適切でない。「事象Aを実現したときの事象Bの条件付き確率が、事象Aが実現しなかったときの事象Bの条件付き確率に等しいとき、事象Aと事象Bは独立であるという」と説明すれば、独立性という性質が確率の性質でなく、事象の性質であることが明らかになる。

事象が独立というのは数学的モデルの世界でのことであるから、この概念・性質を現実に適用するときは、独立性が起こりやすさに直接の影響関係がないことのモデル化である、という認識が必要である。

 

2.4.5 確率モデル

ある薬Tがある異常行動Aを引き起こすという因果関係が疑われたとしよう。その真偽をデータに基づいて数学的に評価するには、確率モデルという道具で関係を定式化するのが1つの方法である。

例えば、ある時刻tで異常行動を発現していなかった人が、次の1時間の間に異常行動を発現する確率、すなわちハザードh(t) が次式で表されるとする。

h(t) = h0(t) exp(ax)

この式で、h0(t) は、薬Tを服用しなかったときのハザード、xは治療薬Tを服用した場合に1、そうでない場合に0 という値を取る変数である。この式に基づくと、薬Tを服用した人はexp(a) だけ異常行動Aをとるハザードが大きくなる。この大きさをデータに基づいて評価すれば、薬Tの影響を評価できる。このようにして現実問題についての情報を整理するとき用いられる確率に関する数式あるいはそういう想定を「確率モデル」(probability model)という。

成人人口が10万人と多く、女性の比率がpである地区で、10人の裁判員をランダムに選ぶとする。選ばれた10人のなかの女性数Yは偶然に支配されて変動する。その数がyという値である確率、すなわち、Pr{Y= y} には、次の確率モデルを想定するのが合理的である。

このYのように、不確定ではあるが、取り得る値が、例えば、0, 1, …, 10というように定まっていて、それぞれの値と取る確率も定まっている変数を確率変数(random variable)という。

上の式は、確率が0, 1, …, 10 のそれぞれに少しずつ分布していることを表している。このように確率が分布している状態を、確率分布(probability distribution)という。

 確率分布は無数に多くあるので、性質が類似したものを区分けして名前や記号を付けておくと好都合である。このときできる集まりを「分布族」(family of distribution)という。いわば分布の家族である。

取り得る値が1次元空間の点である確率分布では、大分類として離散分布と連続分布という分布族が用いられる。

離散分布は、例えば10人の裁判員の中に選ばれる女性の数の確率分布のように、取り得る値が離散的な確率分布の集まりである。離散分布では、それぞれの値を取る確率f(y) をyの関数(確率関数)として定めることで、分布族の個々のメンバーが指定できる。

離散分布の中には、さらに小さい集まりとして多くの分布族があるが、その典型として現実問題に頻繁に用いられるものに、(離散)一様分布、二項分布、ポアソン分布がある。例えばサイコロの出る目の数は、{1, 2, …, 6} において一様な確率を持つ分布であり、一様分布(uniform distribution)族の1つである。前に述べた裁判員中の女性の数の分布は二項分布(binomial distribution)と呼ばれる分布族の確率分布である。

連続分布は、ある地域集団でランダムに選んだ1人の成人の身長の確率分布ように、連続的な値を取る確率分布の集まりで、ある値aから別の値ba < b)までの確率F(b) – F(a) が、ある関数f(y)(確率密度関数)を用いて、次式で表現される確率分布の集まりである。

分布族の個々のメンバーは確率密度関数で指定できる。

連続分布の中には、さらに小さい集まりとして多くの分布族があるが、その典型として現実問題に頻繁に用いられるものに、(連続)一様分布、正規分布(normal distribution)、指数分布(exponential distribution)がある。例えば前述の成人の身長の分布は、正規分布に属する分布であると想定して、それほど不合理でない。ある高年齢に達した女性が、その後で脊椎骨の骨折を起こすまでの時間は、確率モデルとして、指数分布に従うことを想定するのが通常である。

例えば、第t年の1年間に日本で生まれる子供の数をN(t) と書こう。tが今年以降であれば実際にN(t)がいくらになるかは、不確かな事象である。しかし大体の値は昨年とあまり変わらないだろうし、来年以降もある程度の類似性をもって次の年、その次の年、というように変化していくであろう。その変化の法則性は、ある確率分布に従っていると想定可能である。あるいはそう考えてもそれほど現実離れをした認識ではないであろう。このように、時間と共に変化する状態を確率分布で認識する確率モデルを「確率過程」(stochastic process)という。

確率過程は、確率的変動に支配されるが、重要なことは、その影響が時間に関して連続的・継続的に続くことである。例えば、ある日にある株を多量に買う人が現れたとしよう。当然、株価が上がることになる。それを見た別の人達がこの株は有望株だから株価が上がったと判断すると、関連して翌日も買いが多くなってさらに株価が上がることになる。逆に、ある日の買い注文が偶然だと考えると、翌日は買いが相対的に減少して以前の株価あるいはそれ以下の株価に値下がりすることになる。この種の現象を数学的にモデル化したものが、「自己回帰過程」(autoregressive process)や「移動平均過程」(moving average process)である。

確率過程は数学的に取り扱いにくいものであるが、株価の変動、貿易収支、気候変動などの理解には、ある程度必要なことである。概念のレベルでの理解は社会常識とすべきであろう。

確率過程という認識を合理化・正当化するのは、そう認識するのが合理的とさせる過去のデータの存在、例えば、過去の出生数の歴史的変化、株価の変動の過去の結果などである。このように確率過程の1つの実現結果と見られるデータのことを「時系列」(time series)という。

時系列は、時間と共に系統的に変化している部分に、確率的・偶然的に変動している部分が付け加わったものの観測結果である。時系列の中に潜んでいる法則性を見いだすのは将来の予測と危険の制御に非常に重要である。

確率過程と時系列という概念をリテラシーとして求めるのは、年金とそのための掛け金の合理性、地球温暖化への対策の策定、といった生活に密着した政策の決定に、最小限の認識が必要だからである。

「私が初めてフランスに行ったのは、確かボナスに行ったときだと思うけど、あれ何年だったかなあ」というように、昔のことが正確に思い出せないとき、この曖昧さを確率で表すことは一般に無理である。しかし、それに対して、「それが1984年である確率は80%を超えると思うよ」と言ったとき、それは誤りだと言える人はいない。その場合の確率は、何回中何回という頻度の割合ではなく、自信の大きさを確率という指標を借りて表現しているものだからである。このように、曖昧なことについての確信の度合いを確率と同じ性質の数値で表現したとき、この数値を「主観確率」という。

主観確率は、確率の数学的性質が満たされていて、それを個々人がある種のルールで利用するのであれば、確率と呼んで差し支えないが、その値には客観的裏付けがないことが多い。したがって、自分が自分の責任で決定を下せる場合、すなわち決定が誤っても他人に致命的な被害を及ぼさないという場合にのみ用いることが許される確信度の指標である。

例えば、39度という高熱で激しい咳の患者がある医院を受診したとしよう。もし、この頃にインフルエンザが流行していたならば、ウイルス検査をしないでインフルエンザ症であると判断して差し支えない。しかし、インフルエンザ感染者が全くいないときであれば、ウイルス検査の結果が出るまでインフルエンザ症であると判断することは差し控えるべきである。同じ症状が普通の風邪でも生じるので、どちらが流行しているかを判断に利用した方が正しい判断の確率を大きくするからである。

このような判断の仕方を数学的に表現すると次のようになる。インフルエンザと普通の風邪の患者の存在確率をそれぞれ、Pinf, Pcol としよう。インフルエンザに罹患したときに高熱と檄しい咳がでる確率がP(heat|inf)で、普通の風邪のときに高熱と檄しい咳が出る確率がP(heat|col)であるとする。このとき、高熱と激しい咳の患者がインフルエンザである確率と次式で計算するとき、この確率を「ベイズ(事後)確率」(Bayes probability)という。ベイズは人名である。

ある事象が観測されたとき、その原因をベイズ確率で評価するのが、「ベイズ流」の推論で、ベイズ流の推論をいろいろな場面で多く使おうとする人を「ベイジアン」と言う。

ベイジアンと主観確率論者は認識として区別されるべきであるが、現実には、ベイジアンに主観確率論者が多い。それは、例えばインフルエンザと普通の風邪の患者の存在割合、すなわち事前確率を客観的に定めることが困難で、それを主観的に決めざるを得ないことが多いからである。客観的に決めることができる事前確率のみを用いるベイジアンを「経験的ベイジアン」という。