分位数

分位数(ぶんいすう)、分位点(ぶんいてん)、分位値(ぶんいち)、クォンタイル (: quantile) は、統計の代表値の1種である。

実数 q [ 0 , 1 ] {\displaystyle q\in [0,1]} に対し、q 分位数 (q-quantile) は、分布を q : 1 q {\displaystyle q:1-q} に分割する値である。

ある種の正の整数 m {\displaystyle m} に対し、分布を m {\displaystyle m} 等分する m 1 {\displaystyle m-1} 個の値、つまり、 i = 1 , , m 1 {\displaystyle i=1,\dotsc ,m-1} に対する i / m {\displaystyle i/m} 分位数を、m 分位数(ただし m {\displaystyle m} 漢数字)という。 i = 1 , , m 1 {\displaystyle i=1,\dotsc ,m-1} 番目の m 分位数をi m 分位数といい、また、 m {\displaystyle m} 等分された分布の k = 1 , , m {\displaystyle k=1,\dotsc ,m} 番目の部分を、k m 分位、または単にk 分位という。

ただし、英語のquantileには、等分割する値(value)の意味と、そのようにして分割された群(group)の二つの意味がある[1]

定義

変量統計における分位数

n {\displaystyle n} 個のデータ x {\displaystyle x} に対する q 分位数 Q q {\displaystyle Q_{q}} は、昇順にソートしたデータを x 1 x 2 x n {\displaystyle x_{1}\leq x_{2}\leq \dotsb \leq x_{n}} とすると、

Q q = x ( 1 q + q n ) x ( t ) = { x t , if  t N ( t t ) x t + ( t t ) x t , if  t N {\displaystyle {\begin{aligned}Q_{q}&=x(1-q+qn)\\x(t)&={\begin{cases}x_{t},&{\text{if }}t\in \mathbb {N} \\(\lceil t\rceil -t)x_{\lfloor t\rfloor }+(t-\lfloor t\rfloor )x_{\lceil t\rceil },&{\text{if }}t\notin \mathbb {N} \end{cases}}\end{aligned}}}

と定義される。ここで、 {\displaystyle \lfloor \cdot \rfloor } は床関数、 {\displaystyle \lceil \cdot \rceil } は天井関数、 N {\displaystyle \mathbb {N} } 自然数の集合である。

関数 x ( t ) ,   1 t n {\displaystyle x(t),\ 1\leq t\leq n} は、数列 x 1 , , n {\displaystyle x_{1,\dotsc ,n}} の線形内挿数関数への拡張である。関数 x ( ) {\displaystyle x(\cdot )} の引数 1 q + q n {\displaystyle 1-q+qn} は、範囲 [ 1 , n ] {\displaystyle [1,n]} q : 1 q {\displaystyle q:1-q} に内分している。

確率分布の分位数

1次元確率分布 f ( x ) {\displaystyle f(x)} に対する q 分位数 Q q {\displaystyle Q_{q}}

Q q f ( x ) d x q ,   Q q f ( x ) d x 1 q {\displaystyle \int _{-\infty }^{Q_{q}}f(x)dx\geq q,\ \int _{Q_{q}}^{\infty }f(x)dx\geq 1-q}

を満たす値として定義される。この式は、累積分布関数 F ( x ) {\displaystyle F(x)} または確率 P ( X ) {\displaystyle P(X)} を使って、

Q q d F ( x )   q ,   Q q d F ( x )   1 q {\displaystyle \int _{-\infty }^{Q_{q}}dF(x)\ \geq q,\ \int _{Q_{q}}^{\infty }dF(x)\ \geq 1-q}

または

P ( X Q q ) q ,   P ( X Q q ) 1 q {\displaystyle P(X\leq Q_{q})\geq q,\ P(X\geq Q_{q})\geq 1-q}

とも表せる[2]


特別な分位数

いくつかの q に対する q 分位数には、特別な名称がある。

中央値

詳細は「中央値」を参照

1 / 2 分位数を、中央値、メディアン (median)という。中央値は、平均値に代わり、分布を代表する値として使われる。

四分位数

q / 4 {\displaystyle q/4} 分位数を、第 q 四分位数、第 q 四分位点、第 q 四分位値、第 q ヒンジ (quartile, hinge) という。1 / 4 分位数(第1四分位数)を下側四分位数、3 / 4 分位数(第3四分位数)を上側四分位数ともいう[3]

単に四分位数といったばあい、第1・第3四分位数を表す。第2四分位数は中央値である。これらは、分布の統計的ばらつきを表すのに使う。

第1・第3四分位数の差 Q 3 / 4 Q 1 / 4 {\displaystyle Q_{3/4}-Q_{1/4}} は、四分位範囲: interquartile range, IQR)といい、分布のばらつきの代表値である。分布の代表値として平均値の代わりに中央値を使うときは、IQRを標準偏差や分散の代わりに使う。中央値同様、頑強で、外れ値や極端に広い裾野の影響を受けにくい。

IQR / 2 {\displaystyle {\text{IQR}}/2} 四分位偏差 IQR / IQR N ( 0 , 1 ) 0.7413   IQR {\displaystyle {\text{IQR}}/{\text{IQR}}_{N(0,1)}\approx 0.7413~{\text{IQR}}} 正規四分位範囲: normalized interquartile range, NIQR)といい、IQRの代わりに使うことがある。ここで、 IQR N ( 0 , 1 ) 1.3490 {\displaystyle {\text{IQR}}_{N(0,1)}\approx 1.3490} は、標準正規分布のIQRである。正規分布の正規四分位範囲は、標準偏差に等しい。なお係数0.7413を近似値として使うことがある。

四分位数の簡易な求め方として、中央値より上の値の中央値と、中央値より下の値の中央値を使う場合がある。この値を特にヒンジ (hinge) と呼び、それぞれ上側ヒンジ・下側ヒンジ、または、第1・第3ヒンジ(第2ヒンジは中央値)と呼ぶ。ヒンジは、(厳密に計算した)四分位数とは、中央値から離れる方向に少しだけずれる。データ数が多ければずれは小さくなる [要出典]

三分位数・五分位数・十分位数

q / 3 {\displaystyle q/3} 分位数を、第 q 三分位数、第 q 三分位点、第 q 三分位値 (tertile) という。

q / 5 {\displaystyle q/5} 分位数を、第 q 五分位数、第 q 五分位点、第 q 五分位値 (quintile) という。

q / 10 {\displaystyle q/10} 分位数を、第 q 十分位数、第 q 十分位点、第 q 十分位値 (decile) という。

パーセンタイル

q / 100 {\displaystyle q/100} 分位数を、q パーセンタイル、(第)q 百分位数、(第)q 百分位点、(第)q 百分位値、q パーセント点、q %点 (percentile) という。

1 q / 100 {\displaystyle 1-q/100} 分位数を上側 q パーセント点という。これと対比するときには、 q / 100 {\displaystyle q/100} 分位数は下側 q パーセント点という。また、平均が0の対称分布に対し、 1 / 2 + q / 200 {\displaystyle 1/2+q/200} 分位数を両側 q パーセント点という。このとき、絶対値が両側 q パーセント点以内に、分布の q %が含まれている。

最大値・最小値

0分位数は最小値、1分位数は最大値である[4]。最大値と最小値の差は範囲あるいはレンジ: range)と呼ばれ、分布のばらつきを表す代表値の一種である。

五数要約

詳細は「箱ひげ図」を参照

分布の特徴を最大値、最小値、中央値、上側・下側ヒンジの5つの値、つまり、0, 0.25, 0.5, 0.75, 1分位数で要約することを、五数要約という。五数要約は、しばしば箱ひげ図で図示される。

日本産業規格

日本産業規格では、分位点を、「 p {\displaystyle p} 分位点とは,分布関数が p {\displaystyle p} に一致するか,又は p {\displaystyle p} より小さな値から p {\displaystyle p} より大きな値に飛ぶときの確率変数の値。確率 p {\displaystyle p} 100 p {\displaystyle 100p} % で表すときは 100 p {\displaystyle 100p} パーセント点 (100p percentile) という。備考1. 確率変数のある区間内で分布関数が一定値 p {\displaystyle p} となる場合は,その区間内の任意の値が p {\displaystyle p} 分位点とされる。ただし, 0 p 1 {\displaystyle 0\leqq p\leqq 1} である。 2. p = 1 / 2 {\displaystyle p=1/2} に対応する確率変数の値をメディアン中央値 (median) という。3. p = 1 / 4 {\displaystyle p=1/4} および p = 3 / 4 {\displaystyle p=3/4} に対応する確率変数の値を四分位点 (quartile) という。」と定義している[5]

脚注

[脚注の使い方]
  1. ^ Angus Stevenson, ed. (2010), Oxford Dictionary of English (Third ed.), Oxford University Press, p. 1451, ISBN 978-0-19-957112-3 
  2. ^ 累積分布関数が(狭義)単調増加でなければ、この条件を満たす Q q {\displaystyle Q_{q}} は一意に定まるとは限らない。
  3. ^ 西岡 2013, p. 12, 1.5 分位数.
  4. ^ 西岡 2013, p. 8, 1.4 度数分布.
  5. ^ JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 1.10 分位点、日本規格協会、http://kikakurui.com/z8/Z8101-1-1999-01.html

参考文献

  • 西岡康夫『やさしく語る 確率統計』オーム社〈数学チュートリアル〉、2013年。ISBN 978-4-274-21407-3。https://books.google.com/books?id=AUY2AgAAQBAJ 

外部リンク

  • Quartiles in Elementary Statistics 15種類の定義がされている
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ