分散を使用したことはありますか?
データのばらつきを求める際によく用いられる分析方法です。
統計分析に詳しい方はよく耳にする分散ですが
エクセルでは関数1つで算出することができます。
分散には「母集団」として算出する方法と「サンプル」として算出する方法があります。
まずは分散の主な内容と活用方法、そしてVAR.P・VAR.S関数の違いと
使用方法についてまとめていますので是非参考にしてみてください。
それでは見ていきましょう。
■関数の仕組み
まず関数の仕組みを見てみましょう。
母集団で分散:=VAR.P(対象データ)
標本で分散:=VAR.S(対象データ)
■分散とは
まず、分散とは何かについて説明します。
しかし、この記事をご覧になられている方は分散の存在を知っていて
ある程度の知識をお持ちだと思うので簡単に紹介したいと思います。
・通常の分散の算出方法
算出方法としては下記の流れです。
①データの平均値を求める ②各データの差を求める ③②で求めた差を2乗する ④③のデータをすべて足す ⑤データ数で割る
では下図の見本をご覧ください。
こちらの分散をもとめてみましょう。
①は平均なので「(75+78+85)/3」で「79.3」となります。
②①の平均値「79.3」を元にAさんとの差を算出すると
Aさん「79.3-75=4.3」、Bさん「79.3-78=1.3」、Cさん「79.3-85=-5.67」となります。
③②の値を2乗すると
Aさん「4.3~2=18.78」、Bさん「1.3~2=1.78」、Cさん「-5.67~2=32.11」となります。
④③の和なので「18.78+1.78+32.11」で「52.667」となります。
⑤④をデータ数で割るので「52.667/3」で「17.55」となります。
つまり見本の分散は「17.55」ということがわかりました。
ではデータをばらけさせてみましょう。
結果は「274.66」となり、先ほどの「17.55」より大きいことから
データのばらつきが大きいことがわかります。
・分散の公式
分散の公式を紹介します。
母集団の場合
標本の場合
公式を見てみると「母集団」と「標本」がありますね。
こちらについては次の項目で説明したいと思います。
母集団と標本では結果が異なるので違いを理解する必要があります。
■VAR.P・VAR.S関数の違いについて
先ほどは分散について見ていきましたね。
あのややこしい計算をエクセルの関数を使用すれば簡単に求めることができます。
ではタイトルのVAR.P・VAR.S関数の違いについて紹介したいと思います。
まずVAR.P・VAR.S関数の説明を見てみましょう。
母集団で分散:=VAR.P(対象データ) 標本で分散:=VAR.S(対象データ)
違いとしてはVAR.P関数は「母集団」でVAR.S関数は「標本(サンプル)」となります。
では「母集団」と「標本(サンプル)」の違いが分かればどちらを使用すればいいかわかりますね。
母集団はすべてのデータを対象とするのに対し標本は母集団の中から抜き取って計算をします。
では見本で下図の身長データを見ていきましょう。
A組の分散を求める場合は40人すべてのデータがあるのでVAR.P関数の「母集団」で計算しますが
仮に学年全体の身長の分散を求める場合にA組のみの身長を元データとすると
学年全員という母集団の中のA組のデータを抜き取って計算することになるため、VAR.S関数の「標本(サンプル)」で計算することになります。
もう1つ事例を紹介したいと思います。
すでに100万個の部品があり、部品の長さの分散を求めたいとします。
100万個すべてデータを集めて分散を計算する場合はVAR.P関数の「母集団」。
で計算しますが100個のみ抜き取って計算する場合はVAR.S関数の「標本(サンプル)」を使用するようになります。
なので使用頻度はVAR.S関数の「標本(サンプル)」が多いかと思います。
「標本」のVAR.S関数の特徴として、抜き取りのデータから母集団のばらつきを予想するので
分散は母集団で計算したより、標本で計算した方が数値は大きくなります。
■VAR.P・VAR.S関数で分散を計算する
それでは実際に関数と使用して計算してみましょう。
本来、分散を計算するには序盤で説明した複雑な計算が必要です。
しかしVAR.P・VAR.S関数を使用すれば、簡単に計算できます。
1から計算したことがある方はわかると思いますが、とてもありがたい関数です。
では実際に使用してみましょう。
先ほどの身長データを使用してみましょう。
今回は母集団と標本の分散をそれぞれ計算してみましょう。
では関数の仕組みを見てみましょう。
母集団で分散:=VAR.P(対象データ)
標本で分散:=VAR.S(対象データ)
対象データは「B4からK7」の40個のデータを参照してみましょう。
では関数に当てはめていきます。
母集団の分散☟
=VAR.P(B4:K7)
標本の分散☟
=VAR.S(B4:K7)
では実際に入力してみましょう。
結果はこのようになります。
これで分散を計算することができました。
母集団ではσ^2=13.34ということになりますね。
これで関数1つで分散を算出できました。
■補足 もう一つのばらつきを表す標準偏差について
分散でばらつきを求めてきましたが、「標準偏差」という表し方もあります。
標準偏差のメリットとしてはばらつき量がイメージしやすい上に、○○%以内に
○○ほどばらついているといった表現ができます。
見本をご覧ください。
こちらのグラフを「正規分布曲線」といいます。
そして標準偏差の単位が「σ」とすると、下記のような確率を表すことができます。
「1σ~-1σ」間は約68.2%のデータ。
「2σ~-2σ」間は約95.4%のデータ。
「3σ~-3σ」間は約99.7%のデータ。
例えば平均「30」で標準偏差σ=5だった場合
「25~35」のデータは68.2%
「20~40」のデータは95.4%
「15~45」のデータは99.7%ということができます。
標準偏差については下のリンクでまとめていますので是非参考にしてみてください。
【STDEV.P・STDEV.S関数】2つの違いとは?母集団・標本のばらつきを求める標準偏差を求める ► 独学エクセル塾 (dokugakuexcel.com)
■よくあるエラーと対処法
それではVAR.P・VAR.S関数を使用する中でよくあるエラーと対処方について説明します。
・対象の数値に文字列のデータがある
こちらはエラーになりませんが、分散の計算に含まれなくなってしまいます。
対象データのセルの左上に緑の印がある場合は要確認です。
下図をご覧ください。
セルを選択して文字列になっている場合は標準または数値に直して
再度入力しなおしてください。
■公式の説明
わかりやすいように説明したため公式と使用する語句が異なりますが
マイクロソフト公式の説明については下記のリンクを参照してください。☟
■まとめ
いかがだったでしょうか。
分散はデータのばらつきを把握するうえでとても便利な統計手法です。
さらにエクセルを使用すると複雑な計算をしなくても
関数1つで計算可能です。
ぜひ母集団・標本の違いを理解して活用してみてください。
それでは次回の記事でお会いしましょう。