Excelとデータ分析(1)常識を疑ってみるために、Excelをつかってみませんか?

Excelとデータ分析(1)常識を疑ってみるために、Excelをつかってみませんか?

Excelとデータ分析(1)

常識を疑ってみるために、Excelをつかってみませんか?

「ブランド認知率をあげるために、思い切ってテレビCMを出稿してみる」

「社員の残業時間がのびても売上が増えないので、社員へ残業削減を命じた」

それ、単なる思いつきや経験則ではないですか?

その企業活動に、「エビデンス」はありますか?

経験則だけで方針を決めたら危険だという理由は、たとえば上の例では、テレビとWebとの情報浸透力に差がついている状況を考えれば、想像できるでしょう。

2013年に「統計学が最強の学問である」(西内 啓 著・ダイヤモンド社刊)という書籍が発刊され、2014年時点で累計35万部突破という、教養書で異例のベストセラーになりました。それほど「統計学」に興味をもつビジネス・パーソンが多かった、ということでもあります。

とはいえ、重回帰分析とか、コンジョイント分析とか、難解な数式を学ばないと、統計学をビジネスへ応用するのはむずかしいのでしょうか?

そんなことはありません。 身近なところで、大量のExcelデータをながめなおすことも、統計の入り口です。今回は、カンタンなExcelデータ分析によって、常識を疑ってみる練習をしてみましょう。キーワードは、「ヒストグラム」と「正規分布」です。

日本の各世帯には、1,880万円の貯蓄があるそうですよ

「老後2000万円問題」とか、「日本人の平均所得が552万円というのは高すぎる」とか、さすがに最近は、お金まわりの統計報道をそのまま信じる人は少なくなったのではないでしょうか。

総務省の家計調査報告でリポートされた、「1世帯当たり貯蓄現在高は1880万円」というのも、そのひとつ。ウチには貯金が100万円もないよ〜、とうろたえる人もいるかもしれませんが、安心してください!? 10世帯に1軒(10.5%)は、貯蓄現在高100万円未満世帯です。 たしかに標本全体の平均値は1880万円なのですが、かならず資料にそえられるヒストグラム(度数分布グラフ)をみるとわかるように、この値は、一部のお金もちが平均をつり上げている、「ばらつきのある標本データ」であることがわかります。

Excelとデータ分析(1)常識を疑ってみるために、Excelをつかってみませんか?
出所 総務省ICTスキル総合習得プログラムコース3-3 基本統計量・クロス集計表の作成」 より

平均値が1880万円なのに対し、参考値「貯蓄保有世帯の中央値」が1104万円、「貯蓄0世帯を含めた中央値」が1026万円となります。

これでもまだ「実勢より高いのでは?」と思ったら、裕福なお年寄り世代と、住宅ローンをかかえる働きざかり世代を比較してみるなど、おもしろい比較手法がいろいろあります。

ただし、それは本題からはずれますので、ご興味があれば、ぜひご自身で総務省統計局ホームページからExcel統計表をダウンロードして、分析してみてくださいね。

正規分布に従わない「平均値」はウソ

では、厚生労働省「国民健康・栄養調査」でいわれている「日本人女性の平均身長は150.3cmである」というのは、ウソでしょうか?ホントでしょうか?

※体重の平均値を分析すると、よりばらつきが大きくなって、おもしろい分析結果がでるのですが、レディの体重を聞きまわるのはちょっとねぇ...。もしあなたが、勇気ある御仁でしたら、ぜひお試しください。

ダミーで、A子さんからZ子さんまで、27名の身長を並べたExcel表から、ヒストグラムを作成しました。

Excel2016以降のバージョンでしたら、数値データのならんだ一覧表をドラッグで選択するだけで、直接ヒストグラムを作成できます。

[挿入]→[ヒストグラム]

Excelとデータ分析(1)常識を疑ってみるために、Excelをつかってみませんか?

Excel2016以前のバージョンでしたら、FREQUENCYという統計関数を利用して、各階層ごとの度数(人数)をあらかじめ算出します。縦の棒グラフを作成した上で、グラフデザインを整形(連続データなので、棒間スペースをゼロに設定)することで、同様のヒストグラムを作成できます。

Excelとデータ分析(1)常識を疑ってみるために、Excelをつかってみませんか?

今回、自動生成したヒストグラムは、以下のようになりました。

Excelとデータ分析(1)常識を疑ってみるために、Excelをつかってみませんか?

階層のくぎり方はExcel自動計算にまかせていますが、4階層にした時、平均値の階層がもっとも度数が高く(人数が多く)、そこから左右対照つりがね型に分布していることを「正規分布に従っている」といいます。

身長データの場合、たとえば「身長3メートル50センチ」というような、とびぬけた異常値データが(ゼロでないかもしれませんが)非常に少ないため、平均値が母集団の「ボリューム」や「サイズ(大きさ)」を代表することができるのです。

それに対して、金融系の統計については、先述の通り、少人数のとびぬけたお金持ちが平均値を高くつり上げてしまっているので、「平均値は母集団を代表する指標である」といってしまってはウソになります。

このような、いわゆる”統計のウソ”を見わけるには、母集団が「正規分布に従ったデータかどうか」を見きわめる必要があります。むしろ、実際のビジネス現場で収集できるデータ群は、きれいな正規分布に従っているものの方がすくないので、「平均値=代表値」としてしまってよいかどうかは、ご自身でヒストグラムを描いてみることで確認できます。 Excel2016以降でしたら、グラフウィザードからカンタンにヒストグラムを描くことができますので、まずはデータをビジュアル化して、大量データの裏側を読みとく工夫をしてみてください。

まとめ;統計って、じつは謎ときゲーム
ヒストグラムを自動生成して「平均値=代表値」のウソを見ぬきましょう

統計=むずかしい公式や計算式をおぼえる必要がある、高度な分析手法。

↑この説明も、あやまりではないのですが、ではシロウトが全く手を出せない世界なのか?というと、そんなことはありません。

「学問」として身がまえるとむずかしく感じるので、「データ分析は謎ときゲームである」と割りきってみてはいかがでしょう?

グラフウィザードを起動してみたり、縦のデータを横からながめなおしてみるだけでも、同じ統計データが全く違う顔を持ちます。まずはヒストグラムを自動生成して、正規分布に従っている統計データかどうかを確認するだけでも、次の分析ステップに進みやすくなります。 ぜひ、ご自身のマーケティング課題に関して、ヒストグラム分析をする習慣をつけてみてください。

小さなお悩みでも、
お気軽にご相談ください!

お急ぎの方はお電話にてお問い合わせください

050-6867-2130
せるワザロゴ

セルワザでは、役に立つEXCELワザをご紹介しております!