CodeIQ Blog

自分の実力を知りたいITエンジニア向けの、実務スキル評価サービス「CodeIQ(コードアイキュー)」の公式ブログです。

エクセルでデータ分析「中古車情報から車の相場を探れ!」問題解説 #excel #data #analysis

CodeIQ中の人、millionsmileです。

ビジネス・統計本のベストセラー作家の柏木吉基さんの問題の解説です。柏木さんはビジネスの現場で分析のお仕事をしているだけあって、幅広く活用できそうな実用的な問題になっております。

問題は「中古車情報から車の相場を探れ!」というのもで、価格.comの中古車情報のデータを使って分析しなさい、というものでした。ホンモノのデータです!ホンモノのデータだからこそ、リアリティがありますね。

■問題文

問題はこんな内容でした。

最近、あなたは車の免許を取得したこともあり、コンパクトカーを中古で買いたいと考えています。
日産のマーチがスペック的にもデザイン的にも好みです。

ただ、丸腰で素人が中古車ディーラーに行っても、足元を見られそうで不安です。
そのため何かしら客観的な情報で、根拠あるネゴをしたいと考えています。
早速、ネットの中古車サイトを見てみると、車に関する付随データとして、
「年式」「価格」「走行距離」「修理歴有無」「2WD/4WD」「色」が含まれていることがわかりました。


問題ファイル.xls
(※データ出典:価格.comの中古車情報サイトより2013年4月19日時点の中古車データを使用しています。)

「年式」は、その車が発売された年を示し、一般的には新しいほうが価値があります。
「2WD/4WD」は、後ろタイヤだけがエンジンで回る2輪駆動(2WD)と、4輪全部が回る4WDの違いを示しています。

中古車とはいえ、最低でも数十万はしますので、決して安い買い物ではありません。
是非、ディーラーの言いなりになって相場を外した買い物は避けたいところです。


【課題】
中古車情報サイトのデータを使い、中古車の価格には、どのような要因が(どのくらい)影響しているでしょうか?
分析した結果をテキストファイルに記入し、送信してください。


【解答評価のポイント】
Excelの標準機能だけを使ってください(「分析ツール」は不可とします)。
解答は、分析で得られた結果を端的にサマリーください。その上で、そこに至った分析のプロセスを簡単に記載下さい。
唯一絶対な正解はありませんので、分析の正確さ、結果表記の分かり易さ、オリジナリティなどが主な評価ポイントです。

■出題者柏木さんによる解説

データから散布図を作り、単回帰分析(線形)をします。下記の「年式と価格の関係(全データ)」がその結果です。
(当てはまり度合いを示すR-2乗値は0.64で、悪くはありません)
これにより、1年毎に約5.6万円の価値が下げることが、得られた式の傾きから読み取れます。
ここをベースに、目の前にある商品が、適切に値付けされているのかどうかの判断材料となるかもしれません。

また、グラフに注目すると、一見年式が新しいほうが、バラつきが大きく、回帰結果との乖離があるように見えるが、これは決して年式が新しいほうがあてはまりが悪い、ということになりません。

あくまで、年式が新しいほうが、市場に出ている数が多く、その分バラつきが生じることは自然なはずで、それが現れているだけだと思われます。
f:id:codeiq:20130620182108p:plain

ただし、データを見ると、必ずしも同様に扱ってよいものか悩む要因も含まれています。
例えば、4WDと2WDの違いや、修理歴の有無による違いは有っても不思議ではなさそうです。

そこで、「修理歴有りだけを除く」と、「修理歴有りと4WDを除く」バージョンでも分析してみました。
いずれも、データの当てはまりを示すR-2乗値は向上し、少数派である修理歴有りと4WDを除いたデータでの精度は上がります。
ただし、結果的に1年毎の価格下落幅はさほど変わらないことが分かります。

そのため、このデータからは約5.6万円/年という、下落幅はある程度普遍的に使えそうです。
f:id:codeiq:20130620182251p:plain
f:id:codeiq:20130620182258p:plain

試しに、色による違い(人が車の色によって異なる反応を示すのか)を見てみます。

すると、「ライラック」「ブラック」「パール」では、年式の違いによる顕著な違いは見られないことが分かります。
ただし、この2色はいずれも、平成21年以降に中古車として登場したもので、サンプルデータも少ないことから、「年式に左右されない」と結論付けることは早計だと思います(こういった判断、評価は、分析者により行う必要があります。)
f:id:codeiq:20130620182336p:plain

■最後に

この問題はお得な特典付き問題でした。問題に挑戦者した方の中から、抽選で3名の方に、柏木さんの最新の著書『「それ、根拠あるの?」と言わせない データ・統計分析ができる本』をプレゼント、しかも、柏木さんのサイン付きでした。当選した3名の方、おめでとうございますー。
※当選者にはCodeIQ運営事務局から連絡が届いていると思います。

https://codeiq.jp/ace/kashiwagi_yoshiki/q306
f:id:codeiq:20130620183455p:plain

また面白い問題とか、お得な問題とかだしていくので、今後ともCodeIQをよろしくお願いします!

エンジニアのための新しい転職活動!CodeIQのウチに来ない?の特集ページを見る