仮想通貨 技術研究所

卍テクノロジー研究所

いかに時間をかけないで、最新技術を使いこなすかを目標にした活動

Kaggle はじめてみた | メルカリのビッグデータでデータサイエンス

f:id:tetsuyaimagawa:20180102222030j:plain

これまでのあらすじ

昨年は「どの仮想通貨が上がるんですか!?」
に霞んでいたが、

聞かれてうざい質問トップに名を連ねる
「データサイエンティストになるにはどうすればいいんですか?」

を皆さんは覚えているだろうか。

そう、私はデータサイエンティストと呼ばれる人を捕まえては、同じ質問を繰り返していた。
彼らの答えは決まって「かぐる…とか…やればいいんじゃないかな…(ボソ」

だった。かぐるって何。

今回のあらすじ

2018年だから Kaggleデビューする。
Kaggleは言うまでもなく、企業が"お題"を出し、データサイエンティストがそれを解くプラットフォームだ。
解くと懸賞金が貰える。

簡単に言うと、リーマン予想説いたら千円あげる…みたいな話である。

難しく言うと、ルフィ捕まえたら5億ベリーあげる…みたいな話である。

さっそく覗いてみる

f:id:tetsuyaimagawa:20180102223445p:plain





コンペティションのページに飛んでみる。




f:id:tetsuyaimagawa:20180102223547p:plain





おや、日本最後の希望と謳われたユニコーン・メルカリがいるではないか。


日本円にして、懸賞金1,000万ベリー。
一生 一年遊んで暮らせる金だ。

1,300チームが鎬を削っているらしい。金額結構高めだな…


データを落とす

お題は「中古品の販売価格予想」だそうで
学習データと、テストデータが用意されているので、オーソドックスにTensorflowとかにぶっこんでコネコネすればよさそうである。(分析する気ゼロ)


↓がテストデータで、学習データはこれに価格を加えたもの。
f:id:tetsuyaimagawa:20180102224740p:plain



商品名とカテゴリから価格を予想するのか…



テキストマイニング…アウトオブ専門外だ。



Coach bag とか、bagの適正価格出して、Coachだからマシマシとかするのか?…気が遠くなる。



というか、カテゴリの平均値の方が、下手なコネクリアルゴリズムより、強いのではないか… Simple is best 論。


データ分析

1カテゴリあたりのアイテム数数えてみる。
f:id:tetsuyaimagawa:20180102225624p:plain

…十分ありそうじゃないですか。意識高い系だから下は見ない…。



…カテゴリ平均を取ろう…(白目


JupyterLab

データサイエンスしてる感が出て安心する、安定のJupyterで作業する。
(導入方法などはこちら↓)

tetsuyaimagawa.hatenablog.com



〜5時間後〜



f:id:tetsuyaimagawa:20180102230323p:plain
f:id:tetsuyaimagawa:20180102230331p:plain



はい、平均をもって、カテゴリの適正価格とした結果がでました。



なんのAI感もない、Pandasのお勉強です。



提出フォーマットが↓なので、揃えました。
f:id:tetsuyaimagawa:20180102230523p:plain



提出

よし・・・1,000万円はすぐそこだ。


機械学習とかしてた方々、モノの価値はカテゴリで決まるんですよ。



”提出” ボタンを押す。




・・・




ん?




f:id:tetsuyaimagawa:20180102230924p:plain








ふおお導出過程も出さなければならないやんこれ…




こんなもの出したら最期、二度とAIの会社やってます…とか言えなくなるやんけ…



まとめ

大事なのは結果ではない、過程なのだ…
大事なのは回帰係数なのだ…



次回「この世の全ての事象は、線形である…」に続く。