仮想通貨女子がネカマかどうか、データサイエンスして確かめた | Chainerを用いたRCNNによるテキスト分類
あらすじ
昨今、仮想通貨女子と言われる、ビットコインやブロックチェーンに詳しい女子が増えており、互いに鎬を削っている。
bitcoiner.link
彼女たちは、自分の地位を脅かす相手を、時にバッシングしたり、パトロンに布教活動を行ったりしているようだ。
なるほど
ネットにありがちな ”ネカマ” である疑いをかけることで、ライバルの失脚を目論んでいるようだ。
しかし傍観者の私は思った
ネカマである疑いをかけている方もネカマで、実は仮想通貨女子はほとんどネカマなのではないだろうか・・・
悪い癖だ、
ネットに長く浸かっていると、オンラインの住民全てが胡散臭く見えてしまう。
ここは正攻法で、科学の力を持って検証すべきではないだろうか。
そう
真実(性別)はいつもひとつなのだから・・・
やること
Twitterの発言を分析し、仮想通貨女子が男/女性的な発言をしているか検証する。
発言を2パターン分類し、全発言に占める女性的発言が多い者が高い値を得るようスコアリングをする。
Twitterの発言を取得する
いくつかのツールを試した
Export Tweet
- $30かかる
Twitter Analytics and Hashtag Tracking by ExportTweet
というわけで、All My Tweetsを用いる。
日付とか邪魔なので、最初の空白が現れたところで以下を切り捨てた。
学習する
下記のコードを拝借し、魔改造させていただきました。
github.com
〜学習開始〜
長い・・・
火を噴きそうなMacbook Air
悠久の刻が流れてもまだepoch 1 (進捗1%)
これ以上機械学習をするなら、環境を整えたほうがよいのではないか…
気を取り直して、一旦学習データ50くらいのepoch 10でやってみよう。
〜学習完了〜
テスト
テストには、先ほど揉めていたお二人のデータを使わせていただきました。
- たそがれの仮想通貨女子さん
- 仮想通貨な女子大生さん
全発言における、女性の発言と分類されたものの割合をスコアとする。