仮想通貨 技術研究所

仮想通貨 技術研究所

実際に手を動かすことを重視した仮想通貨のHow toブログ

仮想通貨女子がネカマかどうか、データサイエンスして確かめた | Chainerを用いたRCNNによるテキスト分類

f:id:tetsuyaimagawa:20170726200116j:plain

あらすじ

昨今、仮想通貨女子と言われる、ビットコインブロックチェーンに詳しい女子が増えており、互いに鎬を削っている。
bitcoiner.link



彼女たちは、自分の地位を脅かす相手を、時にバッシングしたり、パトロンに布教活動を行ったりしているようだ。
f:id:tetsuyaimagawa:20170726174433p:plain

f:id:tetsuyaimagawa:20170726174523p:plain



なるほど


ネットにありがちな ”ネカマ” である疑いをかけることで、ライバルの失脚を目論んでいるようだ。




しかし傍観者の私は思った




ネカマである疑いをかけている方もネカマで、実は仮想通貨女子はほとんどネカマなのではないだろうか・・・





悪い癖だ、





ネットに長く浸かっていると、オンラインの住民全てが胡散臭く見えてしまう。






ここは正攻法で、科学の力を持って検証すべきではないだろうか。





そう




真実(性別)はいつもひとつなのだから・・・




やること

Twitterの発言を分析し、仮想通貨女子が男/女性的な発言をしているか検証する。
発言を2パターン分類し、全発言に占める女性的発言が多い者が高い値を得るようスコアリングをする。

Twitterの発言を取得する

いくつかのツールを試した

TwimeMachine

  • 無料
  • 3,000ツイート取れる

TwimeMachine - Read and search your old tweets.
f:id:tetsuyaimagawa:20170726175927p:plain

All My Tweets

  • 無料
  • 3,000ツイート取れる
  • RTと返信隠せる

All My Tweets - View all your tweets on one page.
f:id:tetsuyaimagawa:20170726180044p:plain

Export Tweet

  • $30かかる

Twitter Analytics and Hashtag Tracking by ExportTweet

というわけで、All My Tweetsを用いる。
日付とか邪魔なので、最初の空白が現れたところで以下を切り捨てた。


Twitterの発言を分類する

つぶやき数や性別っぽさを鑑み、下記お二人のデータを学習データとした

武井壮を分類0, 広瀬すずを分類1として、学習データを食わせる。
f:id:tetsuyaimagawa:20170726190926p:plain

学習する

下記のコードを拝借し、魔改造させていただきました。
github.com




〜学習開始〜




f:id:tetsuyaimagawa:20170726194135p:plain





長い・・・





火を噴きそうなMacbook Air








悠久の刻が流れてもまだepoch 1 (進捗1%)







これ以上機械学習をするなら、環境を整えたほうがよいのではないか…







気を取り直して、一旦学習データ50くらいのepoch 10でやってみよう。






〜学習完了〜





テスト

テストには、先ほど揉めていたお二人のデータを使わせていただきました。

  • たそがれの仮想通貨女子さん
  • 仮想通貨な女子大生さん

f:id:tetsuyaimagawa:20170726195021p:plain
f:id:tetsuyaimagawa:20170726195027p:plain


全発言における、女性の発言と分類されたものの割合をスコアとする。


結果



たそがれの仮想通貨女子さん








f:id:tetsuyaimagawa:20170726195455p:plain







15.9点








仮想通貨な女子大生さん








f:id:tetsuyaimagawa:20170726195616p:plain









16.6点









どちらも広瀬すずちゃんとは程遠いことが判明した。q.e.d


今後の取り組み

Macbook Air