プログラミングはじめました!みたいなアカウントって半年後には結構消えてますね。
どういう人がプログラミング続くのか気になったのでちゃんと調べてみようと思いました。
それぞれのアカウントの全ツイートをTFIDFなどで特徴ベクトルに変換して機械学習で分類させればそれなりに精度が出るのは簡単なモデル作ってわかっているのでそれは後回しにして、まずはボキャブラリ数やURLの数などから見ていきます。
目次
データの内訳
3ヶ月以上更新がない人を「続いていない」、そうでない人を「続いている」データとしています。内訳は75:75です。データ数かなり少ないですが、人力で集めたので許してください。。。
使ったライブラリなど
形態素解析にはjanome、分類器は主にsklearnを使っています。コードは一通り終わったら公開します。
仮説1 プログラミング続かない人は1ツイート平均のボキャブラリが貧弱?
左が続く、右が続かない人の1ツイート平均のボキャブラリ数のグラフです。
多少続く人の方が平均・中央値が高いです。この数値を閾値して分類してみたが51%程度とほとんど意味なし。
強い人でもにゃーんとか意味不明なこと言っているのが多いこともあるからかも。
仮説2 続かない人は紹介文の単語ボキャブラリが貧弱?
左が続く、右が続かない人です。強い人でも肩書き多かったり簡潔だったりあるので当然ですね。
これはバラバラで傾向はなさそう。強いて言えば続く方が分散が小さいくらいか。
仮説3 URL多い人は続かない?
左が続く、右が続かない人です。意外にも?URL多い人が続くっぽいです。意味のあるURLをシェアしている=技術あるみたいな感じなのか。
1ツイートにURLが出現する確率を閾値にすると60%程度で分類可能です。
仮説4 リプライ多い人の方が続く?
左が続く、右が続かない人です。リプライ多い方が続くっぽい。
ツイートがリプライの確率を閾値にすると53%程度でした。
仮説5 リツイートが多い人の方が続く?
左が続く、右が続かない人です。リツイート多い方が続くっぽいですね。
続かない人のリツイートがかなり少ない。URLと同様、意味のあるツイートをリツイートしている=技術ある的な感じなのか。
ツイートがリツイートの確率を閾値にすると61.5%程度で分類できます。
これらの仮説を使って推論してみる
紹介文の語彙は意味がないので、ツイートのボキャブラリ、URL出現率、リプライ率、リツイート率を使ってランダムフォレストで分類してみます。
結果は63.9%でした。
特徴量の重要度は以下の通りです。
- ツイートのボキャブラリ:約0.233
- URL出現率:約0.378
- リプライ率:約0.151
- リツイート率:約0.238
これらの特徴量ではこのくらいが限界ですね。
次回はURL・リツイートの割合を見ていきます。