Twitterって、TLにがんがんツイートが流れ、読むの大変ですよね。
1日がそれで終わってしまう。
そこで!
1時間、1日毎に、あなたにとって必要な10ツイートを厳選する
Twitterまとめ機能を、作ってみました。
●新技術TF-IDF(Twitter & FaceBook Important Data factor)機能により、ツイート中、特徴のある言葉を得点化、
●それと、発言者の個人的VIP度を掛け合わせた、TIS(Twitter Important Score)という得点を求め、
●その得点の高得点のツイートを10個表示するという仕組みです。
具体的には、こんなかんじです。
■手順
・TwitterのAPIを使って、1時間ごとに、TLに流れるツイートをあつめます。
フォローしている人のAPIをとってきて、
そのフォローしている人のツイートを全部取ってくる
・それをSenで形態素解析する。
その結果、名詞だけをとってくる。★
・★の機能を毎時間ごとに行い、そこで出てきた単語をデータベース化、出現数をカウントしている。○
・○のデータベースの単語をYAHOO(のAPI)で検索し、その出現回数のところを取ってくる。▽
・単語を得点化する。得点方法は、
その単語の出現回数 190億(YAHOOの単語の総和らしい) ----------------------- * -------------------------------------- 全単語の出現回数の総和 YAHOOでのその単語の出現回数(=▽)
これを、単語特徴度数と呼ぶことにする
・新技術TF-IDF(Twitter & FaceBook Important Data factor)値を求める
各ツイートにおいて、特徴単語度数の総和をもとめる。
つまり、ツイート中に特徴語があったら(これは、形態素解析しているので分かる)その
特徴単語度数を掛け、その総和を求める
・フォロワーのVIP度を求める
フォロワー各人の全ツイートのTF-IDFの平均をもとめ、これをVIP度とする
・TIS(Twitter Important Score)をもとめる
全ツイートに対して
VIP度*TF-IDFを求め、それをTISとする
・TIS上位10個を表示する。
なお、1時間ごとに10個のツイートを厳選し、1日のおわりに、厳選ツイートのなかから、高得点の10ツイートを選んで、
1日の厳選ツイートとする。
現在excel版を開発したので、GAE/J版も開発。公開予定。
きょうは、4月1日です。