2012年 - ツイート集計!
Updated:
2012年の Twitter でのツイートを Ruby で集計してみました。
当方は、ツイートは全て自宅サーバ(CentOS)上のデータベース(MySQL)に保存しています。
(実際には1時間に1回 Ruby + Twitter API で本家からデータを取得して保存)
ほとんど SQL で集計可能でした。
品詞・単語別集計は形態素解析エンジン MeCab を使用しました。
集計内容は以下のとおり。
- 月別ツイート数
- 曜日別ツイート数
- 時間別ツイート数
- 文字数別ツイート数
- 1日当たりツイート数別集計
- 品詞別出現回数
- 単語別出現回数
1. 月別ツイート数
[ 年 月 ] [件数] [ 比 率 ]
2012年01月 177 ( 5.24%)
2012年02月 179 ( 5.30%)
2012年03月 239 ( 7.08%)
2012年04月 260 ( 7.70%)
2012年05月 457 ( 13.54%)
2012年06月 272 ( 8.06%)
2012年07月 300 ( 8.89%)
2012年08月 300 ( 8.89%)
2012年09月 243 ( 7.20%)
2012年10月 343 ( 10.16%)
2012年11月 305 ( 9.03%)
2012年12月 301 ( 8.92%)
[ 合 計 ] 3,376 (100.00%)
多少のバラつきはありました。
2. 曜日別ツイート数
[ 曜 日 ] [件数] [ 比 率 ]
日曜日 493 ( 14.60%)
月曜日 448 ( 13.27%)
火曜日 489 ( 14.48%)
水曜日 478 ( 14.16%)
木曜日 510 ( 15.11%)
金曜日 476 ( 14.10%)
土曜日 482 ( 14.28%)
[ 合 計 ] 3,376 (100.00%)
曜日によって異なることはほとんど無かったようだ。
3. 時間別ツイート数
[ 時 間 ] [件数] [ 比 率 ]
00時台 858 ( 25.41%)
01時台 7 ( 0.21%)
02時台 2 ( 0.06%)
07時台 1 ( 0.03%)
08時台 1 ( 0.03%)
10時台 1 ( 0.03%)
11時台 5 ( 0.15%)
12時台 1 ( 0.03%)
15時台 5 ( 0.15%)
16時台 2 ( 0.06%)
17時台 15 ( 0.44%)
18時台 383 ( 11.34%)
19時台 888 ( 26.30%)
20時台 524 ( 15.52%)
21時台 352 ( 10.43%)
22時台 188 ( 5.57%)
23時台 143 ( 4.24%)
[ 合 計 ] 3,376 (100.00%)
通常のツイートは 19, 20 時台が多い。00 時台はこよみ等の自動ツイートとブログ投稿通知がほとんど。
4. 文字数別ツイート数
[ 文字数 ] [件数] [ 比 率 ]
〜 10文字 6 ( 0.18%)
〜 20文字 51 ( 1.51%)
〜 30文字 129 ( 3.82%)
〜 40文字 228 ( 6.75%)
〜 50文字 358 ( 10.60%)
〜 60文字 412 ( 12.20%)
〜 70文字 351 ( 10.40%)
〜 80文字 388 ( 11.49%)
〜 90文字 543 ( 16.08%)
〜100文字 235 ( 6.96%)
〜110文字 172 ( 5.09%)
〜120文字 109 ( 3.23%)
〜130文字 92 ( 2.73%)
〜140文字 300 ( 8.89%)
〜150文字 2 ( 0.06%)
[ 合 計 ] 3,376 (100.00%)
文字数の少なすぎるツイートはあまりない。
(140文字を超えるツイートが存在するのは、ツイート時に BitLy 短縮の URL だったのが Twitter API で取得し直すと Twitter 標準の t.co 短縮になり文字数が変わるため)
5. 1日当たりツイート数別集計
[ Tweets ] [日数] [ 比 率 ]
3 6 ( 1.64%)
4 8 ( 2.19%)
5 28 ( 7.65%)
6 40 ( 10.93%)
7 40 ( 10.93%)
8 58 ( 15.85%)
9 43 ( 11.75%)
10 37 ( 10.11%)
11 31 ( 8.47%)
12 15 ( 4.10%)
13 11 ( 3.01%)
14 10 ( 2.73%)
15 22 ( 6.01%)
16 4 ( 1.09%)
17 3 ( 0.82%)
18 5 ( 1.37%)
19 2 ( 0.55%)
22 2 ( 0.55%)
24 1 ( 0.27%)
[ 合 計 ] 366 (100.00%)
大体、1日に8ツイート前後が多いようだ。
6. 品詞別出現回数
形態素解析エンジン MeCab を使用して品詞別に集計してみた。
[ 品詞 ] [ 出現回数 ]
名詞 74,859
助詞 26,707
記号 20,616
動詞 10,809
助動詞 6,700
副詞 1,564
形容詞 1,351
接頭詞 1,139
連体詞 411
接続詞 286
感動詞 88
フィラー 17
[ 合 計 ] 144,547 語
当然ながら、名詞が多い。フィラーとは「えーと」、「あのー」のような、文と文の間を埋めるような単語のこと。
集計してみて、全体的に「こういうものなんだ」と実感した次第。
7. 単語別出現回数
1年間に出現した単語を集計してみた。(100回以上出現した単語を掲載)
[ 単語 ] [ 品詞 ] [ 出現回数 ]
の 助詞 6,038
。 記号 4,631
: 名詞 3,490
が 助詞 2,832
▼ 記号 2,830
、 記号 2,756
に 助詞 2,539
は 助詞 2,539
て 助詞 2,238
た 助動詞 2,121
「 記号 1,861
/ 名詞 1,860
」 記号 1,824
. 名詞 1,812
月 名詞 1,621
で 助詞 1,620
と 助詞 1,541
を 助詞 1,519
日 名詞 1,517
! 記号 1,416
し 動詞 1,227
: 記号 1,196
t 名詞 1,176
co 名詞 1,173
http 名詞 1,172
:// 名詞 1,170
も 助詞 1,018
( 名詞 817
今日 名詞 809
】 記号 806
【 記号 806
から 助詞 770
だ 助動詞 770
いる 動詞 769
) 名詞 768
ね 助詞 728
ない 助動詞 720
# 名詞 674
です 助動詞 657
・ 記号 646
3 名詞 620
2012 名詞 619
? 記号 616
ツイート 名詞 581
自動 名詞 577
入 接頭詞 571
松江 名詞 569
南中 名詞 563
市 名詞 530
8 名詞 515
年 名詞 480
こと 名詞 469
い 動詞 465
する 動詞 465
の 名詞 461
な 助動詞 460
12 名詞 441
か 助詞 431
2 名詞 427
) 記号 423
( 記号 422
ある 動詞 421
よう 名詞 393
れ 動詞 381
さ 動詞 354
- 名詞 353
11 名詞 350
県 名詞 338
人 名詞 324
出 動詞 322
けど 助詞 314
旧暦 名詞 311
六 名詞 289
10 名詞 289
J 名詞 287
こよみ 名詞 284
月齢 名詞 284
" 名詞 284
日の出 名詞 284
干支 名詞 283
曜 名詞 283
KJ 名詞 281
なっ 動詞 256
時 名詞 253
島根 名詞 251
なる 動詞 250
9 名詞 248
だっ 助動詞 248
6 名詞 248
1 名詞 241
5 名詞 241
05 名詞 239
18 名詞 236
19 名詞 235
う 助動詞 232
で 助動詞 232
4 名詞 231
BLOG 名詞 231
AOFUnq 名詞 223
kDDe 名詞 223
1 名詞 215
17 名詞 203
や 助詞 201
20 名詞 201
思っ 動詞 198
7 名詞 196
16 名詞 193
という 助詞 191
たら 助動詞 190
13 名詞 189
matsue 名詞 186
等 名詞 181
06 名詞 181
て 動詞 180
Ruby 名詞 180
てる 動詞 179
だけ 助詞 173
14 名詞 165
04 名詞 164
日本 名詞 162
って 助詞 162
なく 助動詞 159
今 名詞 155
21 名詞 155
@ 名詞 150
23 名詞 149
shimane 名詞 149
のに 助詞 149
2 名詞 146
自分 名詞 144
あっ 動詞 139
ん 名詞 139
15 名詞 134
でしょ 助動詞 133
07 名詞 133
れる 動詞 133
0 名詞 133
方 名詞 126
ので 助詞 126
, 名詞 125
22 名詞 124
ない 形容詞 123
いい 形容詞 123
みたい 名詞 123
中 名詞 122
30 名詞 122
25 名詞 120
24 名詞 120
地震 名詞 119
的 名詞 118
08 名詞 117
ば 助詞 114
何 名詞 113
03 名詞 113
27 名詞 112
そう 名詞 110
へ 助詞 107
00 名詞 106
51 名詞 106
し 助詞 105
26 名詞 105
09 名詞 105
28 名詞 104
見 動詞 101
02 名詞 100
:
:
:
[ 合 計 ] 144,547 語
MeCab の仕様による分類なので、半角コロン :
は名詞になり、全角コロン :
は記号になったりと、非常に厳密な分類となっているのがわかる。
という訳で、昨年のツイートでの流行語は助詞の「の」でした。
この結果からもわかるように、今年も助詞の「の」になるでだろう。
名詞の中からそれらしい(流行語らしい)ものを選ぶとするなら、「今日」、「ツイート」、「松江」あたりでしょうか。
単純に数を集計するだけではなく、品詞別に集計するのも面白いものです。
ブログ記事はホームページで随時検索・参照できるようにしたりしているので、あらためて集計はしていません。
以上。
Comments