2012年の Twitter でのツイートを Ruby で集計してみました。
当方は、ツイートは全て自宅サーバ(CentOS)上のデータベース(MySQL)に保存しています。
(実際には1時間に1回 Ruby + Twitter API で本家からデータを取得して保存)
ほとんど SQL で集計可能でした。
品詞・単語別集計は形態素解析エンジン MeCab を使用しました。
集計内容は以下のとおり。
- 月別ツイート数
- 曜日別ツイート数
- 時間別ツイート数
- 文字数別ツイート数
- 1日当たりツイート数別集計
- 品詞別出現回数
- 単語別出現回数
1. 月別ツイート数
1
2
3
4
5
6
7
8
9
10
11
12
13
14
| [ 年 月 ] [件数] [ 比 率 ]
2012年01月 177 ( 5.24%)
2012年02月 179 ( 5.30%)
2012年03月 239 ( 7.08%)
2012年04月 260 ( 7.70%)
2012年05月 457 ( 13.54%)
2012年06月 272 ( 8.06%)
2012年07月 300 ( 8.89%)
2012年08月 300 ( 8.89%)
2012年09月 243 ( 7.20%)
2012年10月 343 ( 10.16%)
2012年11月 305 ( 9.03%)
2012年12月 301 ( 8.92%)
[ 合 計 ] 3,376 (100.00%)
|
多少のバラつきはありました。
2. 曜日別ツイート数
1
2
3
4
5
6
7
8
9
| [ 曜 日 ] [件数] [ 比 率 ]
日曜日 493 ( 14.60%)
月曜日 448 ( 13.27%)
火曜日 489 ( 14.48%)
水曜日 478 ( 14.16%)
木曜日 510 ( 15.11%)
金曜日 476 ( 14.10%)
土曜日 482 ( 14.28%)
[ 合 計 ] 3,376 (100.00%)
|
曜日によって異なることはほとんど無かったようだ。
3. 時間別ツイート数
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
| [ 時 間 ] [件数] [ 比 率 ]
00時台 858 ( 25.41%)
01時台 7 ( 0.21%)
02時台 2 ( 0.06%)
07時台 1 ( 0.03%)
08時台 1 ( 0.03%)
10時台 1 ( 0.03%)
11時台 5 ( 0.15%)
12時台 1 ( 0.03%)
15時台 5 ( 0.15%)
16時台 2 ( 0.06%)
17時台 15 ( 0.44%)
18時台 383 ( 11.34%)
19時台 888 ( 26.30%)
20時台 524 ( 15.52%)
21時台 352 ( 10.43%)
22時台 188 ( 5.57%)
23時台 143 ( 4.24%)
[ 合 計 ] 3,376 (100.00%)
|
通常のツイートは 19, 20 時台が多い。00 時台はこよみ等の自動ツイートとブログ投稿通知がほとんど。
4. 文字数別ツイート数
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
| [ 文字数 ] [件数] [ 比 率 ]
〜 10文字 6 ( 0.18%)
〜 20文字 51 ( 1.51%)
〜 30文字 129 ( 3.82%)
〜 40文字 228 ( 6.75%)
〜 50文字 358 ( 10.60%)
〜 60文字 412 ( 12.20%)
〜 70文字 351 ( 10.40%)
〜 80文字 388 ( 11.49%)
〜 90文字 543 ( 16.08%)
〜100文字 235 ( 6.96%)
〜110文字 172 ( 5.09%)
〜120文字 109 ( 3.23%)
〜130文字 92 ( 2.73%)
〜140文字 300 ( 8.89%)
〜150文字 2 ( 0.06%)
[ 合 計 ] 3,376 (100.00%)
|
文字数の少なすぎるツイートはあまりない。
(140文字を超えるツイートが存在するのは、ツイート時に BitLy 短縮の URL だったのが Twitter API で取得し直すと Twitter 標準の t.co 短縮になり文字数が変わるため)
5. 1日当たりツイート数別集計
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
| [ Tweets ] [日数] [ 比 率 ]
3 6 ( 1.64%)
4 8 ( 2.19%)
5 28 ( 7.65%)
6 40 ( 10.93%)
7 40 ( 10.93%)
8 58 ( 15.85%)
9 43 ( 11.75%)
10 37 ( 10.11%)
11 31 ( 8.47%)
12 15 ( 4.10%)
13 11 ( 3.01%)
14 10 ( 2.73%)
15 22 ( 6.01%)
16 4 ( 1.09%)
17 3 ( 0.82%)
18 5 ( 1.37%)
19 2 ( 0.55%)
22 2 ( 0.55%)
24 1 ( 0.27%)
[ 合 計 ] 366 (100.00%)
|
大体、1日に8ツイート前後が多いようだ。
6. 品詞別出現回数
形態素解析エンジン MeCab を使用して品詞別に集計してみた。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
| [ 品詞 ] [ 出現回数 ]
名詞 74,859
助詞 26,707
記号 20,616
動詞 10,809
助動詞 6,700
副詞 1,564
形容詞 1,351
接頭詞 1,139
連体詞 411
接続詞 286
感動詞 88
フィラー 17
[ 合 計 ] 144,547 語
|
当然ながら、名詞が多い。フィラーとは「えーと」、「あのー」のような、文と文の間を埋めるような単語のこと。
集計してみて、全体的に「こういうものなんだ」と実感した次第。
7. 単語別出現回数
1年間に出現した単語を集計してみた。(100回以上出現した単語を掲載)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
| [ 単語 ] [ 品詞 ] [ 出現回数 ]
の 助詞 6,038
。 記号 4,631
: 名詞 3,490
が 助詞 2,832
▼ 記号 2,830
、 記号 2,756
に 助詞 2,539
は 助詞 2,539
て 助詞 2,238
た 助動詞 2,121
「 記号 1,861
/ 名詞 1,860
」 記号 1,824
. 名詞 1,812
月 名詞 1,621
で 助詞 1,620
と 助詞 1,541
を 助詞 1,519
日 名詞 1,517
! 記号 1,416
し 動詞 1,227
: 記号 1,196
t 名詞 1,176
co 名詞 1,173
http 名詞 1,172
:// 名詞 1,170
も 助詞 1,018
( 名詞 817
今日 名詞 809
】 記号 806
【 記号 806
から 助詞 770
だ 助動詞 770
いる 動詞 769
) 名詞 768
ね 助詞 728
ない 助動詞 720
# 名詞 674
です 助動詞 657
・ 記号 646
3 名詞 620
2012 名詞 619
? 記号 616
ツイート 名詞 581
自動 名詞 577
入 接頭詞 571
松江 名詞 569
南中 名詞 563
市 名詞 530
8 名詞 515
年 名詞 480
こと 名詞 469
い 動詞 465
する 動詞 465
の 名詞 461
な 助動詞 460
12 名詞 441
か 助詞 431
2 名詞 427
) 記号 423
( 記号 422
ある 動詞 421
よう 名詞 393
れ 動詞 381
さ 動詞 354
- 名詞 353
11 名詞 350
県 名詞 338
人 名詞 324
出 動詞 322
けど 助詞 314
旧暦 名詞 311
六 名詞 289
10 名詞 289
J 名詞 287
こよみ 名詞 284
月齢 名詞 284
" 名詞 284
日の出 名詞 284
干支 名詞 283
曜 名詞 283
KJ 名詞 281
なっ 動詞 256
時 名詞 253
島根 名詞 251
なる 動詞 250
9 名詞 248
だっ 助動詞 248
6 名詞 248
1 名詞 241
5 名詞 241
05 名詞 239
18 名詞 236
19 名詞 235
う 助動詞 232
で 助動詞 232
4 名詞 231
BLOG 名詞 231
AOFUnq 名詞 223
kDDe 名詞 223
1 名詞 215
17 名詞 203
や 助詞 201
20 名詞 201
思っ 動詞 198
7 名詞 196
16 名詞 193
という 助詞 191
たら 助動詞 190
13 名詞 189
matsue 名詞 186
等 名詞 181
06 名詞 181
て 動詞 180
Ruby 名詞 180
てる 動詞 179
だけ 助詞 173
14 名詞 165
04 名詞 164
日本 名詞 162
って 助詞 162
なく 助動詞 159
今 名詞 155
21 名詞 155
@ 名詞 150
23 名詞 149
shimane 名詞 149
のに 助詞 149
2 名詞 146
自分 名詞 144
あっ 動詞 139
ん 名詞 139
15 名詞 134
でしょ 助動詞 133
07 名詞 133
れる 動詞 133
0 名詞 133
方 名詞 126
ので 助詞 126
, 名詞 125
22 名詞 124
ない 形容詞 123
いい 形容詞 123
みたい 名詞 123
中 名詞 122
30 名詞 122
25 名詞 120
24 名詞 120
地震 名詞 119
的 名詞 118
08 名詞 117
ば 助詞 114
何 名詞 113
03 名詞 113
27 名詞 112
そう 名詞 110
へ 助詞 107
00 名詞 106
51 名詞 106
し 助詞 105
26 名詞 105
09 名詞 105
28 名詞 104
見 動詞 101
02 名詞 100
:
:
:
[ 合 計 ] 144,547 語
|
MeCab の仕様による分類なので、半角コロン :
は名詞になり、全角コロン :
は記号になったりと、非常に厳密な分類となっているのがわかる。
という訳で、昨年のツイートでの流行語は助詞の「の」でした。
この結果からもわかるように、今年も助詞の「の」になるでだろう。
名詞の中からそれらしい(流行語らしい)ものを選ぶとするなら、「今日」、「ツイート」、「松江」あたりでしょうか。
単純に数を集計するだけではなく、品詞別に集計するのも面白いものです。
ブログ記事はホームページで随時検索・参照できるようにしたりしているので、あらためて集計はしていません。
以上。