ブログ - 1,000 投稿を記念して集計!
Updated:
先日、2009年1月5日に当ブログを開設してから 1,000 ポスト目の記事を公開することができました。(ちなみに、この投稿は 1,024 ポスト目です)
毎月アクセス解析・集計して当ブログ投稿したり、ホームページでリアルタイムに閲覧できるようにしたりしていますが、今回は 1,000 ポストという節目なので少し別の視点で集計してみました。
個人的な記録ですので、興味がなければスルーしてください。
ちなみに、集計は Markdown で記載している全ての記事(テキスト)ファイルを Ruby で読み込んで集計しました。(形態素解析には “MeCab” を使用)
1. カテゴリ別投稿数
当ブログのサイドバーでも確認できるが再掲してみた。(投稿数の降順)
当ブログがどのような趣向なのかが分かる。
(当投稿は集計に含んでいなので、サイドバーの「ブログ」カテゴリの件数と1件だけ合わない)
カテゴリ | 投稿数 |
---|---|
サーバ構築 | 332 |
プログラミング | 262 |
PC_Tips | 194 |
ブログ | 177 |
数学 | 86 |
ホームページ | 67 |
日々の話題 | 60 |
株式 | 51 |
ロト6 | 43 |
自作PC | 35 |
玄箱 | 27 |
SNS | 18 |
ルービックキューブ | 5 |
2. タグ別投稿数
こちらも、当ブログのサイドバーでも確認できるが再掲してみた。(投稿数の降順)
当ブログがどのような趣向なのかが分かる。
(当投稿は集計に含んでいなので、サイドバーの “MeCab”, “Ruby” タグの件数と1件だけ合わない)
タグ | 投稿数 |
---|---|
Ruby | 265 |
Linux | 121 |
WordPress | 102 |
MySQL | 101 |
Windows | 97 |
CentOS | 79 |
Fedora | 61 |
Rails | 54 |
Debian | 43 |
C言語 | 39 |
Octopress | 39 |
ScientificLinux | 37 |
LinuxMint | 34 |
Cygwin | 31 |
PHP | 26 |
Apache | 24 |
23 | |
22 | |
nanoc | 17 |
Nginx | 17 |
HTML | 13 |
JavaScript | 12 |
W3C | 11 |
10 | |
CSS | 9 |
レジストリ | 9 |
Webカメラ | 9 |
シェル | 8 |
FreeBSD | 7 |
Vim | 7 |
VMware | 7 |
Unix | 7 |
7 | |
VisualBasic | 7 |
Java | 6 |
Markdown | 6 |
カレンダー | 6 |
アフィリエイト | 6 |
Samba | 6 |
SQLServer | 6 |
P183 | 6 |
Antec | 6 |
Git | 6 |
R | 6 |
ウィルス対策 | 6 |
画像 | 6 |
FTP | 6 |
正規表現 | 5 |
Postfix | 5 |
バッチ | 5 |
XML | 5 |
端末 | 5 |
Atom | 5 |
SSH | 5 |
VirtualBox | 5 |
Feed | 5 |
DNS | 4 |
MariaDB | 4 |
VisualC# | 4 |
TEX | 4 |
Unicorn | 4 |
Intel | 4 |
スパム対策 | 4 |
jekyll | 3 |
プラグイン | 3 |
Excel | 3 |
munin | 3 |
D945GCLF | 3 |
NTP | 3 |
XHTML | 3 |
Knoppix | 3 |
tmux | 3 |
VisualC++ | 3 |
ASUS | 3 |
GitHub | 2 |
タグクラウド | 2 |
Dovecot | 2 |
bitly | 2 |
Lokka | 2 |
Yahoo | 2 |
SMTP | 2 |
OAuth | 2 |
SEO | 2 |
NFS | 2 |
C# | 2 |
Dirac | 2 |
Noah | 2 |
Fortran | 2 |
Python | 2 |
PXE | 2 |
MeCab | 2 |
Namazu | 1 |
VBScript | 1 |
FreeNAS | 1 |
RedHatEnterpriseLinux | 1 |
VisualStudio | 1 |
Scala | 1 |
SQL | 1 |
エミュレータ | 1 |
ENERMAX | 1 |
atom | 1 |
Perl | 1 |
テスト | 1 |
RSpec | 1 |
Ubuntu | 1 |
モバイル | 1 |
形態素解析 | 1 |
Sinatra | 1 |
TeX | 1 |
Proxy | 1 |
Core2Duo | 1 |
Office | 1 |
物理 | 1 |
SCYTHE | 1 |
サーバ構築 | 1 |
SSL | 1 |
WebDeveloper | 1 |
zsh | 1 |
tDiary | 1 |
Disqus | 1 |
OGP | 1 |
thin | 1 |
ファイアウォール | 1 |
3. 本文行数別投稿数(空白行は除く)
1投稿当たりの行数(空白行は除く)別に集計。
170 行未満の投稿が多いようだ。
行数 | 投稿数 |
---|---|
0〜9 | 21 |
10〜19 | 123 |
20〜29 | 154 |
30〜39 | 104 |
40〜49 | 77 |
50〜59 | 75 |
60〜69 | 58 |
70〜79 | 44 |
80〜89 | 47 |
90〜99 | 42 |
100〜109 | 26 |
110〜119 | 38 |
120〜129 | 29 |
130〜139 | 16 |
140〜149 | 24 |
150〜159 | 14 |
160〜169 | 20 |
170〜179 | 5 |
180〜189 | 8 |
190〜199 | 7 |
200〜209 | 6 |
210〜219 | 6 |
220〜229 | 5 |
230〜239 | 5 |
240〜249 | 3 |
250〜259 | 6 |
260〜269 | 3 |
270〜279 | 4 |
280〜289 | 2 |
290〜299 | 2 |
300〜309 | 2 |
310〜319 | 4 |
330〜339 | 1 |
350〜359 | 2 |
360〜369 | 3 |
370〜379 | 1 |
380〜389 | 1 |
390〜399 | 1 |
410〜419 | 3 |
420〜429 | 2 |
440〜449 | 2 |
460〜469 | 1 |
470〜479 | 4 |
480〜489 | 1 |
490〜499 | 3 |
500〜509 | 2 |
520〜529 | 3 |
530〜539 | 3 |
540〜549 | 2 |
550〜559 | 2 |
560〜569 | 5 |
570〜579 | 1 |
600〜609 | 1 |
1430〜1439 | 1 |
4. 本文文字数別投稿数
1投稿当たりの文字数(改行は除く)別に集計。
300 〜 400 文字以上 3,000 〜 3,100 文字以内が多いようだ。
文字数 | 投稿数 |
---|---|
100〜199 | 2 |
200〜299 | 4 |
300〜399 | 16 |
400〜499 | 36 |
500〜599 | 52 |
600〜699 | 44 |
700〜799 | 26 |
800〜899 | 29 |
900〜999 | 25 |
1000〜1099 | 18 |
1100〜1199 | 28 |
1200〜1299 | 19 |
1300〜1399 | 26 |
1400〜1499 | 26 |
1500〜1599 | 17 |
1600〜1699 | 23 |
1700〜1799 | 22 |
1800〜1899 | 21 |
1900〜1999 | 23 |
2000〜2099 | 21 |
2100〜2199 | 13 |
2200〜2299 | 21 |
2300〜2399 | 22 |
2400〜2499 | 12 |
2500〜2599 | 23 |
2600〜2699 | 18 |
2700〜2799 | 20 |
2800〜2899 | 21 |
2900〜2999 | 13 |
3000〜3099 | 24 |
3100〜3199 | 17 |
3200〜3299 | 12 |
3300〜3399 | 13 |
3400〜3499 | 15 |
3500〜3599 | 9 |
3600〜3699 | 10 |
3700〜3799 | 6 |
3800〜3899 | 15 |
3900〜3999 | 14 |
4000〜4099 | 12 |
4100〜4199 | 13 |
4200〜4299 | 3 |
4300〜4399 | 11 |
4400〜4499 | 4 |
4500〜4599 | 7 |
4600〜4699 | 11 |
4700〜4799 | 4 |
4800〜4899 | 10 |
4900〜4999 | 3 |
5000〜5099 | 7 |
5100〜5199 | 7 |
5200〜5299 | 11 |
5300〜5399 | 4 |
5400〜5499 | 4 |
5500〜5599 | 5 |
5600〜5699 | 2 |
5700〜5799 | 7 |
5800〜5899 | 2 |
5900〜5999 | 8 |
6000〜6099 | 1 |
6100〜6199 | 3 |
6200〜6299 | 6 |
6300〜6399 | 3 |
6400〜6499 | 3 |
6500〜6599 | 2 |
6600〜6699 | 4 |
6900〜6999 | 5 |
7000〜7099 | 2 |
7100〜7199 | 1 |
7200〜7299 | 1 |
7300〜7399 | 1 |
7400〜7499 | 1 |
7500〜7599 | 3 |
7600〜7699 | 2 |
7700〜7799 | 1 |
7800〜7899 | 1 |
7900〜7999 | 2 |
8100〜8199 | 3 |
8200〜8299 | 4 |
8300〜8399 | 2 |
8400〜8499 | 1 |
8500〜8599 | 1 |
8700〜8799 | 1 |
8900〜8999 | 1 |
9000〜9099 | 1 |
9300〜9399 | 2 |
9400〜9499 | 2 |
9600〜9699 | 1 |
9700〜9799 | 1 |
10000〜10099 | 3 |
10100〜10199 | 2 |
10200〜10299 | 3 |
10300〜10399 | 3 |
10400〜10499 | 2 |
10500〜10599 | 2 |
10700〜10799 | 4 |
10800〜10899 | 3 |
10900〜10999 | 4 |
11000〜11099 | 4 |
11200〜11299 | 2 |
11400〜11499 | 3 |
11600〜11699 | 1 |
12000〜12099 | 1 |
12100〜12199 | 1 |
12200〜12299 | 2 |
12400〜12499 | 1 |
13000〜13099 | 1 |
13300〜13399 | 1 |
13400〜13499 | 1 |
13500〜13599 | 1 |
13900〜13999 | 1 |
14500〜14599 | 1 |
16300〜16399 | 1 |
17200〜17299 | 1 |
18100〜18199 | 1 |
18900〜18999 | 1 |
24800〜24899 | 1 |
5. 1投稿当たり単語数別集計
形態素解析による単語認識で、1投稿当たりの単語数を集計。
当然ながら、行数・文字数に比例した結果となった。
単語数 | 投稿数 |
---|---|
0〜99 | 1 |
100〜199 | 28 |
200〜299 | 99 |
300〜399 | 67 |
400〜499 | 59 |
500〜599 | 76 |
600〜699 | 58 |
700〜799 | 56 |
800〜899 | 67 |
900〜999 | 51 |
1000〜1099 | 58 |
1100〜1199 | 45 |
1200〜1299 | 47 |
1300〜1399 | 42 |
1400〜1499 | 25 |
1500〜1599 | 32 |
1600〜1699 | 22 |
1700〜1799 | 23 |
1800〜1899 | 11 |
1900〜1999 | 11 |
2000〜2099 | 14 |
2100〜2199 | 11 |
2200〜2299 | 4 |
2300〜2399 | 13 |
2400〜2499 | 11 |
2500〜2599 | 5 |
2600〜2699 | 10 |
2700〜2799 | 4 |
2800〜2899 | 9 |
2900〜2999 | 5 |
3000〜3099 | 3 |
3100〜3199 | 2 |
3200〜3299 | 3 |
3300〜3399 | 4 |
3500〜3599 | 1 |
3600〜3699 | 2 |
3700〜3799 | 3 |
3800〜3899 | 5 |
3900〜3999 | 4 |
4000〜4099 | 8 |
4100〜4199 | 5 |
4200〜4299 | 7 |
4300〜4399 | 3 |
4400〜4499 | 2 |
4600〜4699 | 1 |
4800〜4899 | 1 |
4900〜4999 | 1 |
5000〜5099 | 1 |
5700〜5799 | 1 |
5900〜5999 | 1 |
6300〜6399 | 1 |
7100〜7199 | 1 |
9700〜9799 | 1 |
6. 品詞別出現回数
形態素解析による単語認識で、全投稿内の品詞別出現回数を集計。
やはり、「名詞」がダントツで多いようだ。(使用する形態素解析エンジンにもよるだろうが。当方は “MeCab” を使用)
品詞 | 出現回数 |
---|---|
名詞 | 920,217 |
助詞 | 106,616 |
記号 | 71,021 |
動詞 | 50,886 |
助動詞 | 35,665 |
副詞 | 4,797 |
接頭詞 | 3,712 |
接続詞 | 3,568 |
連体詞 | 2,737 |
形容詞 | 2,673 |
感動詞 | 1,114 |
フィラー | 73 |
7. 単語別出現回数
形態素解析による単語認識で、全投稿内の単語別(品詞別)出現回数を集計。
使用する形態素解析エンジンにもよるだろうが、判別がシビアなため上位に出現する単語は「単語」とは程遠いものだ。
また、単語別(品詞別)なので全部で 30,000 種類もあった。
単語 | 品詞 | 出現回数 |
---|---|---|
. | 名詞 | 35459 |
- | 名詞 | 31402 |
$gt; | 名詞 | 26001 |
。 | 記号 | 22796 |
/ | 名詞 | 22771 |
td | 名詞 | 22198 |
の | 助詞 | 18434 |
_ | 名詞 | 17620 |
< | 名詞 | 17171 |
、 | 記号 | 16372 |
: | : | : |
参考
Ruby で形態素解析エンジン MeCab を使用する方法については、以下の過去記事を参照。
アクセス解析の観点での集計は、当方サイト「ブログ」メニューから確認できる。
「集計した結果がどう」というより、「集計する作業」自体が楽しかっただけのような気もします。
普段から行なっているアクセス解析の方が有用性が高いです。
以上。
Comments