ブログ - 1,000 投稿を記念して集計!
Updated:
先日、2009年1月5日に当ブログを開設してから 1,000 ポスト目の記事を公開することができました。(ちなみに、この投稿は 1,024 ポスト目です)
毎月アクセス解析・集計して当ブログ投稿したり、ホームページでリアルタイムに閲覧できるようにしたりしていますが、今回は 1,000 ポストという節目なので少し別の視点で集計してみました。
個人的な記録ですので、興味がなければスルーしてください。
ちなみに、集計は Markdown で記載している全ての記事(テキスト)ファイルを Ruby で読み込んで集計しました。(形態素解析には “MeCab” を使用)
1. カテゴリ別投稿数
当ブログのサイドバーでも確認できるが再掲してみた。(投稿数の降順)
当ブログがどのような趣向なのかが分かる。
(当投稿は集計に含んでいなので、サイドバーの「ブログ」カテゴリの件数と1件だけ合わない)
| カテゴリ | 投稿数 |
|---|---|
| サーバ構築 | 332 |
| プログラミング | 262 |
| PC_Tips | 194 |
| ブログ | 177 |
| 数学 | 86 |
| ホームページ | 67 |
| 日々の話題 | 60 |
| 株式 | 51 |
| ロト6 | 43 |
| 自作PC | 35 |
| 玄箱 | 27 |
| SNS | 18 |
| ルービックキューブ | 5 |
2. タグ別投稿数
こちらも、当ブログのサイドバーでも確認できるが再掲してみた。(投稿数の降順)
当ブログがどのような趣向なのかが分かる。
(当投稿は集計に含んでいなので、サイドバーの “MeCab”, “Ruby” タグの件数と1件だけ合わない)
| タグ | 投稿数 |
|---|---|
| Ruby | 265 |
| Linux | 121 |
| WordPress | 102 |
| MySQL | 101 |
| Windows | 97 |
| CentOS | 79 |
| Fedora | 61 |
| Rails | 54 |
| Debian | 43 |
| C言語 | 39 |
| Octopress | 39 |
| ScientificLinux | 37 |
| LinuxMint | 34 |
| Cygwin | 31 |
| PHP | 26 |
| Apache | 24 |
| 23 | |
| 22 | |
| nanoc | 17 |
| Nginx | 17 |
| HTML | 13 |
| JavaScript | 12 |
| W3C | 11 |
| 10 | |
| CSS | 9 |
| レジストリ | 9 |
| Webカメラ | 9 |
| シェル | 8 |
| FreeBSD | 7 |
| Vim | 7 |
| VMware | 7 |
| Unix | 7 |
| 7 | |
| VisualBasic | 7 |
| Java | 6 |
| Markdown | 6 |
| カレンダー | 6 |
| アフィリエイト | 6 |
| Samba | 6 |
| SQLServer | 6 |
| P183 | 6 |
| Antec | 6 |
| Git | 6 |
| R | 6 |
| ウィルス対策 | 6 |
| 画像 | 6 |
| FTP | 6 |
| 正規表現 | 5 |
| Postfix | 5 |
| バッチ | 5 |
| XML | 5 |
| 端末 | 5 |
| Atom | 5 |
| SSH | 5 |
| VirtualBox | 5 |
| Feed | 5 |
| DNS | 4 |
| MariaDB | 4 |
| VisualC# | 4 |
| TEX | 4 |
| Unicorn | 4 |
| Intel | 4 |
| スパム対策 | 4 |
| jekyll | 3 |
| プラグイン | 3 |
| Excel | 3 |
| munin | 3 |
| D945GCLF | 3 |
| NTP | 3 |
| XHTML | 3 |
| Knoppix | 3 |
| tmux | 3 |
| VisualC++ | 3 |
| ASUS | 3 |
| GitHub | 2 |
| タグクラウド | 2 |
| Dovecot | 2 |
| bitly | 2 |
| Lokka | 2 |
| Yahoo | 2 |
| SMTP | 2 |
| OAuth | 2 |
| SEO | 2 |
| NFS | 2 |
| C# | 2 |
| Dirac | 2 |
| Noah | 2 |
| Fortran | 2 |
| Python | 2 |
| PXE | 2 |
| MeCab | 2 |
| Namazu | 1 |
| VBScript | 1 |
| FreeNAS | 1 |
| RedHatEnterpriseLinux | 1 |
| VisualStudio | 1 |
| Scala | 1 |
| SQL | 1 |
| エミュレータ | 1 |
| ENERMAX | 1 |
| atom | 1 |
| Perl | 1 |
| テスト | 1 |
| RSpec | 1 |
| Ubuntu | 1 |
| モバイル | 1 |
| 形態素解析 | 1 |
| Sinatra | 1 |
| TeX | 1 |
| Proxy | 1 |
| Core2Duo | 1 |
| Office | 1 |
| 物理 | 1 |
| SCYTHE | 1 |
| サーバ構築 | 1 |
| SSL | 1 |
| WebDeveloper | 1 |
| zsh | 1 |
| tDiary | 1 |
| Disqus | 1 |
| OGP | 1 |
| thin | 1 |
| ファイアウォール | 1 |
3. 本文行数別投稿数(空白行は除く)
1投稿当たりの行数(空白行は除く)別に集計。
170 行未満の投稿が多いようだ。
| 行数 | 投稿数 |
|---|---|
| 0〜9 | 21 |
| 10〜19 | 123 |
| 20〜29 | 154 |
| 30〜39 | 104 |
| 40〜49 | 77 |
| 50〜59 | 75 |
| 60〜69 | 58 |
| 70〜79 | 44 |
| 80〜89 | 47 |
| 90〜99 | 42 |
| 100〜109 | 26 |
| 110〜119 | 38 |
| 120〜129 | 29 |
| 130〜139 | 16 |
| 140〜149 | 24 |
| 150〜159 | 14 |
| 160〜169 | 20 |
| 170〜179 | 5 |
| 180〜189 | 8 |
| 190〜199 | 7 |
| 200〜209 | 6 |
| 210〜219 | 6 |
| 220〜229 | 5 |
| 230〜239 | 5 |
| 240〜249 | 3 |
| 250〜259 | 6 |
| 260〜269 | 3 |
| 270〜279 | 4 |
| 280〜289 | 2 |
| 290〜299 | 2 |
| 300〜309 | 2 |
| 310〜319 | 4 |
| 330〜339 | 1 |
| 350〜359 | 2 |
| 360〜369 | 3 |
| 370〜379 | 1 |
| 380〜389 | 1 |
| 390〜399 | 1 |
| 410〜419 | 3 |
| 420〜429 | 2 |
| 440〜449 | 2 |
| 460〜469 | 1 |
| 470〜479 | 4 |
| 480〜489 | 1 |
| 490〜499 | 3 |
| 500〜509 | 2 |
| 520〜529 | 3 |
| 530〜539 | 3 |
| 540〜549 | 2 |
| 550〜559 | 2 |
| 560〜569 | 5 |
| 570〜579 | 1 |
| 600〜609 | 1 |
| 1430〜1439 | 1 |
4. 本文文字数別投稿数
1投稿当たりの文字数(改行は除く)別に集計。
300 〜 400 文字以上 3,000 〜 3,100 文字以内が多いようだ。
| 文字数 | 投稿数 |
|---|---|
| 100〜199 | 2 |
| 200〜299 | 4 |
| 300〜399 | 16 |
| 400〜499 | 36 |
| 500〜599 | 52 |
| 600〜699 | 44 |
| 700〜799 | 26 |
| 800〜899 | 29 |
| 900〜999 | 25 |
| 1000〜1099 | 18 |
| 1100〜1199 | 28 |
| 1200〜1299 | 19 |
| 1300〜1399 | 26 |
| 1400〜1499 | 26 |
| 1500〜1599 | 17 |
| 1600〜1699 | 23 |
| 1700〜1799 | 22 |
| 1800〜1899 | 21 |
| 1900〜1999 | 23 |
| 2000〜2099 | 21 |
| 2100〜2199 | 13 |
| 2200〜2299 | 21 |
| 2300〜2399 | 22 |
| 2400〜2499 | 12 |
| 2500〜2599 | 23 |
| 2600〜2699 | 18 |
| 2700〜2799 | 20 |
| 2800〜2899 | 21 |
| 2900〜2999 | 13 |
| 3000〜3099 | 24 |
| 3100〜3199 | 17 |
| 3200〜3299 | 12 |
| 3300〜3399 | 13 |
| 3400〜3499 | 15 |
| 3500〜3599 | 9 |
| 3600〜3699 | 10 |
| 3700〜3799 | 6 |
| 3800〜3899 | 15 |
| 3900〜3999 | 14 |
| 4000〜4099 | 12 |
| 4100〜4199 | 13 |
| 4200〜4299 | 3 |
| 4300〜4399 | 11 |
| 4400〜4499 | 4 |
| 4500〜4599 | 7 |
| 4600〜4699 | 11 |
| 4700〜4799 | 4 |
| 4800〜4899 | 10 |
| 4900〜4999 | 3 |
| 5000〜5099 | 7 |
| 5100〜5199 | 7 |
| 5200〜5299 | 11 |
| 5300〜5399 | 4 |
| 5400〜5499 | 4 |
| 5500〜5599 | 5 |
| 5600〜5699 | 2 |
| 5700〜5799 | 7 |
| 5800〜5899 | 2 |
| 5900〜5999 | 8 |
| 6000〜6099 | 1 |
| 6100〜6199 | 3 |
| 6200〜6299 | 6 |
| 6300〜6399 | 3 |
| 6400〜6499 | 3 |
| 6500〜6599 | 2 |
| 6600〜6699 | 4 |
| 6900〜6999 | 5 |
| 7000〜7099 | 2 |
| 7100〜7199 | 1 |
| 7200〜7299 | 1 |
| 7300〜7399 | 1 |
| 7400〜7499 | 1 |
| 7500〜7599 | 3 |
| 7600〜7699 | 2 |
| 7700〜7799 | 1 |
| 7800〜7899 | 1 |
| 7900〜7999 | 2 |
| 8100〜8199 | 3 |
| 8200〜8299 | 4 |
| 8300〜8399 | 2 |
| 8400〜8499 | 1 |
| 8500〜8599 | 1 |
| 8700〜8799 | 1 |
| 8900〜8999 | 1 |
| 9000〜9099 | 1 |
| 9300〜9399 | 2 |
| 9400〜9499 | 2 |
| 9600〜9699 | 1 |
| 9700〜9799 | 1 |
| 10000〜10099 | 3 |
| 10100〜10199 | 2 |
| 10200〜10299 | 3 |
| 10300〜10399 | 3 |
| 10400〜10499 | 2 |
| 10500〜10599 | 2 |
| 10700〜10799 | 4 |
| 10800〜10899 | 3 |
| 10900〜10999 | 4 |
| 11000〜11099 | 4 |
| 11200〜11299 | 2 |
| 11400〜11499 | 3 |
| 11600〜11699 | 1 |
| 12000〜12099 | 1 |
| 12100〜12199 | 1 |
| 12200〜12299 | 2 |
| 12400〜12499 | 1 |
| 13000〜13099 | 1 |
| 13300〜13399 | 1 |
| 13400〜13499 | 1 |
| 13500〜13599 | 1 |
| 13900〜13999 | 1 |
| 14500〜14599 | 1 |
| 16300〜16399 | 1 |
| 17200〜17299 | 1 |
| 18100〜18199 | 1 |
| 18900〜18999 | 1 |
| 24800〜24899 | 1 |
5. 1投稿当たり単語数別集計
形態素解析による単語認識で、1投稿当たりの単語数を集計。
当然ながら、行数・文字数に比例した結果となった。
| 単語数 | 投稿数 |
|---|---|
| 0〜99 | 1 |
| 100〜199 | 28 |
| 200〜299 | 99 |
| 300〜399 | 67 |
| 400〜499 | 59 |
| 500〜599 | 76 |
| 600〜699 | 58 |
| 700〜799 | 56 |
| 800〜899 | 67 |
| 900〜999 | 51 |
| 1000〜1099 | 58 |
| 1100〜1199 | 45 |
| 1200〜1299 | 47 |
| 1300〜1399 | 42 |
| 1400〜1499 | 25 |
| 1500〜1599 | 32 |
| 1600〜1699 | 22 |
| 1700〜1799 | 23 |
| 1800〜1899 | 11 |
| 1900〜1999 | 11 |
| 2000〜2099 | 14 |
| 2100〜2199 | 11 |
| 2200〜2299 | 4 |
| 2300〜2399 | 13 |
| 2400〜2499 | 11 |
| 2500〜2599 | 5 |
| 2600〜2699 | 10 |
| 2700〜2799 | 4 |
| 2800〜2899 | 9 |
| 2900〜2999 | 5 |
| 3000〜3099 | 3 |
| 3100〜3199 | 2 |
| 3200〜3299 | 3 |
| 3300〜3399 | 4 |
| 3500〜3599 | 1 |
| 3600〜3699 | 2 |
| 3700〜3799 | 3 |
| 3800〜3899 | 5 |
| 3900〜3999 | 4 |
| 4000〜4099 | 8 |
| 4100〜4199 | 5 |
| 4200〜4299 | 7 |
| 4300〜4399 | 3 |
| 4400〜4499 | 2 |
| 4600〜4699 | 1 |
| 4800〜4899 | 1 |
| 4900〜4999 | 1 |
| 5000〜5099 | 1 |
| 5700〜5799 | 1 |
| 5900〜5999 | 1 |
| 6300〜6399 | 1 |
| 7100〜7199 | 1 |
| 9700〜9799 | 1 |
6. 品詞別出現回数
形態素解析による単語認識で、全投稿内の品詞別出現回数を集計。
やはり、「名詞」がダントツで多いようだ。(使用する形態素解析エンジンにもよるだろうが。当方は “MeCab” を使用)
| 品詞 | 出現回数 |
|---|---|
| 名詞 | 920,217 |
| 助詞 | 106,616 |
| 記号 | 71,021 |
| 動詞 | 50,886 |
| 助動詞 | 35,665 |
| 副詞 | 4,797 |
| 接頭詞 | 3,712 |
| 接続詞 | 3,568 |
| 連体詞 | 2,737 |
| 形容詞 | 2,673 |
| 感動詞 | 1,114 |
| フィラー | 73 |
7. 単語別出現回数
形態素解析による単語認識で、全投稿内の単語別(品詞別)出現回数を集計。
使用する形態素解析エンジンにもよるだろうが、判別がシビアなため上位に出現する単語は「単語」とは程遠いものだ。
また、単語別(品詞別)なので全部で 30,000 種類もあった。
| 単語 | 品詞 | 出現回数 |
|---|---|---|
| . | 名詞 | 35459 |
| - | 名詞 | 31402 |
| $gt; | 名詞 | 26001 |
| 。 | 記号 | 22796 |
| / | 名詞 | 22771 |
| td | 名詞 | 22198 |
| の | 助詞 | 18434 |
| _ | 名詞 | 17620 |
| < | 名詞 | 17171 |
| 、 | 記号 | 16372 |
| : | : | : |
参考
Ruby で形態素解析エンジン MeCab を使用する方法については、以下の過去記事を参照。
アクセス解析の観点での集計は、当方サイト「ブログ」メニューから確認できる。
「集計した結果がどう」というより、「集計する作業」自体が楽しかっただけのような気もします。
普段から行なっているアクセス解析の方が有用性が高いです。
以上。
Comments