Contents

人気ブログ記事のタイトルの決め方を参考にする

人気ブログの記事の研究とpythonによる形態素解析の勉強を兼ねて、よく読まれている記事のタイトルにどういう単語、キーワードがよく使われているか調べました。

あまり厳密にやっているわけではないので参考までに見ていただければと思います。

調査方法

集計対象

記事が人気かどうかを計るにはページビューを見るのが妥当だと思うのですが、各記事のPVを基準にランキングなどを公表しているサイトは見つけられませんでした。

ということで、私もお世話にはてなブログが公表している「はてなブログランキング」のデータを使うことにしました。

ブクマ数ランキング カテゴリーの記事一覧 - 週刊はてなブログ

はてなブログランキングとは

「はてなブログランキング」とは、はてなブログで公開されている記事をブックマーク数でランキングした順位です。(はてなブログMediaとはてなの公式ブログはランキングの対象外となっているようです。)

毎週更新されており、該当する週に最初のブックマークがついた記事が対象になります。

著者の分かる通常のブログは30位まで、はてな匿名ダイアリーは10位までのランキングが公開されています。

集計範囲

集計した範囲は2017年9月の第4週から2018年8月の第4週までの約1年分。

2017年末に「年間総合はてなブックマーク数ランキング トップ100」が公表されているので、それも合わせて対象としました。

記事数は2,000超ありました。

ランキングに同じ記事が複数回登場している場合もありそうでしたが、重複を除くのが面倒だったのでそのままカウントしています。

複数回登場しているものはそれだけ人気ということで2重にカウントしても大きな問題はないだろうと…。

解析手法

解析手法も説明しておきます。

ざっくり言うと、全ての記事のタイトルを「Janome」という解析エンジンを使って形態素解析し、それを集計するという方法をとりました。

形態素解析とは

文章を意味を持つ最小限の単位に分解して、それぞれの品詞を判別する解析方法のこと。 最小限の単位に分解されたものを形態素と言います。

実例を見てもらうほうがわかりやすいと思うので、「すもももももももものうち」という文章を形態素解析してみます。

結果はこちら。これを見ればなんとなく何をやってるかはわかりますよね。

表層形品詞活用型
すもも名詞一般
助詞係助詞
もも名詞一般
助詞係助詞
もも名詞一般
助詞連体化
うち名詞非自立

Janomeとは

上で紹介した形態素解析をPythonというプログラミング言語を使って実現可能にするのがJanome です。形態素解析のライブラリという位置づけになります。

今回の集計方法

今回は形態素の中から名詞だけを抽出して出現回数をカウントしました。

「すももも~」の例で言うと「すもも」とか「もも」は集計対象にするけれど、助詞の「も」や「の」などは対象外にするというということです。

名詞だけではなく動詞もおもしろそうだったのですが、数が多くなりすぎるので今回は省略しました。

最終的に集計した結果を出現回数の多い順に並べてランキングを作成しています。

結果の概要

対象になった記事の数(タイトルの数)と抽出された名詞の種類数は下記の通り。

記事タイトル数2,053
キーワード数(名詞の種類数)4,760

名詞だけでも約4,700もあるという結果です。

多くのキーワードは出現回数1~2回なので、5回以上出現するものだけをカウントすると542個になります。

それでもまだランキングとしては多過ぎます。さらに絞り込んで10回以上のものだけにすると約200くらいまで数が減るのでこのデータのみを見ていきたいと思います。

カッコや…(3点リーダー)など記号、数字も名詞としてカウントされていたのですが、あまり意味の無いデータなので除外しています。

ランキングと考察

出現回数10~30あたりは同順位のものキーワードが多く、○○位タイみたいなデータが並んでしまうので、ランキングを見てもあまり意味がありません。

下位のものについては出現回数ごとに見ていくことにします。

先に書いておきたいのですが、実は上位ほどあまりおもしろみのないデータになります。 トップ10あたりだと「話」「的」「年」など、出現回数が多くて当たり前だよなぁ…というような名詞がほとんどになるからです。

また、あくまでPythonとJanomeの勉強がてら分析しただけなので、考察といってもあまり深いものではありません。感想程度のコメントのみを書いているだけなのですがご容赦いただければと…。

出現回数10~11回

キーワード出現回数
日本人10
広告10
10
知能10
失敗10
以上10
10
10
10
世代10
最新10
人工10
マンガ10
分析10
10
最近10
10
説明10
株式会社10
ベスト10
家族10
みたい10
炎上10
教育10
嫌い10
簡単11
入門11
年間11
日本語11
結果11
東京11
最強11
理解11
11
オススメ11
子供11
通貨11
セクハラ11
オタク11
管理11
仮想11

他人の不幸は蜜の味ということで「炎上」「失敗」ネタは読まれやすいんでしょうね。

「広告」というのもランクインしています。普段目にする広告に対する意見や、広告業界とメディアに関する話題も注目されやすいということでしょうか。

「人工」と「知能」はバラバラになっていますが、これは人工知能という形で使われています。AIについての記事も人気ということですね。

「仮想」と「通貨」も分かれていますが、仮想通貨のことです。今はかなりトーンダウンしていますが、少し前までブログに限らず多くのメディアでかなりの盛り上がりを見せていたテーマです。

「簡単」「入門」というキーワードを使った初心者向けに何かを解説する記事はブログの鉄板ですよね。

「セクハラ」「オタク」あたりは時事ネタでもなく、解説記事などでよく使われる単語でもないので、単純に読まれやすいキーワードということかと思います。

「最強」「おすすめ」は商品紹介、サービス紹介記事では定番ワードです。

出現回数12~13回

キーワード出現回数
12
全て12
ツール12
IT12
差別12
個人12
12
12
12
労働12
発言12
どこ13
みんな13
無料13
批判13
英語13
対策13
あなた13
システム13
営業13
13
子ども13
Google13
感想13
絶対13
大学13
人生13

「全て」。これは「全て解説します」、「○○な全ての人へ」みたいな文脈で使われています。記事の対象者を広げたり、網羅性を訴えることできるので、読者が増えやすいということかと。

「IT」「ツール」もランクイン。ITツールについての情報はWebで集めるという人が多いと思います。私もその手の情報はまずはインターネットで収集します。

「英語」はブログ記事では人気のあるテーマという認識でしたが、今回の結果でもそれが裏付けられました。

「子ども」。これも一定の読者を獲得しやすいテーマです。私もそうですが、子どもを持っている親はついつい読んでしまいます。

「営業」。これは意外なキーワードでした。使われている文脈を確認しないと正確なことは言えませんが、元営業マンが体験を元に語るというパターンか、営業という仕事自体についての記事かどちらかだと思います。そういうのってブログ記事で需要あるんですかね…。

「批判」「対策」「感想」。このあたりもまあよく使われるワードですよね。

出現回数14~15回

キーワード出現回数
14
解説14
プログラミング14
コード14
料理14
障害14
考察14
話題14
そう14
アプリ14
退職14
公開14
意味14
彼女14
14
数学14
企業15
削除15
レビュー15
給食15
15
15
マン15
環境15

「プログラミング」「コード」は上でランクインしていた「IT」「ツール」と同じ理由で上位に入っていると思われます。このあたりの需要は固いですね。

「退職」このキーワードが入っていると自分も読んでしまいます。エンジニアの方はいわゆる「退職エントリー」を書かれることが多いようです。

「レビュー」「考察」このへんは言わずもがなですね。鉄板の切り口かと。

「給食」??これは何でしょうか?ちょっと想像しづらいですね。子育て系の記事でしょうか…。

出現回数16~19回

このへんからTOP100くらいです。

キーワード出現回数
16
アニメ16
必要16
16
事件16
とき16
17
初心者17
記事18
18
情報18
最高18
これ18
時間18
転職18
19
たち19
19
サービス19
社会19
サイト19

「初心者」向けの記事は基本的に重宝されますし、「最高」というワードも商品やサービスを紹介する記事を目立たせるための常套句です。

「転職」も上位に入ってきました。さきほど「退職」もランクインしていましたが、転職を考えている人、転職に関する情報を集めている人が多いので、他人がどのように転職したかが気になるということかと思います。

出現回数20~27回

だんだん書くことがなくなってきたのでまとめて見ていきます。

キーワード出現回数
20
20
21
ネット21
Web21
結婚21
世界22
Python22
22
自分22
人間22
時代23
23
23
漫画23
23
紹介24
24
おすすめ24
データ25
ゲーム25
25
勉強25
26
26
まとめ26
よう26
映画26
女性27
会社27
27
27

「結婚」このテーマはいい意味でも悪い意味でも鉄板でしょうね。今の時代、多分ネガティブな内容のほうが多いんでしょうが…。

「python」がランクインしてきました。解析手法のところで紹介しましたが、この記事で実施している分析もpythonを使っています。プログラミング初心者でも始めやすく、使える範囲が広い言語なので人気なんだと思います。

出現回数16~19回のところで「アニメ」が出ていましたが、さらに上位に「漫画」が入ってきました。やはりこの2ジャンルの記事は強いですね。

「男」「性」「女性」もランクイン。性別に関する記事も注目を集めやすいようです。

TOP30(出現回数28回~170回)

このあたりから、ようやくまともなランキング形式にすることができます。

TOP30は下記のようになりました!

順位キーワード出現回数
28機械28
28好き28
28追記28
25もの29
25201829
25仕事29
23技術30
23201730
21ブログ33
21方法33
20学習34
18問題35
18開発35
1737
1638
1541
14さん42
1343
1246
1048
10エンジニア48
9ため50
8理由53
757
6日本65
587
4105
3こと136
2141
1170

はえある第1位は「の」でした! この結果はつまらないですね…。

TOP10あたりの最上位層は上位に来てあたりまえの単語というか、あまり意味をなさないものがほとんどです。

下位のほうを見て行きましょう。

「機械」と「学習」は別々に出ていますが、これは機械学習(マシンラーニング)のことですね。けっこうディープな技術系の話なのに上位に来るのはちょっと驚きです。「エンジニア」も入っていますしIT系のネタはやはりWebと親和性が高いということでしょうか。

「ブログ」。ようやく出てきました。ブログを書いている人はやはりブログ運営についての記事を読んでしまいます。この記事のタイトルにもキーワードとして入れています。

以上が今回の結果でした。

まとめ

とりあえずやってみたというレベルの粗い分析なので、改善できるところが多々ありますが、こうやって日本語を解析できるのはおもしろいです。

タイトル付けや記事執筆の参考になるといいのですが。