Access Patterns in Web Log Data: A Review
メタ情報
- 論文へのリンク
http://his02.softcomputing.net/jnic4.pdf
-
筆者・所属機関 Mohammed Hamed Ahmed Elhiber and Ajith Abraham Sudan University of Science and Technology, Faculty of Computer Science, Khartoum
-
投稿日付
2013
論文内容
概要(一言まとめ)
web logを用いてユーザの行動パターンを解析する(web usage mining)際の手順、データ収集、前処理、パターン検知の手法についてまとめている。解析することでユーザビリティや、サイトパフォーマンスの改善に利用することができる。
新規性(何が過去の研究に比べて凄い?)
レビュー論文なのでなし。
手法の概要
- web log file 主な生ログはアクセスログ。hit単位で1レコード生成される。NCSA(National Centre for Supercomputing Application)よりフォーマットが定義されていたりするのでそれを用いる。
論文より、NCSAは以下のような情報を含むといいらしい Host IPaddress, Proprietor, Username, date: time, request method, status code, byte size, referrer, User_agent.
- 前処理
ログが溜まっても、miningに直接使えるわけではない。前処理を行うことで、パターン発見に利用できる。ユーザの名寄せや、セッションの特定などが必要となる
ユニークユーザとして判定する条件として、
- 異なるIPならば異なるユーザ
- 異なるOSやブラウザからであれば異なるユーザ
- すべてIP、OS、ブラウザが同一であり、リクエストページが以前アクセスしたページからたどることが可能であれば新規ユ ーザと言える
- referre URLとuser agentによりユーザは特定できる
- 統計解析
統計量を出すことになる。PV、滞在時間、パスの長さについて頻度や平均など。 サイトのパフォーマンスやセキュリティ、などについて活用される
- クラスタリング
ユーザ、ページについてのクラスタが考えられる。それぞれ似ている行動、似ているコンテンツが見つかる。k-meansや、NNによるクラスタリング(埋め込み空間?)、アソシエイトルールが用いられる
- 予測モデル
ユーザのアクセスパターンの分類や、次のリクエストを予測するなどをおこなう。木モデルやSVM、KNNが用いられる
コメント
2013年の方法論ではあるがこれをベースに特定のサービス、データで課題定義して解析した論文がたくさん出ている、気がする
網羅的に方法と用語が書いてある代わりに、具体的な検証方法みたいな部分はあまりなかった
関連情報(あれば)
なし
次に読む論文
なし
自分なりのアウトプット
読み進めるにあたりわ からなかった用語をまとめておく
- web usage mining
web miningの一種らしい。web miningもコンテンツベースのものや、ユーザの行動ベースの解析方法がある。
web usage miningは、前処理、パターン発見、パターン解析からなるdata mining技術のことをさすらしい。
- NCSA(National Center for Supercomputing Applications)
日本語で米国立スーパーコンピュータ応用研究所のこと Mosaicを作った研究所らしい