uni farm

論文メモ: Access Patterns in Web Log Data: A Review

Access Patterns in Web Log Data: A Review

メタ情報

  • 論文へのリンク

http://his02.softcomputing.net/jnic4.pdf

  • 筆者・所属機関

Mohammed Hamed Ahmed Elhiber and Ajith Abraham Sudan University of Science and Technology, Faculty of Computer Science, Khartoum

  • 投稿日付

2013

論文内容

概要(一言まとめ)

web logを用いてユーザの行動パターンを解析する(web usage mining)際の手順、データ収集、前処理、パターン検知の手法についてまとめている。解析することでユーザビリティや、サイトパフォーマンスの改善に利用することができる。

新規性(何が過去の研究に比べて凄い?)

レビュー論文なのでなし。

手法の概要

  • web log file

主な生ログはアクセスログ。hit単位で1レコード生成される。NCSA(National Centre for Supercomputing Application)よりフォーマットが定義されていたりするのでそれを用いる。

論文より、NCSAは以下のような情報を含むといいらしい Host IPaddress, Proprietor, Username, date: time, request method, status code, byte size, referrer, User_agent.

  • 前処理

ログが溜まっても、miningに直接使えるわけではない。前処理を行うことで、パターン発見に利用できる。ユーザの名寄せや、セッションの特定などが必要となる

ユニークユーザとして判定する条件として、

  1. 異なるIPならば異なるユーザ
  2. 異なるOSやブラウザからであれば異なるユーザ
  3. すべてIP、OS、ブラウザが同一であり、リクエストページが以前アクセスしたページからたどることが可能であれば新規ユーザと言える
  4. referre URLとuser agentによりユーザは特定できる
  • 統計解析

統計量を出すことになる。PV、滞在時間、パスの長さについて頻度や平均など。 サイトのパフォーマンスやセキュリティ、などについて活用される

  • クラスタリング

ユーザ、ページについてのクラスタが考えられる。それぞれ似ている行動、似ているコンテンツが見つかる。k-meansや、NNによるクラスタリング(埋め込み空間?)、アソシエイトルールが用いられる

  • 予測モデル

ユーザのアクセスパターンの分類や、次のリクエストを予測するなどをおこなう。木モデルやSVM、KNNが用いられる

コメント

2013年の方法論ではあるがこれをベースに特定のサービス、データで課題定義して解析した論文がたくさん出ている、気がする

網羅的に方法と用語が書いてある代わりに、具体的な検証方法みたいな部分はあまりなかった

関連情報(あれば)

なし

次に読む論文

なし

自分なりのアウトプット

読み進めるにあたりわからなかった用語をまとめておく

  • web usage mining

web miningの一種らしい。web miningもコンテンツベースのものや、ユーザの行動ベースの解析方法がある。

web usage miningは、前処理、パターン発見、パターン解析からなるdata mining技術のことをさすらしい。

  • NCSA(National Center for Supercomputing Applications)

日本語で米国立スーパーコンピュータ応用研究所のこと Mosaicを作った研究所らしい

2022, Built with Gatsby. This site uses Google Analytics.