論文メモ: Access Patterns in Web Log Data: A Review

筆者・所属機関 Mohammed Hamed Ahmed Elhiber and Ajith Abraham Sudan University of Science and Technology, Faculty of Computer Science, Khartoum
投稿日付

2013

web logを用いてユーザの行動パターンを解析する(web usage mining)際の手順、データ収集、前処理、パターン検知の手法についてまとめている。解析することでユーザビリティや、サイトパフォーマンスの改善に利用できる。

レビュー論文なのでなし。

web log file 主な生ログはアクセスログ。hit単位で1レコード生成される。NCSA(National Centre for Supercomputing Application)よりフォーマットが定義されていたりするのでそれを用いる。

論文より、NCSAは以下のような情報を含むといいらしい

Host IPaddress, Proprietor, Username, date: time
request method, status code, byte size, referrer
User_agent

ログが溜まっても、miningに直接使えるわけではない。前処理を行うことで、パターン発見に利用できる。ユーザの名寄せや、セッションの特定などが必要となる

ユニークユーザとして判定する条件は、

統計量を出すことになる。PV、滞在時間、パスの長さについて頻度や平均など。サイトのパフォーマンスやセキュリティ、などについて活用される

ユーザ、ページについてのクラスタが考えられる。それぞれ似ている行動、似ているコンテンツが見つかる。k-meansや、NNによるクラスタリング(埋め込み空間？)、アソシエイトルールが用いられる

ユーザのアクセスパターンの分類や、次のリクエストを予測するなどをおこなう。木モデルやSVM、KNNが用いられる

2013年の方法論ではあるがこれをベースに特定のサービス、データで課題定義して解析した論文がたくさん出ている、気がする

網羅的に方法と用語が書いてある代わりに、具体的な検証方法みたいな部分はあまりなかった

なし

読み進めるにあたりわからなかった用語をまとめておく

web miningの一種らしい。web miningもコンテンツベースのものや、ユーザの行動ベースの解析方法がある。

web usage miningは、前処理、パターン発見、パターン解析からなるdata mining技術のことをさすらしい。

日本語で米国立スーパーコンピュータ応用研究所のこと Mosaicを作った研究所らしい

uni memo