繁体   English   中英

Web导航模式挖掘/网络聚类算法/ Web流量聚类方法

[英]Web Navigation Patterns Mining / Network Clustering Algorithm/Approach for web traffic clustering

我有以下问题:

我有一个表示为顶点v0,v1,...,vN的网页列表。

我有g0,g1,...,gM图,这些图具有边缘列表,这些边缘列表显示用户在访问网站期间访问的页面,例如:

  1. g0:(v3,v44); (v44,v5)
  2. g1:(v3,v44); (v44,v5); (v5,v7)
  3. ...
  4. gM:...

我正在寻找使用这些数据来开发网页访问模式的集群。

我正在寻找:1.可以帮助我解决此问题的算法的论文,博客等。 2.开源代码,解决此问题的代码片段。

提前致谢。

注意:

我知道并使用图聚类算法。 我正在寻找特定于此应用程序的东西。

看起来您的数据实际上包括用户,网页和其他网页之间的超边缘以及时间因素。 关于张量分解的一些研究可能会解决这些类型的问题,但是最好利用更好研究的方法,丢弃边缘尺寸和/或时间分量之一可能会更好。

这是两种可能的方法:

  1. 您可以仅查看网页之间的边缘,并使用随机块模型分析点击链接。 Eric Xing在此方面有一些有趣的工作: http : //www.cs.cmu.edu/~epxing/papers/2009/fu_song_xing_icml09.pdf

  2. 您只能查看不同用户访问了哪些网页(丢弃了网页之间的链接),并使用了协作过滤(http://www2.research.att.com/~volinsky/netflix/)或采用了一种共聚方法(谷歌“聚集”)。

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM