PageRank:Gooe公式与大规模数据集挖掘中三个问题.pdfVIP

  • 1
  • 0
  • 约8.04千字
  • 约 16页
  • 2026-03-11 发布于北京
  • 举报

PageRank:Gooe公式与大规模数据集挖掘中三个问题.pdf

table{border‑collapse:collapse;}table,th,td{border:1pxsolid#000;}

PageRank:

大规模数据集挖掘kovec、Rajaraman和Ullman斯坦福大学

PageRank:三个问题

$$r_{j}^{(t+1)}=\sum_{i\rightarrowj}\frac{r_{i}^{(t)}}{\mathrm{d}_{\mathrm{i}}}\quad

\text{或}\quadr=Mr$$

这会收敛吗?ƒ它会收敛到我们想要的结

果吗?结果合理吗?

这会收敛吗?

“蜘蛛陷阱”问题:

table{border-collapse:collapse;}table,th,td{border:1pxsolid#000;}

PageRank:

TheFormulation

MiningofMassiveDatasetskovec,Rajaraman,andUllmanStanfordUniversity

PageRank:ThreeQuestions

$$r_{j}^{(t+1)}=\sum_{i\rightarrowj}\frac{r_{i}^{(t)}}{\mathrm{d}_{\mathrm

{i}}}\quad\text{or}\quadr=Mr$$

Doesthisconverge?

ƒDoesitconvergetowhatwewant?

Areresultsreasonable?

Doesthisconverge?

The“Spidertrap”problem:

$$r_{j}^{(t+1)}=\sum_{i\rightarrowj}\frac{r_{i}^{(t)}}{\mathbf{d}_{\mathrm{i}}}$$

示例:

$$\begin{array}{rlr}\mathbf{r_{a}}=1\quad0\quad1\quad0\\\mathbf{r_{b}}=0

\quad1\quad0\quad1\end{array}$$

迭代0,1,2,

它是否收敛到我们想要的结果?

“死胡同”问题:

示例:

$$\begin{array}{rlr}{\mathbf{r}_{\mathrm{a}}}={1\qquad0\qquad0\qquad0}\\{\

mathbf{r}_{\mathrm{b}}}={0\qquad1\qquad0\qquad0}\end{array}$$

迭代0,1,2,

PageRank:问题

2个问题:

ƒ(1)有些页面是死胡同(没有出链)ƒ这样的页面会导致

重要性“流失”ƒ(2)爬虫陷阱(所有出链都在组内)

$$r_{j}^{(t+1)}=\sum_{i\rightarrowj}\frac{r_{i}^{(t)}}{\mathbf{d}_{\mathrm

{i}}}$$

Example:

$$\begin{array}{rlr}\mathbf{r_{a}}=1\quad0\quad1\quad0\\\mathbf{r_{b}}

=0\quad1\quad0\quad1\end{array}$$

Iteration0,1,2,

Doesitconvergetowhatwewant?

The“Deadend”problem:

Example:

$$\begin{array}{rlr}

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档