PageRank

Given an initial page rank (weight) and transition matrix, it iteratively updates the page rank based on the previous page rank and transition matrix.

Formula:

PageRank(n) = (1-beta) * PageRank(n-1) * TransitionMatrix + beta * PageRank(n-1)

where beta is a teleporting factor to avoid dead ends (all page ranks become 0) or spider traps (page rank dominated by one page). It is implemented on Hadoop by two MapReduce jobs - unitMultiplication and unitSum.

To run:

Create directory for the transition matrix on HDFS
hdfs dfs -mkdir /transition
Put the transition matrix (transition.txt) into the "transition" directory
hdfs dfs -put ./transition/transition.txt /transition
Create directory for the initial page rank on HDFS
hdfs dfs -mkdir /pagerank0
Put the initial page rank (pr.txt) into the "pagerank0" directory
hdfs dfs -put ./pr0/pr.txt /pagerank0
Compile
hadoop com.sun.tools.javac.Main *.java
Pack classes to jar
jar cf pr.jar *.class
Run
hadoop jar pr.jar Driver /transition /pagerank /output 40 0.2
//args0: dir of transition.txt
//args1: dir of pagerank*.txt
//args2: output dir of the first MapReduce job
//args3: number of iterations
//args4: beta
Source of test data: https://www.limfinity.com/ir/

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
pr0		pr0
transition		transition
Driver.java		Driver.java
README.md		README.md
UnitMultiplication.java		UnitMultiplication.java
UnitSum.java		UnitSum.java

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PageRank

Formula:

To run:

About

Releases

Packages

Languages

fanchi/PageRank

Folders and files

Latest commit

History

Repository files navigation

PageRank

Formula:

To run:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages