PageRank – вчера и сегодня PageRank сегодня

Фев 03

Стэнфордский университет, 1996 год. Аспиранты Сергей Брин (24 года) и Лоуренс Пейдж (25 лет) работают над проектом BackRub. Вариантов перевода этого слова масса – от «массаж спины» до «обратное напоминание». Система с самого начала была поисковиком, построенным на принципе ссылочного ранжирования, и с самого начала была воплощена «в железе». Сервер стоял в университетской общаге – прямо в комнате Пейджа. К 1998 году BackRub стал прилично выделяться по качеству поиска на фоне аналогичных – даже коммерческих систем, – которые в то время просто искали совпадения с запросом в контенте, но не умели определять наиболее релевантный документ. В том же году была опубликована вторая научная статья на эту тему, в которой авторы рассмотрели архитектуру поисковой системы, к тому времени получившей название Google (не будем углубляться в увлекательные подробности этой истории – они относятся к сфере бизнеса, а не интернет-математики).


Мы предполагаем, что страница А имеет ссылающиеся на нее (то есть цитирующие) страницы T1…Tn. Параметр d – коэффициент затухания, который может принимать значения от 0 до 1. Обычно мы берем его равным 0,85. Более детальное рассмотрение коэффициента d приводится далее в статье. Также С(А) определяется как число исходящих ссылок страницы А. PageRank страницы А рассчитывается так:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

«Анатомия крупномасштабной гипертекстовой сетевой поисковой системы», 1998, кафедра «Вычислительная техника», Стэнфордский университет, Стэнфорд, Калифорния.

Векторные операции с матрицей значений позволяют быстро (с точки зрения машинного времени) получать нужные числовые показатели и столь же быстро пересчитывать матрицу целиком после каждого добавления в индекс новой страницы – причем проблема страниц, не имеющих исходящих ссылок, которые могли бы препятствовать обсчету, может легко решаться с помощью одного из специальных методов. Кстати, метод, основанный на эволюции графа, позволяет достаточно точно вычислять PageRank без пересчета всех взаимосвязей между всеми страницами.

Как видите, изначально идея была элементарной. Интересно, что она до сих пор неплохо бы работала, если бы ни один вебмастер не пытался бы манипулировать результатами поисковой выдачи. Поскольку Google с самого начала сделал ставку на отсутствие человеческого фактора в формировании естественной выдачи («никто не может купить более высокий показатель PageRank»), поисковику пришлось создать математические методы, усложнившие PageRank и другие факторы ранжирования, которые, в свою очередь сформировали современное SEO («белое и пушистое»).

Кстати, в той же статье был заложен магистральный вектор, позволивший PageRank (точнее, механизму ранжирования в целом) эволюционировать, сохраняя название, но меняя содержание: PageRank трактовался как вероятность нахождения пользователя-серфера на данной странице при свободном перемещении по ссылкам.

Условный («тулбарный») PR измеряется целыми числами от 0 до 10, причем это «точки» на нелинейной шкале: настоящее значение PageRank изменяется от, например, 0 до 1 гораздо меньше, чем от 3 до 4. Если получить PR 7 можно, хоть и сложно, то более высокие значения практически для обычного сайта практически недостижимы.

Очевидно, что «PR былых времен» тоже достаточно просто поддавался воздействию ушлых вебмастеров. Архиватьор и разархиватор в одной программе, скачать winrar можно перейдя по ссылке.

В записи нет меток.

автор: Антон



Еще по этой теме:

Один отзыв на «История PageRank – вчера…»

  1. Всё связано с Мариной пишет:

    Кстати, метод, основанный на эволюции графа.

Оставьте свой отзыв