手机站
网通分站
电信主站
密 码:
用户名:
当前位置 : 主页>网站运营>搜索优化>列表

Google 的秘密- PageRank 彻底解说

来源:互联网 作者:west263.com 时间:2008-02-22
西部数码-全国虚拟主机10强!40余项虚拟主机管理功能,全国领先!双线多线虚拟主机南北访问畅通无阻!免费赠送企业邮局,.CN域名,自助建站480元起,免费试用7天,满意再付款! P4主机租用799元/月.月付免压金!

所谓马尔可夫过程,就是与过去的经历无关,只从现在的状态来确定未来的概率法则的概率过程。 马尔可夫过程只依存于1步之前的过程。这个过程和没有对过去的记忆,没有依存于过去经历的要素。 PageRank 是在单纯马尔可夫过程随时间变化而固定的状态下计算时候所求得的结果。但是,人类的理性行动必须以非马尔可夫过程来表现。复杂的过程总是以一些形式和过去有着牵连。因此,不仅仅单一地分析从哪个页面连接来,而要分析沿着怎样的路径连接而来的。这样的分析才会使其有可能成为更有用的排序系统。在能抑制住计算量爆炸的范围内,试着引入非马尔可夫过程来研究说不定也很有趣。

在考虑到和看到的许许多多中,有像实际安装那样不太难的东西,也有因为只是嘴上说说而不知道怎样实际安装的东西,不管怎样,定量地评价它的效果是极为困难的。难道真的是不能实现的东西吗?

PageRank 的技术有多少
即使只是采用评价很高的 PageRank 技术,作为基本的想法也只是使用了枯竭的数值分析的手法来实现的。但是,象我在这里说明的事情,如果从专业的研究者来看完全是理所当然的事情了。只是克服规模这一点就能建立一个专业的研究领域吧。 也可以认为专业领域的内部并没有那么深的尽头。事实上,我做事,充其量只是表示了「如果是极其小规模的问题,即使是教科书的手法也能大约地得到满足计算量的结果」。

尽管是这样,充其量只触及了概要的表面就在嘴边说「没什么嘛,原来是程度这么简单的技术呀」 的那种不懂装懂的人也是有的。在这里事先强调:这种浅薄的看法是从根本上完全错误的。

当然,PageRank 技巧的非常好的地方是「从许多优质的页面连接过来的页面是还是优质的页面」,如果明白了就会觉得是简单的想法。但更进一步说,真正绝妙的地方是,不仅仅只是想到一个主意,而是将想法用固定状态变迁的概率分布来定式化,为了实证其有效性而实际地进行安装实验,并证明其在现实领域也能很好地运作的过程。在所有的这些阶段都成功了才是真正值得被称赞的。

的确,不仅有斩新而且巧妙的想法,再加上结合教科书的手法,也有可能制造出能和 Google 匹敌(或是凌驾)的搜索引擎。也可以说实际上 Google 自己也在这么做着。但是,实际完成的人却是少得惊人。假想模型中的「肯定能够完成」的东西和实际运作的东西之间有着天差地别。在实际问题上,处理大规模疏松行列本身,通过一般的手法也是相当的困难,需要高度的专业技术。应该铭记在头脑中总觉得能够理解的事和实现中能够做的事之间绝对会有不能填埋的差距。不可过分轻率地考虑。

7.参考文献
以下列举了除了在「前言」中介绍的基本论文以外的关联论文。(译者去掉了许多无用的连接)

S. Brin, L. Page, 'The Anatomy of a Large-Scale Hypertextual Web Search Engine', http://www-db.stanford.edu/~backrub/google.html
山名早人,近藤秀和,「解说:搜索引擎Google」 (概要) , 信息处理42卷8号(2001年8月), pp.775-780 (PDF)
原田昌纪,「路标:WWW搜索引擎的建立方法」 (概要), 信息处理41卷11号(2000年11月), pp.1280-1283
原田昌纪,「搜索引擎检索结果的排序」,bit 2000年8月号(Vol.32), pp.8-14
美国 Clever Project,「聪明地使用超级链接」 (概要) ,日经科学 1999年9月号, pp.28-35
Dell Zhang, Yisheng Dong, 'An Efficient Algorithm to Rank Web Resources', http://www9.org/w9cdrom/251/251.html
Jon M. Kleinberg, 'Authoritative sources in a hyperlinked environment', Proceedings of the 9th ACM-SIAM Symposium on Discrete Algorithms, 1998. http://www.cs.cornell.edu/home/kleinber/auth.ps
IBM Almaden Research Center, 'CLEVER Searching', http://www.almaden.ibm.com/cs/k53/clever.html
以下列举数学关联的参考书籍。

S.卡琳 著,佐藤健一,佐藤由身子译,『概率过程讲义』(数理分析与周边3),1974年,产业图书
岩堀信子著,『图表和概率过程』 (与数理分析与周边4),1974年,产业图书
伊藤升 他著,『经济系、工学系的行列及应用』, 1987年,纪伊国屋书店, ISBN4-314-00477-0
L.V.Atokinson, P.J.哈里, J.D.赫德森 共著,神谷纪生,大野信忠,佐胁丰,北荣辅 合译,『数值计算及其应用- FORTRAN77-』, 1993年,Science公司,ISBN4-7819-0690-7
宫泽政清著,『概率和概率过程』(现代数学研究小组17),1993年,近代科学社, ISBN4-7649-1034-9
伊理正夫著,『线形代数II』(岩波讲座应用数学11) ,1994年,岩波书店, ISBN4-00-010521-3
韩太舜,小林欣吾著,『信息和符号化数理』(岩波讲座应用数学13) ,1994年,岩波书店, ISBN4-00-010523-X
小国力著,『MATLAB及其实际利用-现代应用数学和CG -』( Information & Computing=86),1995年,Science公司, ISBN4-7819-0763-6
长谷川里美,长谷川秀彦,藤野清次译,『反复法 Templates』(应用数值计算Library),1996年,朝仓书店, ISBN4-254-11401-X
小谷真一著,『测每次和概率2』(岩波讲座现代数学基础10 ),1997年,岩波书店, ISBN4-00-010640-6
藤野清次著,『数值计算之基础-以数值解法做为中心』(Library新信息工程之基础9),1998年,Science公司,ISBN4-7819-0861-6
与有关 Google 的在线新闻报道(日语新闻)已经分离到其另一张页面(googlenews.html) 。(2003/5/20)

其他,特别列出几个认为有关联的页面。

Interview with Google's Sergey Brin(翻译报道) (LinuxGazette)
Web搜索引擎的商务模型和检索技术动向-以Google为例- (JCOT报告)
聪明地分开使用吧! 21世纪的搜索引擎(InternetWatch)
Web的「地图」的研究成果公布。10%没有被链接 (InternetWatch)
站点研究结果「搜索引擎之检索到了一部分」 (HotWired Japan)
检索引擎的检索结果不平等 (HotWired Japan)
Google --停住时代,你是美丽的-- (yomoyomo 氏族)
Google Weblog (Japanese Version)
Patent Death Pending (the cluetrain weblog)
Google's PageRank: Calculator (Web Workshop)
感谢转载!其他许多的个人站点和BBS都介绍了此文。

ZDNet China中文 如何提高网站在Google中的排名(2003/1/6报道) 。读不了... :-)

文章整理:西部数码--专业提供域名注册虚拟主机服务
http://www.west263.com
以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!