frame,redirect,java,动态网页,利用linkanalysis部分索引,各种文字和符号组合的辨别索引
--支持更多文件格式:
wkx,mw,xls,flash,pdf,ppt,ps,doc,rtf ,doc,图象,视频,音频……
--提高网页库质量:
去重,减少死链接,优化网页选择策略
--及时更新:
同1.3
--增大网页库数量级:
=============================================
2.检索结果相关性差
=============================================
◆◆2.1 动态分类
(使用同一个关键词搜索,不同用户需求的信息是不同的,比如“石器时代”,他找的是历史相关信息?游戏相关信息?如果是游戏相关信息,他找的又是同名网站?官方网站?战网?游戏介绍?买游戏产品?游戏新闻?攻略?但搜索引擎通常只把一类信息排在前,导致其它信息搜索者认为相关性差。随着网页数量的迅速增长,这问题会更严重,搜索结果动态分类有助于这个“用户信息需求多元化”的问题。)
--northernlight
人工预设目录结合自动归类
--queryserver、vivisimo
主要利用结果摘要提取关键词归类
--teoma
利用超链分析对结果网页归类
--fast
利用dmoz分类目录结合自动归类
--znow
利用详细的预设目录归类
--Guidebeam
对搜索结果网页分析归类
――oingo
利用语义库分类
◆◆2.2 综合搜索
(用户搜索一次,同时看到跟该关键词相关的多种信息,也有助于改善上边提到的用户信息需求多元化的问题)
--sina:一次提供目录、网站、网页、新闻、商品等多种搜索结果。
--britannica:一次搜索,同时显示产品、书籍、网站、百科全书、杂志、录音带等的搜索结果。
--google:提供字典、分类目录、新闻、股票、电话、地图搜索等,根据关键字显示不同内容。
◆◆2.3 重复信息
--不同网址的相同内容引起的重复
百度:内容类聚
--网站互相抄袭引起的内容重复
Google:相似内容类聚
◆◆2.4 摘要显示影响感觉上的相关性
--动态摘要:
Google:动态摘要使搜索结果看上去更相关。
(注:2002年3月,百度已升级为动态摘要)
--结合分类目录摘要:
-google对搜索结果中被dmoz收录的网页,加上了dmoz人工编辑的网站摘要,与动态摘要并存。
-openfind利用蓝帆的分类目录给出部分网页搜索结果的摘要。
--网页截图
girafa、searchshots除文字摘要外还提供一张网页截图,用户得到视觉化摘要,更易辨别选择搜索结果。
◆◆2.5 中文切词
(中文切词不准使搜索结果相关性差,是一个长期的、渐进的问题)
--百度的人名中文切词专利
◆◆2.6人工指定部分搜索结果
(人总比电脑更理解人的需求)
--有些搜索引擎对热门关键词的搜索结果作过人工干预,所以这些词的检索结果相关性比其它自动生成的要好。
◆◆2.7 网站直达
--overture的Quick Hit
overture的排名谁都可以买,但很多用户检索“yahoo”“aol”等网站名时是想上那个网站,因此,overture对这种有官方网站的关键字,在检索结果前增加了一条“Quick Hit”,用户点击后可直达官方网站。
--msn的realname
分类目录的信息量小,检索结果的相关性无法跟网页检索一样靠算法提高,所以msn在分类目录搜索结果前,使用了realname,使搜索网站名的用户可以直达相关网站。
--aol
aol在分类目录搜索结果前,用recommended sites 的形式提供官方网站链接。,
◆◆2.8 相关性算法
--超链分析的提升(Link popularity、anchortext、context)
超链分析先天缺陷:使小站、新站、专业站处于不利地位。一个专业小网站,它的内容再好,因为不能迅速得到大量高质量的超链,难以得到合适的排名。
--内容分析的提升
--User popularity
(有些搜索引擎利用用户倾向统计来排序)
-directhit:按搜索结果点击率及网站停留时间排序
-hotlinks、blink:收集用户收藏夹按网站被收藏率排序
-top9:根据网站访问人数排序
-google:曾分析约1成的搜索结果点击,据以调整相关性算法。利用advanced toolbar收集用户访问习惯作分析
◆◆2.9 收集用户反馈
--overture、britannica
它们在每个搜索结果页上放了一个浮动调查,让用户以“――、-、+-、+、++”5档评选当前搜索结果的相关性,然后根据统计结果,及时研究和改善受到劣评的搜索结果页。
英文版允许用户对当前搜索结果页发表意见。有5个意见选项可选择:Off-topic、Offensive、Described poorly、Too similar to one another、The page I was looking for wasn't listed in the results,另外,用户可写上正在寻找的url或描述想找的内容。在Google的新版toolbar也提供了相似的搜索结果用户投票功能。
=============================================
3.死链接
=============================================
◆◆3.1 网页快照
--Alexa、google、daypop等搜索引擎有应用
◆◆3.2 网页即时预览
--vivisimo、wisenut:
点击一条搜索结果链接后,在当前窗口中开一个frame,预览该网页。可减少用户从死链接受到的挫折。
◆◆3.3 搜索结果自动播放
--metacrawler、metor、robocast:
用户搜索后,如果选择自动播放,可以看到搜索结果网页一个一个的轮流打开,可设定每个网页停留时间、可随时打开新窗口、可选定几个网站后打开自动播放。省去了用户不断点击的麻烦。
=============================================
4.速度慢
=============================================
◆◆4.1 检索速度慢
--利用cache
◆◆4.2 搜索结果网页打开速度慢
文章整理:西部数码--专业提供域名注册、虚拟主机服务
http://www.west263.com
以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!




