中国IDC圈9月12日报道:谷歌、微软、雅虎等公司正着手开发新一代技术,让信息搜索更为自动化和个性化。
搜索引擎,也就是那个小小的浏览器工具,你在其中输入一个词,并点击回车,之后就满怀希望开始等待,可它返回的往往是数百万个毫不相关的互联网地址。微软公司(Microsoft,下称微软)称,人们平均要花11分钟的时间才能找到所需内容,而且还有一半的人在达成此目标之前即中途放弃搜索。据高德纳公司(Gartner)估计,由于访问者根本无法找到所需内容,有一半的潜在Web销售因此而丧失掉了。
谷歌公司(Google)、微软、雅虎公司(Yahoo)、以及其他数十家专业搜索公司,其中也包括那些专注于商业领域的搜索公司在内,已开始展开新一代搜索技术的开发竞赛,以帮助人们更高效地获取所需信息。有了这些新兴的搜索工具,人们无需再使用混合语言一遍又一遍地简化搜索。他们可以用英语或其他语言查询问题,或者根本不提出任何问题,只是基于其以前的查询或所用的应用软件,就能自动收到查询结果。
专注于中文搜索的百度公司(Baidu,下称百度)虽然没有就下一代搜索的话题表态,但是根据百度现有的一系列产品,从百度贴吧、百度知道、百度百科到百度空间等服务,不难看出这家公司正在利用用户生成内容(UGC)提高自身对于用户兴趣点捕捉的精确度。
除了文字内容之外,用户实际得到的搜索结果还将包括音频和视频文件、PowerPoint幻灯和其他信息图表、以及结构化数据,这些信息全部精选自Web、PC、以及公司数据库,并最终汇成统一的信息流。假以时日,图像搜索甚至能在图像中检测信息,而无需对元数据进行解析。
搜索结果将更加精确,并经过自动归纳总结,按照个人偏好依相关程度进行排序。聚簇、标签云(Tag Cloud)等可根据参数扩大或缩小搜索的新表达方法以及自动分类,可以简化对搜索结果的处理。同时,采用标签服务、社会性书签服务(Social Bookmarking)以及共享搜索等方式,充分发挥人类智慧特别是群体智慧的力量,搜索引擎将得到极大改进。
而且,我们无需翘首以盼,等待这些高速搜索引擎的出现。如下一些高级功能已随处可见。
语义搜索
当今多数搜索引擎都要求使用速记语言,也就是某些人称作Keywordese的语言。“那就像跟一个2岁小孩说话。” Powerset公司首席执行官(CEO)巴尼。佩尔(Barney Pell)形容道。Powerset是一家将自然语言处理技术应用于搜索领域的初创公司。未来10年,佩尔指出,搜索引擎“理会意思”的本领会更为高强。
早在2000年,百度就曾经大力协助当时的ChinaRen公司推出了一个名为“孙悟空搜索”的提问式搜索引擎。“我当时使用过孙悟空搜索,感觉它对中文语义的理解已达到了相当的深度,虽然那时的技术可能还比较粗浅。”李鹏在接受《信息周刊》采访时回忆道。李鹏是加拿大英属哥伦比亚大学(University of British Columbia)计算机专业的在读博士,同时也是微软位于美国华盛顿州雷德蒙德园区(Redmond)的实习研究人员,专注于语义网(Semantic Web)的研究。
现在,Powerset公司、Hakia公司、以及其他一些公司已开始开发新的搜索引擎,这些搜索引擎应用语言学解释问题,分析Web内容,并且必要时,还通过与用户的互动来优化搜索结果。Hakia公司CEO里萨。博坎(Riza Berkan)憧憬说,未来搜索引擎会成为“知识渊博的工具,如果我们能教会它们如何讲话、如何理会用户的意思。 ”
语义搜索引擎对语言进行解析,就像学生学英文一样,用字典和辞典来解释字的意思,并依据句法的基本规则将之连起来。比如,“国际商业机器公司(IBM)于1996年斥资7.43亿美元买下了Tivoli公司”这句话,包括了购买、购买的主语、购买的时间、以及买入价等几个概念。
在理解问题之后,基于语义网的搜索引擎将会给出智能的回答。“比如,你表示要预约一个牙医,”李鹏给出了一个例子,“搜索引擎有可能从你的Outlook找出你的时间表,然后从你牙医的网站上找出他或她的时间安排情况,最后归纳出共同的时间点,再给你提出精确的预约建议。”
迄今为止,尽管Hakia公司的搜索引擎已能够利用语言提示在它自己甚至都不能领会的概念中发现大致意思,但人们应用语言规则,并对分类进行定义,以缩小搜索范围的做法仍然有助于推进搜索引擎的开发。“如果它能做到完全自动化,我们就能宣告自己发明了新人类,”博坎调侃道。谷歌和雅虎等在开发Web搜索引擎时也都会雇佣语言学家,尽管他们的搜索引擎还远不能与Hakia或Powerset的语义搜索相提并论。谷歌的搜索引擎能进行拼写检查,并返回所搜索的单词的同义词和变体,但并不能始终准确地解答问题。
联邦保存研究所(Federal Preservation Institute)的历史保存学习门户(Historic Preservation Learning Portal)采用的是企业搜索公司Autonomy公司的技术。该网站存有大量记录保存规则和保存方法的文档,研究所应用语义搜索帮助那些非专家类的用户发现其所需信息。“他们应用这些工具,用普通语言即可提问,而其问题中无需带有关键词可能会含的技术术语。”该研究所总监康斯坦丝。拉米雷(Constance Ramirez)介绍说。比如说,有个网站访问者可能会询问加里福尼亚州红屋顶房屋的保存情况,“看到返问的各类结果都是相关的,那种感觉真是妙不可言。”拉米雷回味道。
IBM也在致力于医疗卫生和政府等领域的专业文本分析研究。客户利用其名为OmniFind Analytics的搜索引擎,甚至可以分辨诸如情绪这样的细枝末节之处,而且不管搜索到的文档对某个主题的记录或分析是积极的还是消极的,客户还可对公司内使用的专业词汇、概念、以及专有名词进行定义。
“但是,基于精确语义的搜索有一个前提,那就是信息来源必须基于资源描述框架(RDF)、Web本体语言(Web Ontology Language,OWL )等信息格式。”李鹏指出,“信息源的格式化需要得到提供者的认可和规范,这本身就需要相当长的时间,是一个渐进的发展过程。”
无关键词搜索
好运难遇。目前仍处于开发阶段的这类搜索引擎无需提示,即会根据你以前的查询替你完成搜索;否则它们可能会在背景中搜索,根据Word文档或Excel电子表中的上下文内容提供相关信息。苹果公司(Apple)的iTunes项目与此类似,如果听者从硬盘中播放了一部音乐作品,iTunes Store即会显示相关的其他音乐。
文章整理:西部数码--专业提供域名注册、虚拟主机服务
http://www.west263.com
以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息,谢谢!




