二月初,珍妮·杰克逊(janet jackson)因为走光事件上升为yahoo搜索的人气冠军,其搜索请求达到总数的20%,创下了yahoo搜索关键词的历史最高记录。这一数字是艳星paris hilton曾经所创记录的60倍,是歌星小甜甜布莱妮的80倍。
互联网上的搜索引擎已经成为反映大众趣味和关注焦点的最好工具,
也许比任何其他调查统计都更为真实。
高频词与社会热点
纵观历史,热门词汇反映了短期内大众关注的焦点,长期来看可以连缀出世事的发展脉络。美国康奈尔大学的研究人员jon kleinberg曾经做过一项调查,通过统计20xx年后每年的美国国情咨文的用词,发现了不同历史时期的热门词汇。例如美国独立战争期间出现频率最高的是“民兵”和“英军”;而在20xx年到20xx年这段时间内,“原子弹”则被反复地提起。
如今,搜索引擎声称自己知道大众心中的秘密。搜索引擎不只是被动地答疑解惑;事实上,各大搜索引擎提供了包罗万象的统计数据,这些结果也许十分有趣。keinberg认为:虽然计算机并不懂历史,但是可以通过统计blog(网页访问记录)、e-mail和网页中的文本“学习”到相关的背景知识,从而更好地理解搜索请求的含义。此外,这些统计数据还可以帮助社会学者和营销人员发现某些正在显露出的大众趋势,为他们的研究或者经营提供参考信息。
在国内,搜索引擎甚至借助这种反映大众趋向的能力,向更广的商业领域主动出击。20xx年xx月xx日,百度搜索和光线传媒共同发布了“20xx年全球华人明星人气榜”。热门词汇周杰伦、《无间道》、《天龙八部》、代言人、绯闻和黑幕等榜上有名。在此之前的xx月xx日,百度搜索还与胡润联手发布了“20xx中国大陆百富人气榜”。
但是,搜索引擎有时也会不知所措。比如尝试使用google搜索哈姆雷特的名言“to be or not to be”,会发现google竟然答非所问,罗列在页面上的是gnu’s not unix官方网站、hot or not交友网站……就是不见莎士比亚的影子。这个经典的例子引出了搜索技术的一个术语—停止词(stopword)。
顾名思义,计算机的一切能力都是以计算为基础,即使阅读也不例外。搜索引擎浏览分布在各个角落的网页的同时,还在后台不停地统计词语的出现频率。有一些词语出现率极高,带来巨大的统计成本,却不包含太多的具体意义,比如汉语的“的、是、了”和英文单词“the、and”之流。如果要得出包含该词的全部结果,实在是过多了。例如遇到哈姆雷特名言中的那些高频词汇,经常导致搜索“引擎”突然熄火,因此这些单词得名“停止词”。在google“阅读”哈姆雷特的名言时,遇到了四个停止词,出于无奈,所以它只好对频率最低的“not”进行搜索,得到了一些有关“not”的流行网站。
如果将此名言括上引号,google便会突然开窍,顺利地寻找到相关的网站。这一功能被称作短语搜索(phrase search)。不过,比google更智能的是alltheweb,它已将这句名言列入搜索目录,在结果页面中直接提供了相关链接。
搜索如何实现
“已向英特网搜索gerald salton。共有 5,430 项查询结果,这是第1~10项。搜索用时0.06秒。”0.06秒,体现着以google为代表的搜索引擎的快捷和高效。这一切,又是如何实现的呢?
通常情况下,一间机房只能摆放10台服务器,但是google的机房内可以容纳80台服务器,因为它们都是拆掉了机壳和部分零件的裸机。larry page和sergey brin他们将机器的外壳拆掉,再卸下没用的芯片和零件使整机体积缩小,而且容易维护,当然也节省了租用机房的花销。google使用了超过一万台的服务器,并将其分散到五个不同地区的机房内,用以应付浩如烟海的网络信息。
为了对每一次搜索请求做出快速的反应,搜索引擎在前期下足了功夫。它们在后台不停地重复三步操作。第一步,搜索引擎会不断的利用爬虫(crawler)程序搜集互联网上所有可达的网页,无论是公开的还是隐藏的—只要曾被访问过,就会招致“爬虫”上身。这样,定期外出的“爬虫”就为搜索引擎囤积起一个海量数据库。由于“爬虫”外出遵循一定的周期,有时可能跟不上网页更新的速度,所以google的“网页快照”会出现与目标页面不尽相同的情况。第二步,另一个程序会统计出缓存网页(cached page)中各个字词出现的频率。第三步,根据词频概括出页面的中心思想和段落大意,再按照不同的关键词提炼出索引目录。用户的每一次搜索请求都是基于这些索引计算而得,因此响应异常迅速。
无论google的pagerank专利技术,还是百度全球独有的“超链分析”技术,其大致想法都差不多:统计每个网页被其它网页链接指向的情况,次数越多则级别越高,排名也就越靠前。有的搜索引擎专家指出,搜索算法上usedrank比pagerank更为准确。usedrank指的是根据用户点击搜索结果而再次做出的统计。有的页面可能通过开始的计算被排在结果的第八页,但是通过查看每条链接的属性,引擎可以将用户点击多而且浏览成功的页面提到前面来。alltheweb、yahoo和百度等搜索引擎都老老实实地统计了每一次点击,而google则非常直接,不做任何再次统计。
很多服务网站认同这样一个观点,用户是懒惰的。根据点击情况做出的统计,很多用户一般只看完搜索结果的第一页,并不浏览后续页面。因此一些网站把更多的搜索结果显示在第一页上,比如yahoo,它的“第一页”有20项。而新浪则把“和盘托出”的服务形式发展到了登峰造极,在情人节当天搜索“鲜花”,一下子就跳出了78个网站链接。但是google、alltheweb和百度等搜索引擎依然坚持简洁的作风,每页只显示10条搜索结果。
除了搜索算法的不同,各家搜索引擎也在细化服务,推出了日趋丰富的搜索功能,比如大家钟爱的google图像搜索。其实,alltheweb的图像功能也十分优秀,它还同时支持音频、视频以及下载站点的搜索。
整合搜索引擎
那么,用户是否不得不逐一访问每个搜索引擎以得到最好的搜索结果呢?也许不必。搜索整合技术可以一次性地提供尽可能多的信息。
搜索整合(meta search)如果译作“后搜索”,可能听起来更时髦一些,不过这就无法体现其重新梳理搜索结果这一标志性的功能。通常的搜索是从庞杂的网络资源中按照某个线索分门别类的提取信息,而meta search则是在其他搜索引擎的发现结果之上进行再加工,可谓是搜索的搜索。
当用户向搜索整合引擎输入关键词之后,它即向若干个独立工作的搜索引擎同时发送搜索请求,并从它们的网页数据库中检索出所需的信息。搜索整合引擎没有建立自己的网页数据库,它的一切数据都来自其他的搜索引擎;所以,整合的结果也不会比其他任何一家搜索引擎的结果更好。但是,它可以将用户从重复性劳动中解放出来,同时提供更有条理的搜索结果—这也是meta search研发之初的理想。
目前搜索整合引擎大致以两种方式进行工作。比较流行的做法是将搜索结果分析整合,删除重复的条目,进而针对主题实现聚类操作。这类网站中的佼佼者有vivisimo、metacrawler和dogpile等。另一类搜索整合网站面向治学严谨的研究者,如surfwax和copernic agent。它们提供关键词的逻辑运算功能,在提供大量搜索结果的同时,协助用户挖掘信息,从而做出更深入的专题研究。第二类网站相当专业,一般需要缴费,在普通用户中并不流行。
关于搜索引擎的数据
● 在互联网的应用排名中,搜索仅次于e-mail而位居第二;
● 人均每次输入关键词数量为1.3个;
● 网页上的高频词汇出现率约占总字数的1/3,在实际搜索中几乎不起作用;
● 使用搜索引擎高级功能的用户低于0.5%,其中一部分是图书馆管理员。他们向读者提供其无法搜索到的信息,利用的工具还是搜索引擎,不过是高级功能;
● 20xx年,百度被7800万中国网民使用了110亿次,其中有近7亿次搜索与华人明星有关。
近500万道试题、20多万套资源、50多万篇作文、60多万篇范文免费使用
每天仅需0.22元,尊享会员权益