信誉评级:能否还信息搜索一片蓝天?
2月28日,英国《新科学家》关注到Google搜索的一个新动向:Google尝试根据可信度而不是链接数,来决定网页在搜索结果中的排名。报道称,Google正在改变以往根据网页的导入链接数量来衡量网页质量的模式,其内部的一个研究小组着手研发的一个新系统,将不再计算导入链接的数量,而是计算网页内不实信息的数量,并给出网页的可信度分数,从而确定网页在搜索结果中的排列位置。
该研究小组论证道,互联网充斥着垃圾,一些虚假的医药广告可能会成为头条,一些胡编乱造的“新闻”如野火般到处蔓延。也就是说,如果网页被链接的数够多,即便充斥的是大量的不实信息,也会出现在搜索结果靠前的位置。在这个小组设计的新软件中,错误信息越少的网页将被视为越可信。
搜索结果是如何形成的?
对搜索结果的炮轰,对国内的互联网用户而言并不陌生,“竞价门”在国内某搜索引擎的头顶上始终难以挥散。刨却道德的苛责,作为长期浸染于互联网中的一员,我们平日里搜索的结果是如何得到的呢?
关于如Googlebot(俗称google爬虫)等搜索引擎的收录程序,科学的fan在此不作讨论。搜索引擎结果的好坏,业界有一个词用来衡度:相关性(Relevance),简单来讲,就是检索结果是不是用户所要查询的内容。就如要查询一个电话号码,很多人通常会打给114,在询问的过程中,用户绝不希望114给他们的是空号或者错误的答案。
搜索引擎要干的活,就是快速地响应用户的检索,把满足用户需求的搜索结果反馈给用户。能否快速地找到用户检索所需要的答案,或进一步来说,把与用户检索需求最相关的高质量内容纳入结果排序的前面是搜索引擎的核心工作。
目前,不同的搜索引擎使用了不同的排序方法。用得比较多的是“网页被链接的次数越多而且链接的站点越权威,质量就越高,排序越靠前”的超链接分析法和“查询词的频率越高,其排序就越靠前”的词频统计法。此外,还包括根据网页被点击次数决定的点击率法和以网站付费的多少来决定排序前后的付费竞价法。
Google搜索引擎中的PageRank,于其两位创始人拉里·佩奇和谢尔盖·布林于1998年在斯坦福大学发明出来,属于超链接分析法的突出代表。PageRank将对页面的链接看成是对页面的投票,是其重要性的表征。
搜索结果排序有多重要?
在搜索结果靠前的位置很重要,因为这直接关系到用户对搜索引擎的体验问题,用户能否在适当长度的搜索清单得到自己想要的答案,搜索引擎何时把用户想要的结果巧妙地呈现在用户面前,玄妙全在搜索结果的排序中。
有针对搜索引擎用户点击方式的研究表明:
1)60-65%的查询点击了名列搜索结果前10条的网页;
2)20-25%的人会考虑点击名列11到20的网页;
3)仅有3-4%的会点击名列搜索结果中列第21到第30名的网页。
也就是说,绝大部分用户是不愿意翻页去看搜索引擎给出的后面的结果。Google的点击热图和康乃尔大学的一项eye tracking实验,也很好地佐证了这样的结果。
光谱代表的是不同位置用户的点击热度,颜色越靠近红色表示点击强度越高
从Google点击热图(Heat Map)来看,搜索结果的前3条热度最高,吸引了大量的点击。换句话说,对搜索引擎而言,最前的几条结果最关键;在此处呈现用户想要的结果,对用户的满意程度至关重要。
康乃尔大学的eye tracking实验获得了更为精确的Google搜索结果的用户行为分析。分析结果表明,前三条结果的总点击几乎分流了搜索流量的80%,第一条结果获得了56.38%的搜索流量,第二条和第三条结果的排名依次降低,但远低于排名第一的结果,前三条结果的点击比例约为11:3:2。
信誉评级:能否还搜索引擎一片蓝天?
关于搜索质量,有其自身的评估体系。发轫于英国克兰菲尔德大学(Cranfield University)的Cranfield评价系统在各大搜索引擎公司内都有广泛的应用,还有Precision-Recall(准确率-召回率)评价指标、MAP(平均准确率法)、A/B Testing等等搜索引擎的结果质量的量化评价方法。同时,现在也已经出现了许多关注到搜索结果的应用,如能剔除滥发虚假信息的LazyTruth插件、会从垃圾网站中收集谣言并通过交叉参考其他来源进行查证或反驳的Emergent项目。穷其这些评估体系和应用,都是在关注同一个问题:提供给用户更好的搜索结果。
但客观地来讲,此番Google宣称要急于“facts”来决定网页在搜索结果中的排名,但究竟有多少“facts”能被爬虫(googlebot)快速且高质量地认定?这个事实恐怕会令人沮丧,只怕是强大如谷歌,一样无法改变这个“事实”。同时不要忘了,排序既是搜索引擎的权杖,更是搜索引擎向其衣食父母—广告商要价的谈资。信誉评级,更像是Google给用户传递的一个信号:作为搜索引擎,我一直致力于把最好的搜索结果呈现在你们面前!即便是出现如狗皮膏药的排序靠前的搜索结果,更有可能是我们的排序方法有问题。
将质量更高的搜索成果呈现在用户面前,是搜索引擎的立身之本和应然所为。更多地关注网页过往数据的真实性,做分级,对网页的可信度“信誉值”进行度量。在这一点上,Google还是令人赞赏和期待的。