导航

Beyond Search

最好走的路越走越难,最难走的路越走越容易

« Twine Beta:盛名之下,其实难副Digg+RDFa »

Word Count as a Measure of Quality on Wikipedia

Wikipedia 是个好东东!目前,Wikipedia 上大约有超过 2,000,000 个英文条目,已经成为一部地地道道的百科全书。但由于之前 GFW 作祟,要访问它必须得使用穿墙术,这大大降低了它在国内的影响力。最近沾了奥运会的光,Wikipedia 解封了。
我相信,大多数人都会有这样的印象,“Wikipedia 上的内容是高质量并且可以信赖的”。经常使用 google 的人尤其会这么认为,因为 Wikipedia 的内容经常会出现在 google search 结果的第一页内。随便试验几个例子就可以证明这一点,recommender systemsemantic web,或者更 general 一些的,automobileOlympic。国外有人做过一个实验,结论是,“96.6% of Wikipedia Pages Rank in Google's Top 10”。Wikipedia 的影响力之大,可见一斑。

但实际上,经常使用 Wikipedia 的人们发现, Wikiepedia 上的条目并不像我们想当然认为的那样尽善尽美,它也是鱼龙混杂的。而且要命的是,由于 Wikipedia 百科全书的性质,对于不熟悉的内容,读者很难区分哪些内容是高质量的,哪些又是滥竽充数的。Wikipedia 的管理者已经承认了这一点,并在试图解决这个问题。国外有学者把这个问题引入到了 research 领域,做了不少有意思的工作。
  1. Measure Wikipedia
  2. Information Quality Discussions in Wikipedia
  3. Assessing information quality of a community-based encyclopedia
  4. Wikipedia Article Quality Assessment and Ranking Tips for Users and Search Engine Engineers

刚刚结束的 WWW2008 会议里有一篇 short paper,《Size Matters: Word Count as a Measure of Quality on Wikipedia》。里面给出了一个令人吃惊的实验结果,在进行 Wikipedia 的文章质量评价时,仅仅只需要使用“Word Count”一个参数,就可以取得 96.31% 的准确率!这个结果,比许多使用复杂模型的算法,都要好!
可以看出来,作者写作这篇 paper 的态度是非常严谨的!但我个人还是认为,对于评价质量这个问题,article length 并不是一个严谨的指标,文章的实验结论似乎仅能说明,使用这个指标得到的结果与 wikipedia 现有数据拟合的更好而已。这篇文章更靠谱的结论应该是,“long articles are featured (good), and featured articles are long”。有这方面实际经验的朋友,欢迎讨论。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

Powered By Z-Blog 1.7 Laputa Build 70216 .Templete from Google黑板报

Copyright 2007-2008 Guwendong.cn. All Rights Reserved.

我的豆瓣九点

Feed@FeedSky

网站目录

Search

  •  

文章归档