我相信,大多数人都会有这样的印象,“Wikipedia 上的内容是高质量并且可以信赖的”。经常使用 google 的人尤其会这么认为,因为 Wikipedia 的内容经常会出现在 google search 结果的第一页内。随便试验几个例子就可以证明这一点,recommender system,semantic web,或者更 general 一些的,automobile,Olympic。国外有人做过一个实验,结论是,“96.6% of Wikipedia Pages Rank in Google's Top 10”。Wikipedia 的影响力之大,可见一斑。
但实际上,经常使用 Wikipedia 的人们发现, Wikiepedia 上的条目并不像我们想当然认为的那样尽善尽美,它也是鱼龙混杂的。而且要命的是,由于 Wikipedia 百科全书的性质,对于不熟悉的内容,读者很难区分哪些内容是高质量的,哪些又是滥竽充数的。Wikipedia 的管理者已经承认了这一点,并在试图解决这个问题。国外有学者把这个问题引入到了 research 领域,做了不少有意思的工作。
- Measure Wikipedia
- Information Quality Discussions in Wikipedia
- Assessing information quality of a community-based encyclopedia
- Wikipedia Article Quality Assessment and Ranking Tips for Users and Search Engine Engineers
刚刚结束的 WWW2008 会议里有一篇 short paper,《Size Matters: Word Count as a Measure of Quality on Wikipedia》。里面给出了一个令人吃惊的实验结果,在进行 Wikipedia 的文章质量评价时,仅仅只需要使用“Word Count”一个参数,就可以取得 96.31% 的准确率!这个结果,比许多使用复杂模型的算法,都要好!
可以看出来,作者写作这篇 paper 的态度是非常严谨的!但我个人还是认为,对于评价质量这个问题,article length 并不是一个严谨的指标,文章的实验结论似乎仅能说明,使用这个指标得到的结果与 wikipedia 现有数据拟合的更好而已。这篇文章更靠谱的结论应该是,“long articles are featured (good), and featured articles are long”。有这方面实际经验的朋友,欢迎讨论。

