我们大家都听说过一个80/20定律,就是说80%的总量常常是由20%高频率的元素构成的。反过来,80%低频率的元素,或者说长尾的元素,只构成20%的总量。这个规律,其实是齐普夫定律(Zipf’s Law)的一个特例。齐普夫(George Kingsley Zipf)是美国20世纪初的语言学家,他经过对各种语言中词频的统计发现,一个词的排位,和它词频的乘积,近乎是一个常数。 比如在汉语中,“的”是最常见的字,排位第一,它的字频大约是6%,于是1x6%=6%。第二高频字是“是”这个字,排位第二,而它的字频大约是3%,恰好2x3%=6%。字频排位第三的字是“一”,它的字频是2%多一点,3x2%也是6%。 后来经济学家和社会学家发现齐普夫定律在他们的学科中也成立,比如你如果把世界上每一个人的财富排一个序,让序号乘以财富的数量,就会发现有类似的规律。今天,齐普夫定律被认为是自然界的普遍规律。我们每一个人都需要牢记齐普夫定律,这样就不会相信所有人都能够通过创业成为富翁这样的鸡汤观点了,因为它违背齐普夫定律。 不仅如此,齐普夫定律在低频词上也有一个出乎意料的特点,就是词频乘以那个频率的词的数量,也近乎是一个常数。比如在一个词汇表中,大量的词只出现一次,但是这些词的总数甚至占到了词汇表的一半左右,然后还有大量的出现两三次的词,总数也不少。 如果我们假定只出现一次的词有N1个,出现两次的词有N2个,出现三次的词有N3个,那么1xN1,和2xN2,3xN3,都差不太多,因为大多数词其实只出现一次。
计量学中最重要的应用在文献分布的三大定律——布莱德福定律(Bradford’s Law)、齐夫定律(Zipf’s Law)及洛卡定律(Lotka’s Law)。布莱德福定律即是指文献分散定律,其说明某一学科中少数的核心期刊,集中于该学科中大量的论文。齐夫定律 可以表述为, 在自然语言的 语素库 里, 一个单词出现的频率与它在频率表里的排名成 反比. 当两种东西相遇时,必然有两种结果. 一是一种东西留下了什么. 二是一种东西带走了什么! 这就是著名的罗卡定律
172 浏览 3 回答
175 浏览 2 回答
129 浏览 4 回答
209 浏览 1 回答
211 浏览 2 回答
254 浏览 4 回答
219 浏览 2 回答
137 浏览 6 回答
356 浏览 1 回答
140 浏览 2 回答
102 浏览 2 回答
80 浏览 4 回答
233 浏览 3 回答
195 浏览 3 回答
239 浏览 3 回答
198 浏览 2 回答
152 浏览 4 回答
294 浏览 3 回答
168 浏览 7 回答
82 浏览 2 回答
339 浏览 8 回答
336 浏览 2 回答
197 浏览 4 回答
163 浏览 3 回答
144 浏览 6 回答