我们大家都听说过一个80/20定律,就是说80%的总量常常是由20%高频率的元素构成的。反过来,80%低频率的元素,或者说长尾的元素,只构成20%的总量。这个规律,其实是齐普夫定律(Zipf’s Law)的一个特例。齐普夫(George Kingsley Zipf)是美国20世纪初的语言学家,他经过对各种语言中词频的统计发现,一个词的排位,和它词频的乘积,近乎是一个常数。 比如在汉语中,“的”是最常见的字,排位第一,它的字频大约是6%,于是1x6%=6%。第二高频字是“是”这个字,排位第二,而它的字频大约是3%,恰好2x3%=6%。字频排位第三的字是“一”,它的字频是2%多一点,3x2%也是6%。 后来经济学家和社会学家发现齐普夫定律在他们的学科中也成立,比如你如果把世界上每一个人的财富排一个序,让序号乘以财富的数量,就会发现有类似的规律。今天,齐普夫定律被认为是自然界的普遍规律。我们每一个人都需要牢记齐普夫定律,这样就不会相信所有人都能够通过创业成为富翁这样的鸡汤观点了,因为它违背齐普夫定律。 不仅如此,齐普夫定律在低频词上也有一个出乎意料的特点,就是词频乘以那个频率的词的数量,也近乎是一个常数。比如在一个词汇表中,大量的词只出现一次,但是这些词的总数甚至占到了词汇表的一半左右,然后还有大量的出现两三次的词,总数也不少。 如果我们假定只出现一次的词有N1个,出现两次的词有N2个,出现三次的词有N3个,那么1xN1,和2xN2,3xN3,都差不太多,因为大多数词其实只出现一次。
计量学中最重要的应用在文献分布的三大定律——布莱德福定律(Bradford’s Law)、齐夫定律(Zipf’s Law)及洛卡定律(Lotka’s Law)。布莱德福定律即是指文献分散定律,其说明某一学科中少数的核心期刊,集中于该学科中大量的论文。齐夫定律 可以表述为, 在自然语言的 语素库 里, 一个单词出现的频率与它在频率表里的排名成 反比. 当两种东西相遇时,必然有两种结果. 一是一种东西留下了什么. 二是一种东西带走了什么! 这就是著名的罗卡定律
86 浏览 3 回答
194 浏览 2 回答
286 浏览 4 回答
152 浏览 1 回答
199 浏览 2 回答
159 浏览 4 回答
293 浏览 2 回答
118 浏览 6 回答
153 浏览 1 回答
324 浏览 2 回答
339 浏览 2 回答
335 浏览 4 回答
339 浏览 3 回答
93 浏览 3 回答
123 浏览 3 回答
304 浏览 4 回答
106 浏览 4 回答
164 浏览 6 回答
294 浏览 5 回答
320 浏览 2 回答
184 浏览 6 回答
210 浏览 3 回答
164 浏览 3 回答
202 浏览 2 回答