很多啊,比如:信息论与数据分析的联系,数据分析在信息论中的应用,香农熵的综合应用等等
摘要:香农于1948年10月发表于《贝尔系统技术学报》上的论文《A Mathematical Theory of Communication》(通信的数学理论)作为现代信息论研究的开端。1984年贝尔研究所的香农在题为《通讯的数学理论》的论文中系统地提出了关于信息的论述,创立了信息论。信息论主要研究信息的本质和度量方法。它是系统论和控制论的理论基础,也是信息科学的理论基础。
关键字:信息概念,熵,美国数学家香农
参考书目:1。《信息论》 南丰公益书院;
2.《安全科学技术百科全书》(中国劳动社会保障出版社,2003年6月出版);
3.《安全工程大辞典》(化学工业出版社,1995年11月出版)(安全文化网);
4.部分资料摘取自互联网。
(一)信息的内涵
1948—1949年,美国数学家香农(C.E.Shannon)发表了《通信的数学理论》和《在噪声中的通信》两篇论文,提出了度量信息的数学公式,标志着信息论这门学科的诞生。信息论主要研究信息的本质和度量方法。它是系统论和控制论的理论基础,也是信息科学的理论基础。它是关于事物运动状态的规律的表征,其特点是:
(1)信息源于物质运动,又不是物质和运动;(2)信息具有知识的秉性,是任何一个系统的组织程度和有序程度的标志;(3)只有变化着的事物和运动着的客体才会有信息,孤立静止的客体或永不改变的事物不会有信息;(4)信息不遵守物质和能量的“守恒与转化定律”, 同样的信息,大家可以共同使用,信息不会减少,相同的信息,能够用不同物质载体进行传播,同一种物质,也可以携带不同的信息,信息不会变化。
信息论是一门研究信息传输和信息处理系统中一般规律的学科。香农在他的《通讯的数学理论》中明确提出:“通讯的基本问题是在通讯的一端精确地或近似地复现另一端所挑选的消息。”
信息是“人们在选择一条消息时选择的自由度的量度”。消息所带的信息可以解释为负熵,即概率的负对数。威沃尔指出,‘信息’一词在此理论中只在一种专门的意义上加以使用,我们一定不要把它和其通常用法混淆起来”。也就是说,这里的信息不是我们通常使用的概念(各种消息、情报和资料的总称),而是一个变量,它表示信息量的大小。而信息量则是某种不确定性趋向确定的一种量度,消息的可能性越大,信息就越少。如果一个系统是有序的,它不具有很高的混乱度或选择度,其信息(或熵)是低的。
信息论是一门用数理统计方法来研究信息的度量、传递和变换规律的科学。它主要是研究通讯和控制系统中普遍存在着信息传递的共同规律以及研究最佳解决信息的获限、度量、变换、储存和传递等问题的基础理论。
信息论的研究范围极为广阔。一般把信息论分成三种不同类型:
(1)狭义信息论是一门应用数理统计方法来研究信息处理和信息传递的科学。它研究存在于通讯和控制系统中普遍存在着的信息传递的共同规律,以及如何提高各信息传输系统的有效性和可靠性的一门通讯理论。
(2)一般信息论主要是研究通讯问题,但还包括噪声理论、信号滤波与预测、调制与信息处理等问题。
(3)广义信息论不仅包括狭义信息论和一般信息论的问题,而且还包括所有与信息有关的领域,如心理学、语言学、神经心理学、语义学等。
信息有以下性质:客观性、广泛性、完整性、专一性。首先,信息是客观存在的,它不是由意志所决定的,但它与人类思想有着必然联系。同时,信息又是广泛存在的,四维空间被大量信息子所充斥。信息的一个重要性质是完整性,每个信息子不能决定任何事件,须有两个或两个以上的信息子规则排布为完整的信息,其释放的能量才足以使确定事件发生。信息还有专一性,每个信息决定一个确定事件,但相似事件的信息也有相似之处,其原因的解释需要信息子种类与排布密码理论的进一步发现。
信息论是一门具有高度概括性、综合性,应用广泛的边缘学科。信息论是信息科学的理论基础,它是一门应用数理统计方法研究信息传输和信息处理的科学,是利用数学方法来研究信息的计量、传递、交换和储存的科学。随着科学技术的发展,信息论研究范围远远超出了通信及类似的学科,已延伸到生物学、生理学、人类学、物理学、化学、电子学、语言学、经济学和管理学等学科。
(二)信息论发展历史
香农被称为是“信息论之父”。人们通常将香农于1948年10月发表于《贝尔系统技术学报》上的论文《A Mathematical Theory of Communication》(通信的数学理论)作为现代信息论研究的开端。1984年贝尔研究所的香农在题为《通讯的数学理论》的论文中系统地提出了关于信息的论述,创立了信息论。维纳提出的关于度量信息量的数学公式开辟了信息论的广泛应用前景。1951年美国无线电工程学会承认信息论这门学科,此后得到迅速发展。20世纪50年代是信息论向各门学科冲击的时期,60年代信息论不是重大的创新时期,而是一个消化、理解的时期,是在已有的基础上进行重大建设的时期。研究重点是信息和信源编码问题。到70年代,由于数字计算机的广泛应用,通讯系统的能力也有很大提高,如何更有效地利用和处理信息,成为日益迫切的问题。人们越来越认识到信息的重要性,认识到信息可以作为与材料和能源一样的资源而加以充分利用和共享。信息的概念和方法已广泛渗透到各个科学领域,它迫切要求突破香农信息论的狭隘范围,以便使它能成为人类各种活动中所碰到的信息问题的基础理论,从而推动其他许多新兴学科进一步发展。目前,人们已把早先建立的有关信息的规律与理论广泛应用于物理学、化学、生物学等学科中去。一门研究信息的产生、获取、变换、传输、存储、处理、显示、识别和利用的信息科学正在形成。
香农把“熵”这个概念引入信息的度量。1965年法国物理学家克劳修斯首次提出这一概念,后来这一概念由19世纪奥地利物理学家L.玻尔茨曼正式提出。信息论和控制论又赋予了“熵”更新更宽的含义。
熵是一个系统的不确定性或无序的程度,系统的紊乱程度越高,熵就越大;反之,系统越有序,熵就越小。控制论创始人维纳曾说:“一个系统的熵就是它的无组织程度的度量。”熵这个概念与信息联系在一起后,获得这样的思路:信息的获得永远意味着熵的减少,要使紊乱的系统(熵大的系统)有序化(减少熵)就需要有信息,当一个系统获得信息后,无序状态减少或消除(熵减少);而如果信息丢失了,则系统的紊乱程度增加。一个系统有序程度越高,则熵就越小,所含信息量就越大,反之无序程度越高,则熵越大,信息量就越小,信息与熵是互补的,信息就是负熵,两者互为负值。
信息量=系统状态原有的熵-系统状态确定后的熵
电讯系统不存在功能性因素,即人的主观能动因素,因此不能照搬,但对计算社会信息的量,仍有参考价值。如研究新闻的信息量时就非常有意义。一则新闻讯息中所含信息量的大小是不确定程度的大小决定的,能够最大限度地消除人们对新闻事件认识上的不确定性的讯息,信息量就大,而不能减少受众对新闻事件的认识的不确定的,信息量就小,这与讯息的长度、字数和篇幅无关,不是版面大小、字数多寡、“本报讯”多少就能说明信息的大小的。
信息科学是人们在对信息的认识与利用不断扩大的过程中,在信息论、电子学、计算机科学、人工智能、系统工程学、自动化技术等多学科基础上发展起来的一门边缘性新学科。它的任务主要是研究信息的性质,研究机器、生物和人类关于各种信息的获取、变换、传输、处理、利用和控制的一般规律,设计和研制各种信息机器和控制设备,实现操作自动化,以便尽可能地把人脑从自然力的束缚下解放出来,提高人类认识世界和改造世界的能力。信息科学在安全问题的研究中也有着重要应用。
1949年,香农和韦弗提出了有关传播的数学模式。
信源—>消息—>编码—>信号—>信道—>信号+噪声—>译码—>消息—>信宿
噪声—>信道
对上图的概念解释如下:
信源:信源就是信息的来源,可以是人、机器、自然界的物体等等。信源发出信息的时候,一般以某种讯息的方式表现出来,可以是符号,如文字、语言等,也可以是信号,如图像、声响等等。
编码:编码就是把信息变换成讯息的过程,这是按一定的符号、信号规则进行的。按规则将信息的意义用符码编排起来的过程就是编码过程,这种编码通常被认为是编码的第一部分。编码的第二部分则是针对传播的信道,把编制好的符码又变换成适于信道中传输的信号序列,以便于在信道中传递,如声音信号、电信号、光信号等等。如信息源产生的原始讯息是一篇文章,用电报传递的时候,就要经过编码,转换成电报密码的信号,然后才能经过信道传播。
信道:就是信息传递的通道,是将信号进行传输、存储和处理的媒介。信道的关键问题是它的容量大小,要求以最大的速率传送最大的信息量。
噪音:是指信息传递中的干扰,将对信息的发送与接受产生影响,使两者的信息意义发生改变。
译码:是对信息进行与编码过程相反的变换过程,就是把信号转换为讯息,如文字、语言等,这是第一步。第二步译码则是指将讯息还原为信息意义的过程。
信宿:是信息的接受者,可以是人也可以是机器,如收音机、电视机等。
作为方法论,香农的这一信息系统模式可以被适用于许多系统,如通信系统、管理系统、社会系统等。传播学学者对这一模式进行改造之后,成为表述人类信息传播的基本模式之一,成为传播学领域最基本的研究范式,而信源、编码、译码、信宿等概念也成为传播学研究的基本概念。
香农的信息论为传播学领域提供了基本的范式,它使以前模糊的信息概念变得在数学上可以操纵。香农的信息论与维纳的控制论是相互影响的,维纳也是最早认识信息论价值的学者,并与香农共同发明了有关信息的熵度量法则。
信息论的创始人是美贝尔电话研究所的数学家香农(C.E.Shannon1916——),他为解决通讯技术中的信息编码问题,突破老框框,把发射信息和接收信息作为一个整体的通讯过程来研究,提出通讯系统的一般模型;同时建立了信息量的统计公式,奠定了信息论的理论基础。1948年申农发表的《通讯的数学理论》一文,成为信息论诞生的标志。 申农创立信息论,是在前人研究的基础上完成的。1922年卡松提出边带理论,指明信号在调制(编码)与传送过程中与频谱宽度的关系。1922年哈特莱发表《信息传输》的文章,首先提出消息是代码、符号而不是信息内容本身,使信息与消息区分开来,并提出用消息可能数目的对数来度量消息中所含有的信息量,为信息论的创立提供了思路。美国统计学家费希尔从古典统计理论角度研究了信息理论,苏联数学家哥尔莫戈洛夫也对信息论作过研究。控制论创始人维纳建立了维纳滤波理论和信号预测理论,也提出了信息量的统计数学公式,甚至有人认为维纳也是信息论创始人之一。 在信息论的发展中,还有许多科学家对它做出了卓越的贡献。法国物理学家L.布里渊(L.Brillouin)1956年发表《科学与信息论》专著,从热力学和生命等许多方面探讨信息论,把热力学熵与信息熵直接联系起来,使热力学中争论了一个世纪之久的“麦克斯韦尔妖”的佯谬问题得到了满意的解释。英国神经生理学家(W.B.Ashby)1964年发表的《系统与信息》等文章,还把信息论推广应用于生物学和神经生理学领域,也成为信息论的重要著作。这些科学家们的研究,以及后来从经济、管理和社会的各个部门对信息论的研究,使信息论远远地超越了通讯的范围。因此,信息论可以分成两种:狭义信息论与广义信息论。 狭义信息论是关于通讯技术的理论,它是以数学方法研究通讯技术中关于信息的传输和变换规律的一门科学。广义信息论,则超出了通讯技术的范围来研究信息问题,它以各种系统、各门科学中的信息为对象,广泛地研究信息的本质和特点,以及信息的取得、计量、传输、储存、处理、控制和利用的一般规律。显然,广义信息论包括了狭义信息论的内容,但其研究范围却比通讯领域广泛得多,是狭义信息论在各个领域的应用和推广,因此,它的规律也更一般化,适用于各个领域,所以它是一门横断学科。广义信息论,人们也称它为信息科学。关于信息的本质和特点,是信息论研究的首要内容和解决其它问题的前提。信息是什么?迄今为止还没有一个公认的定义。 英文信息一词(Information)的含义是情报、资料、消息、报导、知识的意思。所以长期以来人们就把信息看作是消息的同义语,简单地把信息定义为能够带来新内容、新知识的消息。但是后来发现信息的含义要比消息、情报的含义广泛得多,不仅消息、情报是信息,指令、代码、符号语言、文字等,一切含有内容的信号都是信息。哈特莱第一次把消息、情报、信号、语言等等都是信息的载体,而信息则是它们荷载着的内容。但是信息到底是什么呢?申农的狭义信息论第一个给予信息以科学定义:信息是人们对事物了解的不确定性的消除或减少。这是从通讯角度上下的定义,即信源发出了某种情况的不了解的状态,即消除了不定性。并且用概率统计数学方法,来度量为定性被消除的量的大小:H(x)为信息熵,是信源整体的平均不定度。而信息I(p)是从信宿角度代表收到信息后消除不定性的程度,也就是获得新知识的量,所以它只不在信源发出的信息熵被信宿收到后才有意义。在排除干扰的理想情况下,信源发出的信号与信宿接收的信号一一对应,H(x)与I(p)二者相等。所以信息熵的公式也就是信息量的分式。式中的k是一个选择单位的常数,当对数以2为底时,单位称比特(bit),信息熵是l0g2=1比特。 在申农寻信息量定名称时,数学家冯.诺依曼建议称为熵,理由是不定性函数在统计力学中已经用在熵下面了。在热力学中熵是物质系统状态的一个函数,它表示微观粒子之间无规则的排列程度,即表示系统的紊乱度,维纳说:“信息量的概念非常自然地从属于统计学的一个古典概念——熵。正如一个系统中的信息量是它的组织化程度的度量,一个系统的熵就是它的无组织程度的度量;这一个正好是那一个的负数。”这说明信息与熵是一个相反的量,信息是负熵,所以在信息熵的公式中有负号,它表示系统获得后无序状态的减少或消除,即消除不定性的大小。 信息一般具有如下一些特征:1可识别;2可转换;3可传递;4可加工处理;5可多次利用(无损耗性);6在流通中扩充;7主客体二重性。信息是物质相互作用的一种属性,涉及主客体双方;信息表征信源客体存在方式和运动状态的特性,所以它具有客体性,绝对性;但接收者所获得的信息量和价值的大小,与信宿主体的背景有关表现了信息的主体性和相对性。8信息的能动性。信息的产生、存在和流通,依赖于物质和能量,没有物质和能量就没有能动作用。信息可以控制和支配物质与能量的流动。 信息论还研究信道的容量、消息的编码与调制的问题以及噪声与滤波的理论等方面的内容。信息论还研究语义信息、有效信息和模糊信息等方面的问题。广义信息论则把信息定义为物质在相互作用中表征外部情况的一种普遍属性,它是一种物质系统的特性以一定形式在另一种物质系统中的再现。信息概念具有普遍意义,它已经广泛地渗透到各个领域,信息科学是具有方法论性质的一门科学。信息方法具有普适性。 所谓信息方法就是运用信息观点,把事物看做是一个信息流动的系统,通过对信息流程的分析和处理,达到对事物复杂运动规律认识的一种科学方法。它的特点是撇开对象的具体运动形态,把它作为一个信息流通过程加以分析。信息方法着眼于信息,揭露了事物之间普遍存在的信息联系,对过去难于理解的现象从信息观点作出了科学的说明。信息论为控制论、自动化技术和现代化通讯技术奠定了理论基础,为研究大脑结构、遗传密码、生命系统和神经病理象开辟了新的途径,为管理的科学化和决策的科学批提供了思想武器。信息方法为认识当代以电子计算机和现代通讯技术为中心的新技术革命的浪潮,为认识论的研究和发展,将进一步提高人类认识与改造自然界的能力。