摘 要:针对综合集成研讨环境中的专家权威度评价问题,提出了一种基于semrank的专家权威度计算方法。该方法既考虑专家之间的交互结构,又考虑专家发言内容之间的语义关联。由于专家之间的交互具有动态复杂性,在计算语义关联时,引入了时间衰减函数,反映时间这一要素的影响。实验结果表明,提出的专家权威度计算方法合理有效;在综合集成研讨环境中,对促进专家良性互动和激发专家思维具有一定的作用。
关键词:基于cyberspace的综合集成研讨厅;群体交互;semrank;开放的复杂巨系统
expert authority estimating method based on semrank in cwme
wang ai, li yao-dong, li wei-jie
(key laboratory of complex systems & intelligence science, institute of automation, chinese academy of sciences, beijing100190, china)
abstract:to solve the problem of measuring experts’ authority in cwme,this paper proposed a method for estimating expert authority based on semrank.this method not only considered the interactive structure between experts, but also took into account semantic relation between the experts’ speeches.as the interaction between experts possessed dynamic complexity,introduced the time decay function to estimating semantic relation. experimental result shows that the proposed method is feasible and effective. it lays a good foundation for experts to interact and inspire in cwme.
key words:cyberspace for workshop of metasynthetic engineering(cwme); collective interaction; semrank; open complex giant systems
0 引言
1990年钱学森等人[1]提出开放的复杂巨系统的概念,以及处理这类系统的方法论——从定性到定量的综合集成方法。WWw.133229.cOM综合集成法就其实质而言是将专家群体(各种有关的专家)、数据和各种信息与计算机技术有机地结合起来,把各种学科的科学理论和人的经验知识结合起来,三者构成一个系统。这个方法的成功关键在于充分发挥了系统的整体优势和综合优势。1992年3月,钱学森进一步提出了人机结合,从定性到定量的综合集成研讨厅(hwme)体系的思想[2]。这个研讨厅的构思是把人集成于系统之中,采用人机结合、以人为主的技术路线,充分发挥人的作用,使研讨的集体在讨论问题时互相启发,互相激活,使集体创见远远胜过个人的智慧[3]。
随着internet和各种通信网络的迅速普及,cyberspace(电子空间和数字空间)成为一个重要的概念,它使参与者跨越时间和地域的限制,随时随地就所关心的问题进行研究、交流和探讨,并可随时利用网络上的大量资源。信息技术的这个发展,为综合集成研讨厅的实现提供了一种新的、可能的形式,即基于cyberspace的综合集成研讨厅(cwme)[4]。通过多年的探索与实践,已经成功建立了几个典型的cwme系统[5,6]。
在cwme体系中,专家群体是最具有能动性的成员,各专家以研讨的方式畅所欲言,充分表达自己的观点,随时进行质询和辩论,以促进对复杂问题认识的提高。但是在研讨过程中,每个专家对同一复杂问题的认识和判断都不尽相同,且参与者个人的行为和判断会不同程度地影响周围每个人的思维判断,使得专家群体中的交互关系存在着微妙的随时间变化的动态复杂性。因此,在综合集成研讨厅体系中,如何衡量专家意见的合理性,计算在研讨过程中涌现出来的专家权威度,刻画专家群体之间的交互关系和结构,从而促进研讨流畅、高效地进行,是研讨厅体系实践和应用过程中的一个重要问题。
文献[7]提出一种对发言观点进行权威度计算的方法。该方法借鉴万维网网页的链接概念,根据发言之间的响应关系建立广义专家群体的有向链接结构。该结构采用有向属性图表示,专家的每条发言作为一个节点,每个节点有两个属性,即见解质量属性和见解评价属性。专家发言之间的响应关系作为有向边(链接)。根据发言响应和被响应的情况计算每条发言的权威度,发言被响应的次数越多,该条发言的权威度越高;权威度较高的发言所响应的发言,其权威度也较高,反之权威度越小。文献[8]提出了基于即时发言评价的专家权威度计算方法。在研讨过程中,各位专家在主持人的引导下按照一定的评价指标即时对发言进行评价,所采用的评价指标是相关度、可信度、合理度以及启发度。在研讨过程中,一个专家的权威度主要是由其发言效率和评价效率决定的。因此,基于即时发言评价的专家权威度计算方法的基本思想是通过计算专家的发言效率和评价效率,并对两者进行适当加权,进而得出专家的总体权威度。
上述方法尽管可以计算专家某条发言的权威度,但是并没有从语义的角度考虑专家的发言内容之间的关系,同时也没有考虑专家群体交互的动态复杂性。基于此,本文提出了基于semantic-pagerank(semrank)的专家权威度计算方法。该方法既考虑专家之间的交互结构,又考虑专家发言内容之间的语义关联;在计算语义关联时,该方法还引入了时间要素这一概念来体现专家交互的动态复杂性。实验结果表明,本文提出的专家权威度计算方法合理、有效,可以为与会专家在综合集成研讨环境中进行良性互动提供一定的参考意义。
1 pagerank算法
本文提出的semrank算法是在pagerank的基础发展得到的,“pagerank”技术[9]最早由斯坦福大学的“google”研究小组提出。可以用一种“随机冲浪”模型作为“pagerank”的理论基础,该模型描述网络用户对网页的访问行为。假设如下:
a)用户随机地选择一个网页作为上网的起始网页;
b)看完这个网页后,从该网页所含的超链接中随机地选择一个页面继续进行浏览;
c)沿着超链接前进了一定数目的网页后,用户对这个主题感到厌烦,重新随机选择一个网页进行浏览,如此反复。
根据上述的用户行为模型,pagerank的基本思想就是引入一个网页的权威值的概念,其网页的权威值与网页的内容无关,权威值计算是根据网络的拓扑结构图。网页p的权威值取决于两个要素:a)有多少网页引用了它(网页p);b)引用网页p的这些网页的权威值。因此这是一个循环迭代的过程[10]。计算公式如下:
x?p=dn+(1-d)?q∈pa[p]x?qh?q(1)
其中:d∈(0,1)是阻尼因子;h?q是节点q的出度,就是q有多少个超链接外链;pa[p]是指向p的网页集合;n是指网络拓扑结构中节点数,即网页的数量。
2 基于semrank的专家权威度计算方法
综合集成研讨厅体系的链接结构是通过专家群体的有效互动建立起来的。在互动过程中,专家对以前的发言进行评论,同时发表自己对问题的见解,通过这种响应建立起个体之间响应关系,进而可建立专家群体的有向链接结构。链接结构中,专家每次的发言为一个节点,专家发言的响应或者被响应关系为有向边,从而使得这种链接结构可用有向属性图表示。这与pagerank中描述www的有向属性有相似之处:www中的网页对应一个节点,www中网页的链接关系对应图中的边。文献[7]采用的就是这个思路计算专家发言的权威度。
在实践过程中,运用上述方法却经常遇到两个问题:a)虽然某条发言a在长时间内得到较多的响应,但此时发言的主题已经发生了一定程度的改变,此时a的权威度理应下降,但是由于pagerank算法本身不考虑发言内容的语义相似度,导致计算出来的a的权威度偏高;b)越早的发言,权威度容易越高,这是因为较早的发言容易得到相对较多的响应,或者说最近的发言经常尚未得到充分的响应,此时按照pagerank计算的权威度会偏离真实的权威度情况。
针对这两个常见问题,在pagerank算法的基础上,本文提出semrank方法。该方法的优势在于:a)引入发言内容的语义相似度计算方法,在衡量某条发言的权威度时,不仅考虑它得到了多少响应,同时考虑它与所响应的发言之间的语义联系;b)引入时间衰减函数,对较近的响应赋予较大的权重,削弱某些早期发言过于长久的影响。
semrank算法同样根据有向属性图来计算每条发言的权威度,然后对每个专家的所有发言的权威值求均值,获得该专家的总体权威度。
2.1 发言内容的动态相似度计算
首先考虑专家发言之间的语义关联,把研讨中的每条发言表示成tf-idf向量形式,采用余弦相似度计算语义关联程度,计算公式如下:
sim(u,v)=?ω∈u,vtf?u(ω)tf?v(ω)idf(ω)?2
?ω∈u(tf?u(ω)idf(ω))?2
?ω∈v(tf?v(ω)idf(ω))?2
(2)
其中:tf?u(ω)和tf?v(ω)分别表示词ω在发言u和v中的词频;idf(ω)表示逆文本频率,计算公式为
idf(ω)=log (n/n?ω)(3)
其中:n?ω是表示有多少条发言包含词ω,n为总的发言数。
式(2)只考虑了专家发言之间的静态关系。实际上这种关系应该是与时间相关的:两条发言之间的时间间隔越长,语义之间的相似度就越低,反之则越高。因此本文考虑时间衰减要素,引入时间衰减函数(这里考虑的时间信息是专家的每条发言在整个研讨过程中的相对位置,而不是每条发言在研讨过程中出现的绝对时间),得到如下的动态相似度计算公式:
s?i(u,v,t)=sim(u,v)×f?i(u,v,t);i=1,2(4)
其中:f?i(u,v,t)为发言u与v之间的时间衰减函数。这里采用两种形式:
a)f?1(u,v,t)=1-|k-i-1|/n。其中:发言u为研讨中第k个发言,发言v为研讨中第i个发言。
b)f?2(u,v,t)=1/|k-i|。其中:发言u为研讨中第k个发言,发言v为研讨中第i个发言。
2.2 专家权威度计算
基于semrank的专家权威度计算的算法实现过程如下:
初始值:向量p?0=(p?0(1),p?0(2),…,p?0(n)),其中p?0(u)=1/n(u=1,2,…,n)。?
输入:error ε。
输出: 向量p=(p(1),p(2),…,p(n))。
t=0
repeat
t=t+1
根据式(6)计算p?t(u)(u=1,2,…,n)
δ=‖p?t-pt-1‖
until δ<ε
returnp?t
在考虑了发言内容之间的动态语义相似度以后,专家之间交互的有向属性图就成为了一个加权的有向属性图。从文献[11]获得启发,在加权的有向属性图的基础上计算专家发言的权威值。
加权的有向属性图通过两个矩阵的点乘形式表示:
b?kn×n=an×n?•×sim?kn×n;k=1,2(5)
其中:b?kn×n(i, j)=an×n(i, j)×sim?kn×n(i, j)(i, j=1,2,…,n;k=1,2);矩阵an×n为邻接矩阵,如果节点i到j之间有一条有向边,则an×n(i, j)为1,否则为0;矩阵sim?kn×n为动态相似度矩阵,式中sim?kn×n(i, j)=s?k(i,j,t)(k=1,2)。
在此加权有向属性图矩阵b?kn×n的基础上,专家发言的权威值计算如下:
p?k(u)=dn+(1-d)?v∈adj[u]b?k(v,u)b?k(v,i)p?k(v) (6)
其中:k=1或k=2,即计算矩阵b?kn×n时采用了哪个时间衰减函数;n是属性图的节点总数;d是阻尼因子,一般都在区间[0.1,0.2]选择,一般选择0.15;adj[u]是指向u的发言集合。
最后将权威度向量进行归一化,即
p=(p(1)maxni=1 p(i),
p(2)maxni=1 p(i),…,
p(n)maxni=1 p(i))(7)
3 研讨实例及其分析
4 结束语
针对综合集成研讨环境中的专家权威度评价问题,本文提出基于semrank的专家权威度计算方法。该方法既考虑了专家之间的交互结构,又考虑了专家发言内容之间的语义关联,同时引入了时间衰减函数来反映交互的动态复杂性。实验结果表明,本文提出的专家权威度计算方法合理、有效,可帮助专家快速了解当前的交互结构,避免思维的过分发散,加快专家群体的自组织过程,为深化认识、激发思维奠定了较好的基础。
本文所提的权威的计算方法尽管考虑到了发言之间的语义关联关系以及时间衰减因素,但是由于这种关联程度计算方法并不足以严格划分发言的主题,在研讨话题发生变化时,会在一定程度上导致权威度更新的滞后与混淆。在下一步的工作中,可以加入更多的语义理解及分析内容,采用分类和聚类方法,对专家发言进行动态主题建模,获取专家主题的转移趋势,进而在此基础上更加准确地计算专家在某一主题上的权威度,以及在所有主题上的综合权威度。
参考文献:
[1]钱学森,于景元,戴汝为.一个科学新领域——开放的复杂巨系统及其方法论[j].自然杂志,1990,13(1):3-10.
[2]王寿云,于景元,戴汝为,等.开放的复杂巨系统[m].杭州:浙江科学技术出版社,1995.
[3]戴汝为,李耀东.基于综合集成的研讨厅体系与系统复杂性[j] .复杂系统与复杂性科学,2004,1(4):1-24.
[4]戴汝为.系统学与中医药创新发展[m].北京:科学出版社,2008.
[5]李耀东,崔霞,戴汝为.综合集成研讨厅的理论框架、设计与实现[j].复杂系统与复杂性科学,2004,1(1):27-32.
[6]赵明昌, 李耀东.一个新的综合集成研讨厅软件框架[j].计算机工程与应用,2008, 44(11):1-4.
[7]崔霞,戴汝为,李耀东.群体智慧在综合集成研讨厅体系中的涌现[j].系统仿真学报, 2003,15(1):146-153.
[8]李敏花,戴汝为,李耀东.一种基于即时发言评价的专家权威度计算方法[j].模式识别与人工智能,2008,21(4):469-475.
[9]李晓明,闫鸿飞,王继民.搜索引擎——原理、技术与系统[m].北京:科学出版社,2005.
[10]bianchini m,gori m,scarselli f.inside pagerank[j].acm trans on internet technology,2005,5(1):92-128.
[11]hassan a,fader a,crespin m h,et al.tracking the dynamic evolution of participant salience in a discussion[c]//proc of the 22nd international conference on computational linguistics.morristown,nj:association for computational linguistics,2008:313-320.