摘 要:针对综合集成研讨环境中的专家权威度评价问题,提出了一种基于semrank的专家权威度计算方法。该方法既考虑专家之间的交互结构,又考虑专家发言内容之间的语义关联。由于专家之间的交互具有动态复杂性,在计算语义关联时,引入了时间衰减函数,反映时间这一要素的影响。实验结果表明,提出的专家权威度计算方法合理、有效;在综合集成研讨环境中,对促进专家良性互动和激发专家思维有一定的作用。
关键词:基于cyberspace的综合集成研讨厅;群体交互;semrank;开放的复杂巨系统
doi:10.3969/j.issn.1001-3695.2010.07.010
expert authority estimating method based on semrank in cwme
wang ai, li yao-dong, li wei-jie
(key laboratory of complex systems & intelligence science, institute of automation, chinese academy of sciences, beijing100190, china)
abstract:to solve the problem of measuring experts’ authority in cwme,this paper proposed a method for estimating expert authority based on semrank.this method not only considered the interactive structure between experts, but also took into account semantic relation between the experts’ speeches.as the interaction between experts possessed dynamic complexity,introduced the time decay function to estimating semantic relation. experimental result shows that the proposed method is feasible and effective. it lays a good foundation for experts to interact and inspire in cwme.
key words:cyberspace for workshop of metasynthetic engineering(cwme); collective interaction; semrank; open complex giant systems
0 引言
1990年钱学森等人[1]提出开放的复杂巨系统的概念,以及处理这类系统的方法论——从定性到定量的综合集成方法。wwW.133229.Com综合集成法就其实质而言是将专家群体(各种有关的专家)、数据和各种信息与计算机技术有机地结合起来,把各种学科的科学理论和人的经验知识结合起来,三者构成一个系统。这个方法的成功关键在于充分发挥了系统的整体优势和综合优势。1992年3月,钱学森进一步提出了人机结合,从定性到定量的综合集成研讨厅(hwme)体系的思想[2]。这个研讨厅的构思是把人集成于系统之中,采用人机结合、以人为主的技术路线,充分发挥人的作用,使研讨的集体在讨论问题时互相启发,互相激活,使集体创见远远胜过个人的智慧[3]。
随着internet和各种通信网络的迅速普及,cyberspace(电子空间和数字空间)成为一个重要的概念,它使参与者跨越时间和地域的限制,随时随地就所关心的问题进行研究、交流和探讨,并可随时利用网络上的大量资源。信息技术的这个发展,为综合集成研讨厅的实现提供了一种新的、可能的形式,即基于cyberspace的综合集成研讨厅(cwme)[4]。通过多年的探索与实践,已经成功建立了几个典型的cwme系统[5,6]。
在cwme体系中,专家群体是最具有能动性的成员,各专家以研讨的方式畅所欲言,充分表达自己的观点,随时进行质询和辩论,以促进对复杂问题认识的提高。但是在研讨过程中,每个专家对同一复杂问题的认识和判断都不尽相同,且参与者个人的行为和判断会不同程度地影响周围每个人的思维判断,使得专家群体中的交互关系存在着微妙的随时间变化的动态复杂性。因此,在综合集成研讨厅体系中,如何衡量专家意见的合理性,计算在研讨过程中涌现出来的专家权威度,刻画专家群体之间的交互关系和结构,从而促进研讨流畅、高效地进行,是研讨厅体系实践和应用过程中的一个重要问题。
文献[7]提出一种对发言观点进行权威度计算的方法。该方法借鉴万维网网页的链接概念,根据发言之间的响应关系建立广义专家群体的有向链接结构。该结构采用有向属性图表示,专家的每条发言作为一个节点,每个节点有两个属性,即见解质量属性和见解评价属性。专家发言之间的响应关系作为有向边(链接)。根据发言响应和被响应的情况计算每条发言的权威度,发言被响应的次数越多,该条发言的权威度越高;权威度较高的发言所响应的发言,其权威度也较高,反之权威度越小。文献[8]提出了基于即时发言评价的专家权威度计算方法。在研讨过程中,各位专家在主持人的引导下按照一定的评价指标即时对发言进行评价,所采用的评价指标是相关度、可信度、合理度以及启发度。在研讨过程中,一个专家的权威度主要是由其发言效率和评价效率决定的。因此,基于即时发言评价的专家权威度计算方法的基本思想是通过计算专家的发言效率和评价效率,并对两者进行适当加权,进而得出专家的总体权威度。
上述方法尽管可以计算专家某条发言的权威度,但是并没有从语义的角度考虑专家的发言内容之间的关系,同时也没有考虑专家群体交互的动态复杂性。基于此,本文提出了基于semantic-pagerank(semrank)的专家权威度计算方法。该方法既考虑专家之间的交互结构,又考虑专家发言内容之间的语义关联;在计算语义关联时,该方法还引入了时间要素这一概念来体现专家交互的动态复杂性。实验结果表明,本文提出的专家权威度计算方法合理、有效,可以为与会专家在综合集成研讨环境中进行良性互动提供一定的参考意义。
1 pagerank算法
本文提出的semrank算法是在pagerank的基础发展得到的,“pagerank”技术[9]最早由斯坦福大学的“google”研究小组提出。可以用一种“随机冲浪”模型作为“pagerank”的理论基础,该模型描述网络用户对网页的访问行为。假设如下:
a)用户随机地选择一个网页作为上网的起始网页;
b)看完这个网页后,从该网页所含的超链接中随机地选择一个页面继续进行浏览;
c)沿着超链接前进了一定数目的网页后,用户对这个主题感到厌烦,重新随机选择一个网页进行浏览,如此反复。
根据上述的用户行为模型,pagerank的基本思想就是引入一个网页的权威值的概念,其网页的权威值与网页的内容无关,权威值计算是根据网络的拓扑结构图。网页p的权威值取决于两个要素:a)有多少网页引用了它(网页p);b)引用网页p的这些网页的权威值。因此这是一个循环迭代的过程[10]。计算公式如下:
xp=dn+(1-d)q∈pa[p]xqhq(1)
其中:d∈(0,1)是阻尼因子;hq是节点q的出度,就是q有多少个超链接外链;pa[p]是指向p的网页集合;n是指网络拓扑结构中节点数,即网页的数量。
2 基于semrank的专家权威度计算方法
综合集成研讨厅体系的链接结构是通过专家群体的有效互动建立起来的。在互动过程中,专家对以前的发言进行评论,同时发表自己对问题的见解,通过这种响应建立起个体之间响应关系,进而可建立专家群体的有向链接结构。链接结构中,专家每次的发言为一个节点,专家发言的响应或者被响应关系为有向边,从而使得这种链接结构可用有向属性图表示。这与pagerank中描述/shehuishijianbaogao/" target="_blank" title="">实践过程中,运用上述方法却经常遇到两个问题:a)虽然某条发言a在长时间内得到较多的响应,但此时发言的主题已经发生了一定程度的改变,此时a的权威度理应下降,但是由于pagerank算法本身不考虑发言内容的语义相似度,导致计算出来的a的权威度偏高;b)越早的发言,权威度容易越高,这是因为较早的发言容易得到相对较多的响应,或者说最近的发言经常尚未得到充分的响应,此时按照pagerank计算的权威度会偏离真实的权威度情况。
针对这两个常见问题,在pagerank算法的基础上,本文提出semrank方法。该方法的优势在于:a)引入发言内容的语义相似度计算方法,在衡量某条发言的权威度时,不仅考虑它得到了多少响应,同时考虑它与所响应的发言之间的语义联系;b)引入时间衰减函数,对较近的响应赋予较大的权重,削弱某些早期发言过于长久的影响。
semrank算法同样根据有向属性图来计算每条发言的权威度,然后对每个专家的所有发言的权威值求均值,获得该专家的总体权威度。
2.1 发言内容的动态相似度计算
首先考虑专家发言之间的语义关联,把研讨中的每条发言表示成tf-idf向量形式,采用余弦相似度计算语义关联程度,计算公式如下:
sim(u,v)=ω∈u,vtfu(ω)tfv(ω)idf(ω)2
ω∈u(tfu(ω)idf(ω))2
ω∈v(tfv(ω)idf(ω))2
(2)
其中:tfu(ω)和tfv(ω)分别表示词ω在发言u和v中的词频;idf(ω)表示逆文本频率,计算公式为
idf(ω)=log (n/nω)(3)
其中:nω是表示有多少条发言包含词ω,n为总的发言数。
式(2)只考虑了专家发言之间的静态关系。实际上这种关系应该是与时间相关的:两条发言之间的时间间隔越长,语义之间的相似度就越低,反之则越高。因此本文考虑时间衰减要素,引入时间衰减函数(这里考虑的时间信息是专家的每条发言在整个研讨过程中的相对位置,而不是每条发言在研讨过程中出现的绝对时间),得到如下的动态相似度计算公式:
si(u,v,t)=sim(u,v)×fi(u,v,t);i=1,2(4)
其中:fi(u,v,t)为发言u与v之间的时间衰减函数。这里采用两种形式:
a)f1(u,v,t)=1-|k-i-1|/n。其中:发言u为研讨中第k个发言,发言v为研讨中第i个发言。
b)f2(u,v,t)=1/|k-i|。其中:发言u为研讨中第k个发言,发言v为研讨中第i个发言。
2.2 专家权威度计算
基于semrank的专家权威度计算的算法实现过程如下:
初始值:向量p0=(p0(1),p0(2),…,p0(n)),其中p0(u)=1/n(u=1,2,…,n)。
输入:error ε。
输出: 向量p=(p(1),p(2),…,p(n))。
t=0
repeat
t=t+1
根据式(6)计算pt(u)(u=1,2,…,n)
δ=‖pt-pt-1‖
until δ<ε
returnpt
在考虑了发言内容之间的动态语义相似度以后,专家之间交互的有向属性图就成为了一个加权的有向属性图。从文献[11]获得启发,在加权的有向属性图的基础上计算专家发言的权威值。
加权的有向属性图通过两个矩阵的点乘形式表示:
bkn×n=an×n•×simkn×n;k=1,2(5)
其中:bkn×n(i, j)=an×n(i, j)×simkn×n(i, j)(i, j=1,2,…,n;k=1,2);矩阵an×n为邻接矩阵,如果节点i到j之间有一条有向边,则an×n(i, j)为1,否则为0;矩阵simkn×n为动态相似度矩阵,式中simkn×n(i, j)=sk(i,j,t)(k=1,2)。
在此加权有向属性图矩阵bkn×n的基础上,专家发言的权威值计算如下:
pk(u)=dn+(1-d)v∈adj[u]bk(v,u)bk(v,i)pk(v) (6)
其中:k=1或k=2,即计算矩阵bkn×n时采用了哪个时间衰减函数;n是属性图的节点总数;d是阻尼因子,一般都在区间[0.1,0.2]选择,一般选择0.15;adj[u]是指向u的发言集合。
最后将权威度向量进行归一化,即
p=(p(1)maxni=1 p(i),
p(2)maxni=1 p(i),…,
p(n)maxni=1 p(i))(7)
3 研讨实例及其分析
下面以一个初步形成的研讨厅体系的专家研讨过程为例(文献[7]中的示例),来说明基于semrank专家权威度计算方法。其中,发言专家是以一些博士研究生和硕士研究生进行的仿真,专家的发言是经济专业人士帮助并提供的。其中,zh代表主持人,t、c、g、l、m代表不同的专家,在主持人的主持下专家们进行研讨的过程与结果如图1所示。
zh:好,如果各位专家没有意见,现在进入研讨。首先请对今年的经济形势作一个基本判断。
t:在扩大内需政策影响下,经济增长幅度止跌回升。今年仍有趋好潜力。首先,除了出口增幅趋缓外,投资、消费需求增速均有所提高;其二,结构矛盾继续缓解,产销衔接较好;其三 ,上半年工业企业经济效益明显好转。
c:(除了t提到的几个因素外)另一个积极因素是工业经济在结构调整中增长加快,上半年工业增长保持了10%以上,势必对今年经济起到积极作用。
g:(除了c和t提到的因素外)另外启动了一些供给政策,如对中小企业的支持、技改贴息提高装备水平、国企改革等, 对改善宏观经济发展环境是十分必要的。
l:(我不同意他们三人的分析)我担心的是,世界经济形势会对我国经济增长产生极其不利的影响。根据世界银行估计,美国经济今年预计增长0.7%(去年5%),世界经济增长2.9%,全球贸易增长5.2%。
t:(不同意 l的分析)我认为不必过分忧虑。实际上去年内需也起到重要作用。只要今年继续坚持积极的财政政策,加上公务员增资、提高低收入者收入水平等政策到位,内需增长会弥补出口下滑对经济增长的不利影响。
m:l的意见确实值得注意。我国对美国的出口占全部出口的21%,如果美国经济出现衰退,必将影响我国出口,还将对我国吸引外资、资本市场、投资信心等方面产生影响,因为……
zh :l,按你的判断,今年经济形势走势会如何?
l:(响应 zh)我不太乐观,受世界经济的影响,我国今年经济增速会比上年下降,gdp增长 7%……
m:我同意l的看法……
t:(不同意 l)我认为,经济增长幅度还会有所上升,到达 8.3%……
c:( 对他们两人l和t的意见都不太赞同)从总体上,我对今年经济增长还是有信心的,gdp增长与上年持平,达到 8%。但以下问题值得注意:一是非国有经济投资问题;二是消费增长具有一定的不确定性;三是农民收入连续多年没有多大的改善,影响到总体的消费水平……
g:(不太同意l、t、c的意见)考虑到出口会受到影响,gdp增长幅度将比去年略有下降,达到7.6%~7.8%……
将2.2节中论述的基于semrank的专家权威度计算方法应用于上述的研讨过程,专家的每次发言为一个节点,用专家研讨时的id和发言时间或者次数标志类节点,为清楚起见,用“专家id+t+发言的次数”来标志节点,获得了以下的专家个体互动关系:
tt1;
ct1→tt1; gt1→tt1,ct1;
lt1→tt1,ct1,gt1;tt2→lt1;mt1→lt1;
zht1→lt1; lt2→zht1;mt2→lt2;
tt3→lt2; ct2→lt2,tt3;
gt2→ct2,lt2,tt3;
上述的研讨数据需预处理,这里采用