摘 要:研究人员为了能够追踪前沿,提高科研水平,必须时刻关注与其研究相关的会议和专题。许多会议和专题都会通过邮件的形式发布征稿通知。因此,如何自动提取邮件中征稿通知的信息显得十分重要,这将为进一步实现对征稿通知的自动管理奠定基础,方便研究人员写稿、投稿的进程安排。本文利用条件随机场模型提取征稿通知的关键信息,如会议名称、会议主题、会议日期、地点和截稿日期等。本文组合多种特征,包括通用的文本串特征、领域词典和样式特征等。实验表明本文所提出的方法具有较高的准确率。
关键词:征稿通知;信息抽取;条件随机场
1. 引言
科学研究人员在进行科学研究的时候,经常需要关注学术会议、工作组等方面的信息,从而获悉何时何地发表他们自己的研究成果。许多会议和专题都会通过邮件的形式发布征稿通知(Call For Papers, 简称CFP)。征稿通知一般包括论文、摘要、短文、demo、相关主题、程序委员会成员、联系地址和会议网站等信息。研究人员通过这些信息可以找到在截稿日期之前适合投稿的会议。
为了能够有效管理这些征稿信息内容,需要自动提取征稿通知中的关键信息,使得这些信息可以通过结构化的形式进行访问。信息提取领域已经有许多研究关于如何从文本中提取事实,本文将文本中的每个词汇标注为一个实体的开始(beginning of an entity)、中间(inside an entity)或者不属于一个实体(not part of any entity)三种类别。本文用B-Entity表示一个实体的开始,用I-Entity表示在一个实体中间,用O表示不属于任何实体。比如,一个会议名称的第一个词汇标注为B-TI,其所有后续词汇标注为I-TI。因此信息抽取问题可以看作为词汇分类问题,并且满足如下约束:I-Entity只能紧跟B-Entity或I-Entity。
每个词汇表示为一系列二元特征用于描述词汇本身、上下文以及空间属性。本文采用的特征见表1。本文使用条件随机场从训练样本中学习标注函数用于标注新文本。
3.2 词汇特征
词汇特征描述单个词汇或它们周围词汇的特性。本文使用通用的(领域独立的)和领域依赖的两种类型的词汇特征。
对于每个词汇,采用下列信息提取词汇特征:
(1) 每个词汇分配一个或多个通用词汇类别,如大写字母开头词汇、全部大写字母词汇、大写字母词汇、混合大写字母词汇;
(2) 每个词汇通过将所有字母转化为小写字母后,其自身和周边词汇也是特征;
(3) 通过通用词典识别月份名称和星期中的天数;
(4) 通过会议名称词典识别经常出现在会议名称中的词汇,比如Conference, Workshop, International, on,以及在征稿通知中经常出现以大写字母开头的单词,如Call, Deadline(见表2)
表2 领域词典
类别
词汇
INST
University, Center, Institute, School
ORG
Society, Association, Council, Consortium, Group
EV
Conference, Workshop, Symposium, Meeting, Congress, Track, …
ATTR
Annual, Interdisciplinary, Special, Joint, European, Interational,…
DL
Deadline, Reminder, Submission, Due
TH
st, nd, rd, th
FOR
for
除了自身词汇作为特征外,我们增加了窗口为2的特征表示词汇上下文。比如,对于序列“Call for Papers 9th EUROPEAN WORKSHOP ON NATURAL LANGUAGE GENERATION”,我们提取词汇9th的特征为 W=9th, HASDIG, DAY, NTH, W-1=papers, ICAP-1, D_NONAME-1, W-2=for, D_FOR-2, W+1=european, ACAP+1, D_ATTR+1, W+2=workshop, ACAP+2, D_EV+2。
3.3 样式特征
样式特征指的是词汇在文本某一行的位置信息(比如,行的开头或结尾)或在整个文本中的所处行的信息(比如,文本的第一行/最后一行,空行)。对于每个词汇,我们增加词汇和行的样式特征以及2个前驱行和2个后继行的特征。比如,对于特征集 BOL, FIRST10, FIRST20
, INDENT, FIRST10-1, FIRST20-1, BLANK-1, BOT-2, FIRST10-2, FIRST20-2, INDENT-2, FIRST10+1, FIRST20+1, BLANK+1, FIRST10+2, FIRST20+2,该特征集表示当前词汇出现在一行的开头,当前行处在第三行,前面和后面行是空行,当前行和上面第二行以及下面第二行均缩进,所有行均在文本的头10行和头20行。
4.实验
4.1 数据集和工具
本文收集了各种邮件列表中从2007年到2010年之间的500个不同的征稿通知,只使用每个消息的文本部分,移除电子邮件头等信息。每个征稿通知手工注释五个字段。本文采用10折交叉验证度量性能,采用Mallet开源工具 Andrew McCallum. MALLET: A machine learning for language toolkit. http://mallet.cs.umass.edu/ , 2011.