一种基于条件随机场的征稿通知抽取方法

摘　要：研究人员为了能够追踪前沿，提高科研水平，必须时刻关注与其研究相关的会议和专题。许多会议和专题都会通过邮件的形式发布征稿通知。因此，如何自动提取邮件中征稿通知的信息显得十分重要，这将为进一步实现对征稿通知的自动管理奠定基础，方便研究人员写稿、投稿的进程安排。本文利用条件随机场模型提取征稿通知的关键信息，如会议名称、会议主题、会议日期、地点和截稿日期等。本文组合多种特征，包括通用的文本串特征、领域词典和样式特征等。实验表明本文所提出的方法具有较高的准确率。

关键词：征稿通知；信息抽取；条件随机场

1. 引言
　　科学研究人员在进行科学研究的时候，经常需要关注学术会议、工作组等方面的信息，从而获悉何时何地发表他们自己的研究成果。许多会议和专题都会通过邮件的形式发布征稿通知(Call For Papers, 简称CFP)。征稿通知一般包括论文、摘要、短文、demo、相关主题、程序委员会成员、联系地址和会议网站等信息。研究人员通过这些信息可以找到在截稿日期之前适合投稿的会议。
为了能够有效管理这些征稿信息内容，需要自动提取征稿通知中的关键信息，使得这些信息可以通过结构化的形式进行访问。信息提取领域已经有许多研究关于如何从文本中提取事实，本文将文本中的每个词汇标注为一个实体的开始(beginning of an entity)、中间(inside an entity)或者不属于一个实体(not part of any entity)三种类别。本文用B-Entity表示一个实体的开始，用I-Entity表示在一个实体中间，用O表示不属于任何实体。比如，一个会议名称的第一个词汇标注为B-TI，其所有后续词汇标注为I-TI。因此信息抽取问题可以看作为词汇分类问题，并且满足如下约束：I-Entity只能紧跟B-Entity或I-Entity。
　　每个词汇表示为一系列二元特征用于描述词汇本身、上下文以及空间属性。本文采用的特征见表1。本文使用条件随机场从训练样本中学习标注函数用于标注新文本。
3.2 词汇特征
　　词汇特征描述单个词汇或它们周围词汇的特性。本文使用通用的（领域独立的）和领域依赖的两种类型的词汇特征。
　　对于每个词汇，采用下列信息提取词汇特征：
(1) 每个词汇分配一个或多个通用词汇类别，如大写字母开头词汇、全部大写字母词汇、大写字母词汇、混合大写字母词汇；
(2) 每个词汇通过将所有字母转化为小写字母后，其自身和周边词汇也是特征；
(3) 通过通用词典识别月份名称和星期中的天数；
(4) 通过会议名称词典识别经常出现在会议名称中的词汇，比如Conference, Workshop, International, on，以及在征稿通知中经常出现以大写字母开头的单词，如Call, Deadline（见表2）
表2 领域词典
类别
词汇
INST
University, Center, Institute, School
ORG
Society, Association, Council, Consortium, Group
EV
Conference, Workshop, Symposium, Meeting, Congress, Track, …
ATTR
Annual, Interdisciplinary, Special, Joint, European, Interational,…
DL
Deadline, Reminder, Submission, Due
TH
st, nd, rd, th
FOR
for
除了自身词汇作为特征外，我们增加了窗口为2的特征表示词汇上下文。比如，对于序列“Call for Papers 9th EUROPEAN WORKSHOP ON NATURAL LANGUAGE GENERATION”，我们提取词汇9th的特征为 W=9th, HASDIG, DAY, NTH, W-1=papers, ICAP-1, D_NONAME-1, W-2=for, D_FOR-2, W+1=european, ACAP+1, D_ATTR+1, W+2=workshop, ACAP+2, D_EV+2。

3.3 样式特征
样式特征指的是词汇在文本某一行的位置信息（比如，行的开头或结尾）或在整个文本中的所处行的信息（比如，文本的第一行/最后一行，空行）。对于每个词汇，我们增加词汇和行的样式特征以及2个前驱行和2个后继行的特征。比如，对于特征集 BOL, FIRST10, FIRST20 , INDENT, FIRST10-1, FIRST20-1, BLANK-1, BOT-2, FIRST10-2, FIRST20-2, INDENT-2, FIRST10+1, FIRST20+1, BLANK+1, FIRST10+2, FIRST20+2，该特征集表示当前词汇出现在一行的开头，当前行处在第三行，前面和后面行是空行，当前行和上面第二行以及下面第二行均缩进，所有行均在文本的头10行和头20行。
4.实验
4.1 数据集和工具
本文收集了各种邮件列表中从2007年到2010年之间的500个不同的征稿通知，只使用每个消息的文本部分，移除电子邮件头等信息。每个征稿通知手工注释五个字段。本文采用10折交叉验证度量性能，采用Mallet开源工具 Andrew McCallum. MALLET: A machine learning for language toolkit. http://mallet.cs.umass.edu/ , 2011.