基于Web检索的陕北民歌语料库设计

　摘要:运用语料库语言学的基本观点,探讨陕北民歌语料库构建原则及web管理系统的设计实现设计了陕北民歌access语料数据库,其中包含全文语料数据表、句子语料数据表、陕北民歌词表数据表共3个。介绍语料库的在线检索和管理功能,提出字词频统计功能和web在线检索功能实现的方法,开发基于asp的陕北民歌开放性语料库web管理系统,用户可以方便地通过ie浏览器进行语料检索、词频统计、语料提取等操作。关键词:语料库; 陕北民歌; 频度统计; web检索
　　中图分类号:tn911-34; tp311 文献标识码:a
　　文章编号:1004-373x(2010)22-0038-02
　　
　　design of folk song corpus based on web retrieval
　　zhang tong-xuan
　　 (management office of south campus, weinan teacher university, weinan 714000, china)
　　abstract: the structuring principle of folk song corpus of web management system is investigated with the basic features of corpus linguistics. the access corpus database of folk songs of northern shaanxi province is created, in which the full-text corpus form, the sentence corpus form and the lyric corpus form are contained. the online retrieval and management functions of the corpus are introduced. the implementation method of the word frequency statistics function and web online retrieval function is proposed. the web management system of the folk song corpus based on the asp is developed. as a result, users can carry out the online retrieval, word frequency statistics and corpus extraction through ie browser.keywords: corpus; folk song of northern shaanxi province; frequency statistics; web search
　　收稿日期:2010-06-28
　　基金项目:渭南师范学院2010专项基金资助项目(10ykz055)
　　
　　语料库作为基础研究是近年来应用语言学研究的一个重要发展。WWW.133229.cOm建立陕北民歌语料库是一个浩大工程,也是陕北民歌研究取得新突破的基础工程。陕北民歌是特定的时代、特定地理环境中的特定产物,是陕北劳动人民抒发感情的最好手段。陕北民歌研究始于20世纪初,到20世纪80年代中后期,在各个方面的研究都取得了不少成绩[1]。不过,传统研究往往着眼于作品的人文及艺术特征,研究者多半依靠自身良好的文化修养与“强闻博记”,凭感悟直接把握作品的内涵,对作品的语言全貌进行横向或纵向的细密分析时,往往显得力不从心[2]。20世纪80年代以来,随着计算机应用技术的不断发展,以语料库为基础的研究在语言学和计算机科学研究中都取得了丰硕的成果。无论是在语言学研究,还是在自然语言处理领域,语料库都已经成为重要的基础资源,发挥了越来越重要的作用。
　　1 陕北民歌语料库设计
　　1.1 陕北民歌语料库建设原则
　　语料库通常指为语言研究收集的、用电子形式保存的语言材料,由自然出现的书面语或口语样本汇集而成,用来代表特定语言或语言变体。通过语料库可以观察和把握语言事实,分析和研究语言系统规律。语料库已经成为语言学理论研究和语言工程不可缺少的基础资源,对它的研究已发展成为一个跨世纪、跨学科的语言研究学科。
　　陕北民歌语料库是“专用性语料库”(specialized corpus),是为陕北民歌研究服务的。在语料样本的选择上,力求反映陕北民歌语言的真实面貌,以采集到的民歌原始文本作为样本。单个语料样本的大小是由原始文本的篇幅决定的,篇幅较小的原始样本单独成篇,作为一个样本,篇幅较大的(如陕北说书、陕北道情等)则切分成大小相当的片断,每个片断作为一个样本。这样的语料样本提供的上下文语境更为广泛,更加适合进行语篇研究。在语料的代表性上,一是保持口语语料与书面语料的平衡,如实反映陕北民歌的基本面貌,语料库以民间采集的口语文本为主,同时兼顾各种已经汇编出版的陕北民歌著作;二是保持方言语料与普通话语料的平衡,以采集当地原生态民歌(特别是采集年龄大、没有接受过文化教育的老年人唱的土歌)为主,适当采集一些专业歌手的新陕北民歌。
　　1.2 陕北民歌语料数据库设计
　　陕北民歌语料库中样本没有进行语言属性标注,建设的语料库是“生语料库”。根据研究者对语料库的检索要求,该语料库设计研制了3个数据表,一是全文语料库数据表,即每个语料库样本作为一条数据记录存放在数据表中,以提供全文语境,方便于语篇的研究。检索项包括篇章标题、作者、演唱者、流传地区、体裁形式、内容分类以及篇章全文;二是将全文样本切分成句子,然后将每个句子当1条数据记录存放在数据表中,目的是进行句子单位的语言研究,可以实现词语搭配、例句提取、句型检索等;三是陕北民歌词表数据表,此表是基于统计抽词并结合刘育林编著的《陕北方言词典》[3]、张崇编著的《陕西方言词汇集》[4]等文献典籍进行补充建立的,词库有2个主要字段:1个是词条,1个是词条使用频度(该字段初始值为0,用来存放词频统计结果)。
　　2 陕北民歌语料库语料的加工
　　语料库的功能主要与3个因素有关,一是语料库的规模;二是语料的分布;三是语料的加工程度。语料的加工主要指文本格式处理和文本描述,而语料加工的深度决定了这个语料库能为使用者提供什么样的语言学信息。没有篇体描述信息的语料叫做生语料,经过词语切分、词性标注处理的语料可以获得更多的语言学信息。陕北民歌语料数据库共包括陕北民歌2 000余首,通过以词语为单位的切分和标注词性加工成熟语料。陕北民歌词切分标注的基本加工规范是从词义的整体性、词结构的整体性和定型性、具体的语言环境等标准和参考《陕北方言词典》、《陕西方言词汇集》等工具书来确定的,同时从适合计算机处理的角度出发,把词按词性分类修订为13大类:名词n,动词v,形容词a,数词m,量词q,代词r,副词d,介词p,连词c,助词u,叹词e,语气词y,拟声词o。名词类可以分为时间词t,方位词f,人名nr和地名ns;按结构分为12大类:名词性并列结构cn、动词性并列结构cv、形容词性并列结构ca、动宾结构vo、动补结构vc、主谓结构sp、名词性偏正结构xn、动词性偏正结构xv、形容词性偏正结构xa、方位结构nf、数量结构mq、介宾结构po。为了得到高精度的加工结果,有效的方法是首先由机器进行初步切分,然后由人工进行校对。加工项目包括“词切分”和“词性标注”。例如对生语料《半夜里来了你这勾命的鬼》的切分和标注结果如下:

骑上/v 那个/r 毛驴/n 哟/y 狗/n 咬/v 腿/n ,/w 半夜里/t 来/v 了/u 你/r 这/r 勾/v 命/n 的/u 鬼/n 。/w
　　搂住/v 那个/r 亲人/n 哟/e 亲上个嘴/v ,/w 肚子/n 里/f 的/u 疙瘩/n 化/k 成/v 了/u 水/n 。/w
　　3 陕北民歌语料库的web管理
　　系统设计有语料库查看和语料库管理两大功能。语料库是开放的,所以任何用户都可以通过web在线进行查看,可以实现语料浏览、语料检索、词频统计功能。语料库管理是通过授权用户进行管理,可以进行语料和词表的添加、编辑、删除等。
　　3.1 字词频统计功能的实现
　　字词频度统计是对全文数据记录样本文档内容进行字词频度统计,并分析统计结果。
　　字频统计是对多个汉字使用频度的统计,实现方法是先取得全文样本数据表里面存放的全部汉字字符串,然后依次取出1个汉字,根据汉字的内码值和类型,将其内码转化为一维线性地址,该一维线性地址对应一个数组的下标,把对应数组项值加1,做累计操作,最后记录这个汉字串的特征信息,并保存统计结果。
　　词频统计是对2个或2个以上汉字组成的词的使用频度进行统计。实现方法是先取得全文数据表里存放的汉字串,按最长优先匹配算法将汉字串进行自动切分成词,词的切分是基于词表数据表这个基本词库,做累计操作,最后记录特征信息[5]。
　　3.2 web在线检索功能的实现
　　该语料库管理系统采用b/s结构,数据库采用access,检索程序采用asp语言编写。检索功能利用 sql语句支持的 “like” 与 “%” 联合使用的匹配方式,限定包含指定关键字的匹配条件。在数据库查询设计中采用了 ado 2.0中 recordset记录集对象封装的get string方法,提高数据库查询效率,即把输出的全部结果放在一个很长的字符串里,服务器只需解释一遍 response.write 语句[6]。通过replacewith语句即可实现检索字符串的高亮显示。
　　该系统实现了全文模糊检索、检索结果分页显示及语料提取和词频统计。检索字符串可以是简体汉字的任意字符串,符合检索条件的语料样本均可分面显示出来。显示检索结果时,检索关键字红色高亮显示,以便快速找到关键词在语料中的位置。进行句子语料数据库检索时,显示结果进行“关键字居中”。所有检索结果允许复制或保存。
　　4 结语
　　构建基于文学研究的陕北民歌语料库及web管理系统,为陕北民歌的搜集整理、理论研究、开发利用提供了新的手段,打开新的领域,将为全国乃至全世界陕北民歌、语言文化研究者提供丰富、有价值的第一手资料,为保护和抢救陕北民歌这一人类文化瑰宝,抢救性地发掘这一逐渐消失的文化中的活化石,加强陕西的对外文化交流做出新的贡献。该语料库目前收集了各类体裁陕北民歌样本2 000多首,是国内首个专门为陕北民歌研究设计的完全开放性语料库和web管理系统。“从方法论的角度,它不仅可以用于研究语言系统的各个层面,而且可以应用于语言学之外的其他领域”[7]。本语料库方法在未来保护、研究各民族民歌工作中有极大的推广价值。
编辑整理　　
　　参考文献
　　[1]王克文.陕北民歌艺术初探[m].北京: