据不完全统计,每年网络文学行业因盗版损失接近100亿元。近一段时间以来,阅文集团、晋江文学城等纷纷升级防盗版措施,把大数据、云计算等互联网新兴技术应用到防盗版、防抄袭上,技术手段有了进展。
阅文集团旗下起点中文网负责人表示,去年,我们基于自己的数据库开发了一整套特殊算法模型数据库,在编辑后台可以直观地比对作者的文本是否有抄袭,虽然增加了服务器压力,但是我觉得很值得。
当前,这套针对抄袭行为上线的特殊算法模型数据库已经在整个阅文集团平台应用,在这个系统支持下,编辑可以实时查重作者上传的作品内容。作者每发一章,平台就可以自动对比全网书库,提醒编辑本章与书库中内容的重复率,以便人工查验是否抄袭,当重复率超过50%时,平台就会自动报警,该做法有效解决了抄袭现象。
据了解,目前阅文集团已实现快速查询底层能力,秒级内实时计算出指定章节内容重复度,为了建立最专业的防抄袭监控体系,阅文集团通过历年深耕,已积累千万级的作品基础数据,有效章节数达亿,有效段落数达数百亿,为防抄袭提供大数据基础能力。
希望更多有利于网络文学发展的新技术可以早日应用!