让AI技术与基础医学理论结合,成为AI用于临床 探索 的新思路。目前这一新思路已被证实确有更大潜力——
最近,由广州市妇女儿童医疗中心教授夏慧敏和加州大学圣地亚哥分校教授张康领衔、人工智能公司依图 科技 等共同参与的科研团队设计出一套基于AI的疾病诊断系统,就将医学知识图谱加入其中,使AI可以像人类医生一样根据读取的电子病历来“诊病”。
结果也颇为乐观:用纳入系统的55种常见儿科疾病和部分危急重症作测试,AI的诊断水平可达到儿科主治医生的专业水准。
目前,这一研究成果《使用人工智能评估和准确诊断儿科疾病》已于2月中旬在线发表于《自然—医学》杂志。
将深度学习技术与专业医学知识图谱进行结合,是该人工智能辅诊平台的最大特色。依图医疗总裁倪浩在接受笔者采访时说,未来对临床数据进行学习、为医生提供更多的辅助诊断能力(病种),采用深度学习+知识图谱的方式“很可行”。
为了使AI辅诊平台拥有专业的儿科医学知识,科研团队让它学习了56.7万名儿童136万份电子文本病历中的诊断逻辑。这些来自广州市妇女儿童医疗中心2016年1月至2017年7月间的电子病历,覆盖了初始诊断包括儿科55种病例学中常见疾病的1.016亿个数据点。
除了将医疗知识进行整合,科研团队还利用依图 科技 的自然语言处理(NLP)技术构建了一个自然语言处理模型,以对这些电子病历进行注释——通过将病历变得标准化,该模型在未经过“培训”的情况下可以粗略地将临床信息进行分类。
“粗略分类是指,将整个电子病历当作输入,将专家诊断结果作为输出,以达到粗略的分类。但这样并没有真正理解疾病本身,也很难解释为何做出了这个诊断。”倪浩告诉笔者, NLP模型虽然突破了病历文本语言和计算机语言之间的障碍,但知识图谱才是让AI诊断平台获取专家能力的关键 。
这也是他们接下来的一项重要工作:由30余位高级儿科医师和10余位信息学研究人员组成的专家团队,手动给电子病历上的6183张图表进行注释、持续检验和迭代,以保证诊断的准确性。
通过资深医疗专家注释的图表对AI诊断平台进行“培训优化验证”后,研究人员发现,经过深度学习的NLP模型可以对电子病历进行很好的注释,在体检和主诉项目的注释上分别达到最高灵敏度和精确度。也就是说, 深度学习的NLP模型能够准确地读取电子病历中记录的信息,并可以准确作出符合临床标准的批注。而这也是整个研究中最为关键的部分。
“通过引入知识图谱将每种疾病的电子病历深入解构,使得NLP模型具备了理解电子病历的能力。例如手足口病与哪些特征密切相关,川崎病最相关的特征是什么,让模型在给出准确诊断的基础上,能够具备更好的医学可解释性。”倪浩解释说,“有了知识图谱,再用深度学习技术来解构电子病历,就能够真正理解临床数据。基于此,机器学习分类等算法就有用武之地,否则把电子病历当成‘黑盒子’,是无法构建高精度可解释的模型的。”
综合利用深度学习技术与医学知识图谱对电子病历数据进行解构,研究人员据此构建了高质量的智能病种库,这使得后续可以较容易地利用智能病种库建立各种诊断模型。
构建一个多层级的诊断模型,是研究人员把AI诊断平台打造成为儿科医生的第二步。倪浩介绍说,这一基于逻辑回归分类器创建的诊断模型,首先会按呼吸系统疾病、胃肠道疾病、全身性疾病等几大系统分,然后在每一类下面做细分—— 这是让AI模拟人类医生的诊疗路径,对目标患儿的数据进行逐级判定 。
结果显示,基于NLP模型准确读取的数据,AI诊断模型能够对儿科疾病作出精确诊断: 平均准确率达90%,对神经精神失调疾病的诊断准确率更是高达98%。
在对相应儿科疾病的划分和诊断上,该诊断模型同样表现不俗。系统对上呼吸道疾病和下呼吸道疾病的诊断准确率分别为89%和87%。同时,该系统对普通系统性疾病以及高危病症也有很高的诊断准确率,例如传染性单核细胞增多症准确率为90%,水痘为93%,玫瑰疹93%,流感94%,手足口病为97%和细菌性脑膜炎为93%。
这揭示出,该诊断系统可以根据NLP系统注释的临床数据信息对常见儿科疾病作出较高准确度的判断。
研究人员随后运用11926个临床病例比较了AI诊断系统和5个临床治疗组诊断儿科疾病的水平,其中参与研究的治疗组从事临床工作时间和资历逐渐增加。结果显示, AI诊断系统反映模型综合性能的F1评分均值高于2个年轻医生组成的治疗组,但稍逊于3个高年资医生组成的治疗组。
论文认为,这说明该AI诊断系统可以协助年轻治疗团队进行疾病诊断,提升团队诊疗水平。
今年1月1日,该系统在广州市妇女儿童医疗中心投入临床应用。 仅1月1日至1月21日短短20天,该院医生实际调用它开展辅助诊断30276次,诊断与临床符合率达到87.4%。广州市妇儿中心医务部主任孙新在体验该系统后表示,这套系统在对疾病进行分组分类方面“比较科学”。
上述论文发表后,《纽约时报》点评这项研究称,“前后访问了儿科医院18个月中数十万名中国就医儿童的数据,能有这么庞大的数据量用于研究,也是中国在全球人工智能和竞赛中的优势。”
“数据确实是我们此次研究成果的核心关键之一。”倪浩说,“不过,高质量标准数据来源于强大的联合团队,我们专门开发了数据标准系统,进行了大量的数据标注。”
论文通讯作者之一、广州市妇女儿童医疗中心教授夏慧敏表示,这篇文章的启示意义在于“通过系统学习文本病历,AI或将诊断更多疾病”。不过他提醒道, 当下还须清醒认识到,仍有很多基础性工作要做扎实,比如高质量数据的集成便是一个长期的过程。
笔者了解到,该医院在近3年里注重将数据标准化、结构化处理,实现了50多个诊断数据子系统的相互交流和互联互通,为该系统应用打下了基础。
“此外,A I学习了海量数据后,其诊断结果的准确性仍然需要更大范围的数据对其进行验证和比对。 ”夏慧敏说。
AI技术落地的4元素之中,场景也非常重要。论文的另一位通讯作者张康认为,该研究以儿科疾病为对象意义重大。
“对儿科疾病的诊断是医疗中的一大痛点。一些儿科疾病威胁程度较大需要尽快得到治疗,而儿童恰恰不善于表达病情,因此快速、准确地对儿科疾病进行诊断非常必要。”张康表示,当前儿科医生供不应求,论文中构建的AI诊断系统对于严重不足的医疗资源会有很大的辅助作用。
相关论文信息:DOI:10.1038/s41591-018-0335-9
1.Pubmed
是医学,生命科学领域的数据库,旨在组织、分享科研领域信息。为用户提供文献检索,图片检索,影响因子查询,免费全文下载,国家自然科学基金统计分析等服务
2.EMBASE
内容涉及药学、临床医学、基础医学、预防医学、法医学和生物医学工程等。除了可以检索丰富的医学文献外,还支持药物和疾病检索。
3.Cochrane library
Cochrane library(考克兰图书馆)是the Cochrane Collaboration的主要产品,目前是John Wiley & Sons国际出版社负责出版。
它包含以下6个数据库 ?
1.Cochrane Database of Systematic Review(医学保健领域系统评估的领先资源)
2.Cochrane 临床对照实验数据库
3.Cochrane Methodology Register(介绍进行对照试验时所用方法的参考出版物)
4.Health Technology Assessment Database(卫生技术评估)
5.NHS Economic Evaluation Datab6(经济评估数据库)
6.About The Cochrane Collaboration(组成Cochrane Collaboration的80个组织的信息)
4.Clinical trials
Clinical trials(美国临床试验数据库)是美国国立医学图书馆(NML)与美国食品与药物管理局(FDA)在1997年开发的数据库。里面提供了网站临床试验注册辅导,登记了各种观察性研究和干预性研究,包括药物、器械和手术等干预方式。其注册和查询临床试验均为免费~
5.万方医学网
是万方数据股份有限公司旗下的网站。拥有220多种中文独家医学期刊全文、1000多种中文医学期刊全文、4100多种国外医学期刊文摘(全文以电子邮件原文传递方式获得,核心期刊全部收齐),其中包括中华医学会、中国医师协会等独家合作期刊220余种;中文期刊论文近360万篇,外文期刊论文455万余篇。
6.知网 中国知识资源总库提供CNKI源数据库、外文类、工业类、农业类、医药卫生类、经济类和教育类多种数据库。CNKI已集结了7000多种期刊、近1000种报纸、18万本博士/硕士论文、16万册会议论文、30万册图书以及国内外1100多个专业数据库。
如果是校外没有这些数据库账号,可以从seek68文献馆中找到。而且还省米。
关于周刊
本期周刊,我们选择了9篇预训练相关的论文,涉及词汇迁移、常识问答、多模态训练、层次训练、对比学习、图像分割、图文模型、蛋白质作用和免疫特征表示的 探索 。此外,在研究动态方面,我们选择了2篇预训练资讯,将介绍大模型竞争和视觉算法年度回顾方面的一些最新内容。最后,在资源推荐方面,我们选择了1篇预训练资源,将介绍跨语言摘要方面的一些最新内容。
本期贡献者:申德周 翟珂 吴新刚
论文推荐
标题:俄罗斯Yandex、Facebook等 | Fine-Tuning Transformers: Vocabulary Transfer(微调Transformer:词汇迁移)
简介:本文讨论了巨大型预训练模型为下游任务微调而引发迁移学习的 探索 之一:词汇迁移。自然语言处理领域最新进展中Transformer已成为绝对主流。这些模型的大多数实际自然语言处理应用通常是通过迁移学习实现的。本文研究了用于微调的语料库特定标记化是否会提高模型的最终性能。作者通过一系列的词汇表优化和迁移实验,证明了这种词汇表优化和迁移策略可以提高模型的性能。作者称之为:在迁移学习领域开创了词汇迁移的这一方向。
论文地址:「链接」
标题:加州大学 | Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization(基于完形转换和一致性优化的小样本常识问答)
简介:本文在常识问答(CQA)方向研究预训练语言模型中的知识提取。作者将重点放在更好地利用预训练语言模型中存储的知识。虽然研究人员发现,通过让预先训练的语言模型填充精心设计的关系提取和文本分类提示的空白,可以提取嵌入在预训练的语言模型中的知识,但目前尚不清楚作者是否可以在CQA中采用这种范式,其中输入和输出的形式更加灵活。为此,作者研究了四种可以将自然问题翻译成完形填空式句子的翻译方法,以更好地从语言模型中获取常识性知识,包括基于句法的模型、无监督神经模型和两种监督神经模型。此外,为结合不同的翻译方法,作者提议鼓励使用未标记数据对不同翻译问题进行模型一致性的预测。实验证明了作者的方法在三个CQA数据集上的有效性。
论文地址:「链接」
标题:威斯康星大学、微软等 | RegionCLIP: Region-based Language-Image Pretraining(基于区域的语言图像预训练)
简介:本文研究了基于识别图像区域的语言图像预训练模型。业界使用“图像-文本对”的对比语言图像预训练 (CLIP)在零样本和迁移学习中的图像分类方面取得了令人印象深刻的结果。然而,作者表明直接应用此类模型来识别图像区域以进行对象检测会导致性能不佳,因为存在域偏移:CLIP 被训练以将图像作为一个整体与文本描述进行匹配,而没有捕获图像之间的细粒度对齐区域和文本跨度。为了缓解这个问题,作者提出了一种称为 RegionCLIP 的新方法,该方法显着扩展了 CLIP 以学习区域级视觉表示,从而实现图像区域和文本概念之间的细粒度对齐。作者的方法利用 CLIP 模型将图像区域与模板标题匹配,然后预训练作者的模型以在特征空间中对齐这些区域-文本对。当将作者的预训练模型转移到开放词汇对象检测任务时,作者的方法在 COCO 和 LVIS 数据集上的新类别分别显著优于现有技术 3.8 AP50 和 2.2 AP。
论文地址:「链接」
代码地址:
标题:艾伦AI研究所、慕尼黑大学 | Efficient Hierarchical Domain Adaptation for Pretrained Language Models(预训练语言模型的高效分层域适应)
简介:本文研究了以分层树结构的域表示实现预训练语言模型的分层。生成式的语言模型,在不同的通用领域语料库上进行训练,然而这就限制了它们对更窄领域的适用性,之前的工作表明,持续的领域内训练可以提供进一步的收益。在本文中,作者介绍了一种使用计算效率高的适配器方法将域适应扩展到许多不同域的方法。作者的方法基于对文本域部分重叠的观察,作者将域表示为分层树结构,其中树中的每个节点都与一组适配器权重相关联。当与冻结的预训练语言模型相结合时,这种方法可以实现相关领域之间的参数共享,同时避免不相关领域之间的负面干扰。该方法很高效:对于 D 个域,计算成本为 O(log(D))。GPT-2 的实验结果和 C4 中 100 个最具代表性的网站中的大部分显示了域内的全面改进。作者还为保留域提供了一种推理时间算法,并表明对通过树的多条路径进行平均可以进一步提高泛化效果,同时仅增加推理的边际成本。
论文地址:「链接」
标题:谷歌、亚马逊等 | Supervised Graph Contrastive Pretraining for Text Classification(用于文本分类的有监督图对比预训练)
简介:本文介绍了用于文本分类的对比预训练技术。但是,通常可以使用来自与当前任务共享标签语义的相关任务的标记数据。作者假设有效地使用这些标记数据可以更好地概括当前任务。在本文中,作者提出了一种通过基于图的监督对比学习方法有效利用来自相关任务的标记数据的新方法。作者通过将监督信息从示例外推到令牌来制定令牌图。作者的公式产生了一个嵌入空间,其中属于同一类的高/低概率标记彼此靠近/远离。作者还提出了详细的理论见解、以作为本研究方法的驱动。基于作者采用的数据集,实验表明:作者的方法优于预训练方案 2.5 % 、并且基于示例级对比学习的公式提升约 1.8 %。此外,在零样本场景中实验表明跨域有效性平均提升3.91%。最后,作者还证明了该方法可以用作知识蒸馏设置中的噪声教师模型、约平均提升4.57% 。
论文地址:「链接」
标题:百度 | ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation(ERNIE-ViLG:双向视觉语言生成的统一生成式预训练)
简介:视觉语言预训练模型极大地提高了图像-文本生成任务的性能,但用于文本-图像生成任务的大规模预训练模型仍在研究中。本文提出了ERNIE-ViLG,一个统一的生成式预训练框架,基于Transformer模型并将图像生成和文本生成都表述为以文本/图像输入为条件的自回归生成任务。双向的图像-文本生成模型简化了跨视觉和语言的语义对接。对于文本到图像的生成过程,作者进一步提出了一种端到端的训练方法来共同学习视觉序列生成器和图像重建器。为了 探索 双向文本-图像生成的大规模预训练的前景,本文在1.45亿图像-中文文本对的大规模数据集上训练了一个100亿参数的模型,该模型在文本-图像和图像-文本任务上都取得了最先进的性能。
论文地址:「链接」
标题:华中科大、西安交大、微软 | A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained Vision-language Model(用预训练视觉语言模型进行零样本语义分割的基线)
简介:通过视觉语言预训练的零样本图像分类已经渐趋成熟,然而在更广泛的视觉问题上如物体检测和语义分割还需研究。本文在预训练的视觉语言模型CLIP上构建零样本语义分割基线。该问题难点在于语义分割和CLIP模型在不同的视觉颗粒度上执行,语义分割在像素上处理,而CLIP在图像上执行。为了弥补处理粒度上的差异,本文没有使用普遍的基于FCN的单阶段框架,而使用一个两阶段的语义分割框架,第一阶段提取泛化掩码,第二阶段利用基于图像的CLIP模型,对第一阶段产生的掩码图像作物进行零样本分类。本文的实验结果表明,这个简单的框架在很大程度上超过了目前的先进技术。凭借其简单性和强大的性能,本文希望这个框架能够作为基线以助未来的研究。
论文地址:「链接」
标题:中山大学 | AlphaFold2-aware protein-DNA binding site prediction using graph transformer(使用图Transformer进行结合AlphaFold2的蛋白质-DNA结合位点预测)
简介:蛋白质与DNA的相互作用在生物系统中起着至关重要的作用,确定蛋白质与DNA的结合位点是对各种生物活动,如转录和修复,进行机理理解和设计新型药物的第一步。现有的基于序列的方法只考虑了顺序相邻的上下文特征,这对捕捉空间信息是有限的。对此本文提出GraphSite,作者将结合位点预测问题转化为图节点分类任务,并采用基于Transformer的预训练模型,通过AlphaFold2预测结构,将蛋白质结构信息、AlphaFold2中Evoformer的表征和序列进化信息考虑在内实现DNA结合残基的识别。GraphSite大大改善了基于序列和结构的最新方法,并且在181种蛋白质的独立测试集上得到进一步证实,在AUPR和MCC上分别超过了最先进的基于结构的方法16.4%和11.2%。
论文地址:「链接」
标题:耶鲁 | Pipeline for retrieval of COVID-19 immune signatures(检索COVID-19免疫特征的流程)
简介:随着生物医学文献出版速度的加快,检索其中的特定的科学信息变得更有意义。在新冠流行的大背景下,有效地检索病毒免疫特征,即生物标志物,可以帮助了解不同的SARS-CoV-2感染的免疫反应机制。对此,本文构建了一个系统的流程来识别和提取结构化的COVID-19免疫特征。具体而言,作者使用基于SPECTER预训练的生物文本嵌入,配合SVM分类器来自动识别含有免疫特征的论文,并进一步对这些论文进行半自动查询流程构建,检索特征信息。此外,基于预训练嵌入的流程也可确定免疫特征的类型,比如基因表达与其他类型的分析。通过这种方法,部分自动化的文献挖掘可以帮助快速创建半结构化的知识库,用于自动分析新出现的 健康 威胁。
论文地址:「链接」
资源推荐
标题:孟加拉国工程技术大学、加州大学洛杉矶分校等 | CrossSum:超越 1500 多个语言对的以英语为中心的跨语言抽象文本摘要数据集
简介:作者提供了 CrossSum:一个包含 165 万个跨语言文章摘要样本、包含 45 种语言的 1500 多个语言对的大规模数据集。基于多语言 XL-Sum 数据集,并使用与语言无关的表示模型通过跨语言检索来对齐以不同语言编写的相同文章,作者提出了一种多阶段数据采样算法并微调多语言预训练模型mT5。实验结果表明在 CrossSum 上微调的模型优于摘要+翻译基线。
论文地址:「链接」
资源下载:
【关于转载】本文转载于公众号“智源社区”,仅用于学术分享,有任何问题请与我们联系:
打开联网即可使用,Funbook拥有海量中英文绘本资源,具备动画、游戏、AI智能评测等功能,是一个“多才多艺”的幼儿家庭阅读好伙伴。
一、Funbook自带权威英文蓝思分级体系
蓝思分级体系是全美非常具有公信力且使用广泛的阅读难度分级体系,大约75%的美国中小学生都在使用蓝思分级来衡量自己的阅读水平。Funbook在对孩子进行蓝思测评的同时,还可以让孩子阅读到适合自己评级水平的英文原版绘本,堪称“学英语神器”。
二、激发学习兴趣的闯关式学英语模式
Funbook动画书交互式阅读+游戏闯关式学英语,用符合孩子天性的方式,激发儿童学习兴趣,让孩子爱上阅读。Funbook还通过交互式阅读的形式,让孩子沉浸在动画故事中,边玩边学。
三、拥有海量绘本堪称一座“移动图书馆”
Funbook的绘本内容分为中、英文两大类,绘本总数高达上千本。除迪士尼、梦工场动画、托马斯和朋友等知名IP内容外,还囊括了众多名家的优秀原创绘本。其中,英文绘本还包含了牛津大学出版社为中国少儿量身定制的英语分级读物系列、全球畅销英语分级读物BigCat(大猫)系列等,数量之多,可以称得上是“孩子专属的移动图书馆“。
四、不光能读书还会随时智能测评的AI老师
Funbook就像一个随身的私人AI教师,可以让家长随时了解孩子的点滴进步。它会结合英语内容和动画书的特点,对孩子的阅读行为进行指标划分,根据指标再对孩子的学习进行全方位评测和智能分析并生成智能阅读报告。最后将针对孩子在阅读中所欠缺的能力指标,进行针对性训练。
五、类纸护眼屏守护孩子用眼健康
Funbook采用的类纸护眼屏拥有全纸质观感,五重护眼黑科技所呈现的“低蓝光、无频闪、防眩光、使用限时、距离提醒“功能,全方位保障了孩子的用眼安全。同时,Funbook类纸护眼屏还是唯一获得国际权威机构T_VVDE双认证的护眼屏,孩子用的舒心,家长们也更放心。
Funbook就像一座为孩子量身定制的双语图书馆,在引导孩子逐级进步的同时,还能很好的提升他的学习兴趣,真正实现“玩着学”的梦想。
运行于网络环境下的图书馆电子图书计算机管理系统。线上图书馆计算机模式是近期发展的一个运行于网络环境下的图书馆电子图书计算机管理系统。它是一个让读者能方便地访问、检索参考资料、学术论文和专业书籍的运行于网络的系统。
电子图书馆可以将文字、图像、声音等数字化信息线上图书馆,通过互联网传输,从而做到信息资源共享。每个拥有任何电脑终端线上图书馆的用户只要通过联网,登录相关数字图书馆的网站,都可以在任何时间、任何地点方便快捷地浏览的数字化信息资源。
推荐myON电子图书馆
myON内含5000多册由各大权威出版机构出版的英文原版电子书,每本书还配有纯正的英音/美音朗读,孩子们可以边看边听,阅读听力两不误,实时纠正孩子英文发音。此外,myON还有内置的英英词典和多项阅读辅助工作,进一步帮助孩子提高阅读能力。目前软件有离线功能,可以让孩子们在平板或电脑上随时随地进行线上线下阅读。
书籍可根据每个学生的兴趣爱好、年级和蓝思阅读等进行匹配,并内置一整套阅读工具箱和支持功能来鼓励学生参与阅读得到成长。在这个个性化英语读写平台上,孩子们多种多样的阅读喜好都可以得到满足,平台上既有小说类也有非小说类的原版电子书籍。同时还有可选的阅读辅助功能和整套的读写工具,帮助增强学生对文本的深入理解。
myON还可以帮助老师掌握教学进度和孩子们阅读的进度。老师们可以在myON Reader上布置阅读、写作和小作业来支持课堂教学,并且还可以针对不同学生的阅读作业分数来有效地进行区分化教学。老师们同样在平台上为学生们划重点,利用平台上的笔记、日志和写作记录来监督学生学习并及时提供对应的辅导。
想线上图书馆了解更多,可留言~
1、打开白噪音软件,点击上方的看一看图标。
2、在打开的看一看页面,选择其中的工作学习系列选项。
3、在打开的列表中,选择其中的哈佛大学图书馆,即可进行查看。
自从图书馆出现以后线上图书馆,它就一直是人类积累和传播知识的主要场所。图书馆使人类实现线上图书馆了知识共享,图书馆的普及使得追求知识不再是少数特权阶层的专利,社会大众也可以通过图书馆借阅图书文献,增长知识,拓宽视野。可以说,图书馆事业的发展是人类社会文明的一个重要标志。
随着信息时代的到来,图书馆的地位变得日益重要,但与此同时,在崭新的社会经济技术环境下,在知识经济的大浪潮下,图书馆也面临着新的挑战。
在传统的图书馆中,书中所记载的信息的传播完全依赖于其物质载体线上图书馆:一本一本的书籍,一本书中的知识不能被多个读者同时共享,读者必须亲自到图书馆借阅,需要排队等等,也会遭遇“此书已借出”的烦恼。图书馆检索工具不完善,有时查找一本书真如大海捞针一般,费时费力费神。如果能在自己的电脑上,通过网络传输,直接阅览并下载所需要的图书、文章或数据,该是多么惬意的事!如今,这一切已不是梦想。充分利用现代信息科技,解决现有图书馆机制的不足,数字图书馆应运而生。
数字图书馆是建立在互联网上的图书馆,也称为“虚拟图书馆”。
数字图书馆是传统图书馆在信息时代发展的必然产物,它不但具有传统图书馆的功能,还融合了其他信息资源(如博物馆、档案馆等)的一些功能。它打破了国界、时空的限制,将成为未来社会的公共信息中心和枢纽。
对数字图书馆目前还没有一个统一的、公认的定义。一些组织和研究者从各自的角度出发,提出了自己的看法。例如,美国信息基础设施技术和应用工作组于1993年提出,数字图书馆是这样一个系统:它能使用户持续不断地访问内容浩杂的信息和知识库而获得资料。加利福尼亚大学伯克利分校的电子图书馆项目组于1994年认为,数字图书馆是一个虚拟图书馆,即将数以千计的电子图书馆通过网络连接起来,这种连接对用户是不透明的,用户只看到一个包罗万象的图书馆。传统图书馆所提供的资源服务主要包括:图书、期刊杂志、新闻报纸、参考书目、影音数据以及数据检索等。网上数字图书馆也提供相同的信息服务,并更高程度地实现传统图书馆的功能。
网上数字图书馆提供的服务主要有以下几种:
电子书柜。所谓“电子书柜”,相当于传统图书馆中“书架上的图书”,你可以用网络浏览的方式,根据你的阅读兴趣,任意选择你所需要的图书。
电子期刊杂志和电子出版物。它的数据更新较快,你可以利用网络随时查阅到最新的相关信息。
电子报纸和即时新闻。电子报纸是非常重要的新闻来源,在网上图书馆你可以看到许多电子报纸和即时新闻。
数据库查询系统。你可以选择某一特定的数据库,输入关键词或主题词语,便可查询到你需要的特定资料或数据。
与传统图书馆相比,数字图书馆有着更为突出的优势。
数字图书馆能完成搜索信息资源的任务。数字图书馆中资料的形式多种多样,如文本、图像、声音、动画等,分布在全国甚至世界各地。这是一个分布式的多媒体的信息资源库。数字图书馆能完成对资料的组织和整理工作。通过有效的整理和组织,更好地适应当今信息的快速变化。
数字图书馆能给用户提供更方便、快捷、准确的资料查询工具。这种工具既可以用来全文检索,也可利用某一关键词(如书名、著者、出版社、出版时间)查询,还能针对声音和图像进行基于内容的搜索。查询结果的显示形式可以使用多媒体、文本、声音、图像等。
图书馆实现了真正意义上的信息共享,极大地方便了用户。
20世纪90年代以来,许多发达国家和地区的图书馆,在政府的大力支持和资金投入下,开展数字图书馆的研究和建设,取得了丰硕的成果。
1993年,美国国家科学基金会、国防部高级研究计划管理局和国家航空航天局共同投资一亿多美元,倡议发起数字图书馆工程。它涵盖了大规模的文献库、影像库、地理图像、声像资源库。这项工程历时四年,已告完成。在此基础上,于1998年又投巨资开始了第二期工程。
日本投资四亿美元,由日本国会图书馆、日本邮政省支持的宽带ISDN网络协会牵头,于2002年完成日本国会图书馆关西馆工程,使其成为日本最大的数字图书馆及亚洲地区的文献中心。
近年来,我国也积极筹备和启动数字图书馆工作。1995年,文化部把“中国实验型数字化图书馆”作为国家重点科技项目,由国家图书馆(原北京图书馆)、上海图书馆、南京图书馆、深圳图书馆、中山图书馆和辽宁图书馆联合进行研究与开发。
1997年5月,国家教育部正式成立“211工程”高等教育文献保障系统CALIS项目建设领导小组和项目管理中心。这一系统的总目标是:“在‘九五’期间,建成以‘中国教育与科研计算机网’为依托的网上信息资源共享体系,使信息资源网——通信网协调发展,真正为高校的教学、科研人员营造一个与国际接轨的信息网络环境,为‘211工程’院校和其他院校提供丰富的文献信息资源、先进的技术手段和便利的服务体系。”CALIS计划建设“全国中心——地区中心——高校图书馆”三级保障网络环境,即建设一个CALIS全国管理中心、四个全国文献信息中心、七个地区文献信息中心以及以“211工程”立项高校为主体的一批高校现代化图书馆。CALIS全国管理中心设在北京大学。
中国数字图书馆工程筹备小组由文化部牵头,于1998年8月25日成立。该工程将建立超大规模的、可以跨库检索的中文海量数据库及其信息服务体系,为继承和发扬中华民族的优秀文化创造有利环境,中文网络的发展有力地挑战了西方的文化霸权。
1999年5月,国家863计划智能计算机主题组成立了中国数字图书馆发展战略研究组,专门对数字图书馆的技术、管理、运营、法律等问题进行研究,以便在此基础上全面把握,实施中国数字图书馆工程。当年11月12日,863项目组与北京首都图书馆进行数字图书馆示范工程的签约,表明此项工程已进入实施阶段。
目前,真正意义上的数字图书馆在中国还没有出现。但是,不少省市、院校的图书馆已走上因特网,纷纷建立自己的网站,为读者提供全新的服务。其中,国家图书馆和上海图书馆已向数字图书馆方向迈开了很大的步伐。
中国国家图书馆,是世界十大图书馆之一。它的前身是兴建于1909年9月的京师图书馆线上图书馆;1928年7月,更名为国立北京图书馆线上图书馆;1929年8月与北京北海图书馆合并,仍名国立北京图书馆;1950年3月,更名为国立北平图书馆;1951年6月,更名为北京图书馆;1987年,北京图书馆新馆落成;1998年12月,更名为国家图书馆。历经90年沧桑的国家图书馆,和我们一起走进信息时代。
国家图书馆的借阅,现已全部实现了计算机操作。图书馆中有一个全国最大的电子阅览室,拥有涵盖社会科学、自然科学等方面的数据库和电子出版物。
国家图书馆的馆域网采用的是千兆以太网,这在全国还是第一家。因此,馆内的数据传输流量大、速度快,查阅资料和多媒体信息方便而快捷。
国家图书馆很早就在Internet上建立了自己的网站,并已与中南海、国务院办公厅实现100M速率网络的连接,而且通过北京有线电视网与北京大学、清华大学、中科院等单位实现了100M速率的专线连接,还分别与科研网、中国科技网及北京有线电视网、国家广播电影电视总局全国有线电视网等实现了高速互联,通过中国广电总局网络中心与其他省市用1000M宽带网进行沟通。
目前,国家图书馆已经开通了中文图书网上预订外借服务,读者不需要亲自到图书馆去,完全可以利用身边的任何一台能联上Internet的计算机,随意查询并借阅。
国家图书馆的在线图书馆也已经开通。早在1998年7月,国家图书馆就开始提供网上阅览功能,只要你联上Internet,就可以下载一个叫“超星图书浏览器”的软件,然后通过它阅读在线图书馆的藏书。现在上网的图书资料,内容丰富,范围广泛。其中有文学、哲学、计算机、医学、军事、历史以及新书等11个远程虚拟图书馆。在线图书馆到2000年年底,提供3000万页共15万本图书供网上阅读。
与此同时,国家图书馆加快文献数字化的进程,于1999年3月成立“国家图书馆文献数字化中心”,目前已有书目型数据库、题录型数据库和全文型数据库三大类,共计600G存储量的信息上网为读者服务。仅1999年年初,月访问量就已超过600万人次。国家图书馆已初步成为我国网上信息资源的中心枢纽。
现在,国家图书馆已建立了数字图书馆的实验环境,同时,对数字图书馆的相关标准、规范和技术取得了第一手的实践经验,各个工程都在进行中。上海图书馆也在尝试提供图书馆网上服务,除了信息查阅、网上读书等传统图书馆的服务延伸之外,还进行原文直接获取、委托代理进行咨询研究等信息服务。
上海图书馆数字图书馆工程非常浩大,计划推出“上海图典”、“上海文典”、“古籍善本”、“民国图书”、“中国报刊”等九大系列。
尤其值得一提的是,堪称全国古籍善本珍藏半壁江山的上海图书馆,藏有170941册古籍善本书,自1997年11月正式启动的“中国古籍善本查阅系统”,使长期“养在深闺”的古籍珍品走到了人们身边。上海图书馆目前已将20种19794页国内外罕见的珍品放上了因特网。其中包括宋代刻本17种,元代刻本一种和稿本两种。书目有《周髀算经》、《文心雕龙》、《杜工部集》、《资治通鉴》等等。读者通过上海图书馆的网址进入,点击“上图数字图书馆”或者直接进入网址就可以浏览。
变更了网址。因为myON线上图书馆在2022年2月17日变更了网址,所以打不开。myON线上图书馆平台是一款以学生为中心的英语电子图书馆。学生可在myonreader上无限量阅近五千本电子原版书籍。