关于数据库设计的论文

人们把客观存在的事物以数据的形式存储到计算机中，经历了对现实生活中事物特性的认识、概念化到计算机数据库里的具体表示的逐级抽象过程，即现实世界－概念世界－机器世界三个领域。有时也将概念世界称为信息世界；将机器世界称为存储或数据世界。一、三个世界 1、现实世界人们管理的对象存于现实世界中。现实世界的事物及事物之间存在着联系，这种联系是客观存在的，是由事物本身的性质决定的。例如学校的教学系统中有教师、学生、课程，教师为学生授课，学生选修课程并取得成绩。 2、概念世界概念世界是现实世界在人们头脑中的反映，是对客观事物及其联系的一种抽象描述，从而产生概念模型。概念模型是现实世界到机器世界必然经过的中间层次。涉及到下面几个术语：实体：我们把客观存在并且可以相互区别的事物称为实体。实体可以是实际事物，也可以是抽象事件。如一个职工、一场比赛等。实体集：同一类实体的集合称为实体集。如全体职工。注意区分"型"与"值"的概念。如每个职工是职工实体"型"的一个具体"值"。属性：描述实体的特性称为属性。如职工的职工号，姓名，性别，出生日期，职称等。关键字：如果某个属性或属性组合的值能唯一地标识出实体集中的每一个实体，可以选作关键字。用作标识的关键字，也称为码。如"职工号"就可作为关键字。联系：实体集之间的对应关系称为联系，它反映现实世界事物之间的相互关联。联系分为两种，一种是实体内部各属性之间的联系。另一种是实体之间的联系。 3、机器世界存入计算机系统里的数据是将概念世界中的事物数据化的结果。为了准确地反映事物本身及事物之间的各种联系，数据库中的数据必须有一定的结构，这种结构用数据模型来表示。数据模型将概念世界中的实体，及实体间的联系进一步抽象成便于计算机处理的方式。数据模型应满足三方面要求：一是能比较真实地模拟现实世界；二是容易为人所理解；三是便于在计算机上实现。数据结构、数据操作和完整性约束是构成数据模型的三要素。数据模型主要包括网状模型、层次模型、关系模型等，它是按计算机系统的观点对数据建模，用于DBMS的实现。关系数据库采用关系模型作为数据的组织方式。关系数据库因其严格的数学理论、使用简单灵活、数据独立性强等特点，而被公认为最有前途的一种数据库管理系统。它的发展十分迅速，目前已成为占据主导地位的数据库管理系统。自20世纪80年代以来，作为商品推出的数据库管理系统几乎都是关系型的，例如，Oracle，Sybase，Informix，Visual FoxPro等。网络数据库也叫Web数据库。促进Internet发展的因素之一就是Web技术。由静态网页技术的HTML到动态网页技术的CGI、ASP、PHP、JSP等，Web技术经历了一个重要的变革过程。Web已经不再局限于仅仅由静态网页提供信息服务，而改变为动态的网页，可提供交互式的信息查询服务，使信息数据库服务成为了可能。Web数据库就是将数据库技术与Web技术融合在一起，使数据库系统成为Web的重要有机组成部分，从而实现数据库与网络技术的无缝结合。这一结合不仅把Web与数据库的所有优势集合在了一起，而且充分利用了大量已有数据库的信息资源。图1-1是Web数据库的基本结构图，它由数据库服务器（Database Server）、中间件（Middle Ware）、Web服务器（Web Server）、浏览器（Browser）4部分组成。 Web数据库的基本结构它的工作过程可简单地描述成：用户通过浏览器端的操作界面以交互的方式经由Web服务器来访问数据库。用户向数据库提交的信息以及数据库返回给用户的信息都是以网页的形式显示。1 Internet技术与相关协议Internet技术在Web数据库技术中扮演着重要的角色。Internet（因特网）专指全球最大的、开放的、由众多网络相互连接而成的计算机网络，并通过各种协议在计算机网络中传递信息。TCP/IP协议是Internet上使用的两个最基本的协议。因此也可以说Internet是全球范围的基于分组交换原理和TCP/IP协议的计算机网络。它将信息进行分组后，以数据包为单位进行传输。Internet在进行信息传输时，主要完成两项任务。（1）正确地将源信息文件分割成一个个数据包，并能在目的地将源信息文件的数据包再准确地重组起来。（2）将数据包准确地送往目的地。TCP/IP协议的作用就是为了完成上述两项任务，规范了网络上所有计算机之间数据传递的方式与数据格式，提供了数据打包和寻址的标准方法。1．TCP/IP协议TCP协议（Transmission Control Protocol，传输控制协议）规定了分割数据和重组数据所要遵循的规则和要进行的操作。TCP协议能保证数据发送的正确性，如果发现数据有损失，TCP将重新发送数据。2．IP协议在Internet上传送数据往往都是远距离的，因此在传输过程中要通过路由器一站一站的转接来实现。路由器是一种特殊的计算机，它会检测数据包的目的地主机地址，然后决定将该数据包送往何处。IP协议（Internet Protocol，网际协议）给Internet中的每一台计算机规定了一个地址，称为IP地址。IP地址的标准是由4部分组成（例如11），其中前两部分规定了当前使用网络的管理机构，第3部分规定了当前使用的网络地址，第4部分规定了当前使用的计算机地址。Internet上提供的主要服务有E-mail、FTP、BBS、Telnet、WWW等。其中WWW（World Wide Web，万维网）由于其丰富的信息资源而成为Internet最为重要的服务。3．HTTP协议HTTP协议（Hypertext Transfer Protocol，超文本传输协议）应用在WWW上，其作用是完成客户端浏览器与Web服务器端之间的HTML数据传输。2 Web的工作原理与工作步骤万维网简称为Web。Web可以描述为在Internet上运行的、全球的、交互的、动态的、跨平台的、分布式的、图形化的超文本信息系统。1．Web的工作原理Web是伴随着Internet技术而产生的。在计算机网络中，对于提供Web服务的计算机称为Web服务器。Web采用浏览器/服务器的工作方式。每个Web服务器上都放置着大量的Web信息。Web信息的基本单位是Web页（网页），多个网页组成了一个Web节点。每个Web节点的起始页称为“主页”，且拥有一个URL地址（统一资源定位地址）。Web节点之间及网页之间都是以超文本结构（非线性的网状结构）来进行组织的。2．Web的工作步骤Web的工作步骤如下。（1）用户打开客户端计算机中的浏览器软件（例如Internet Explorer）。（2）用户输入要启动的Web主页的URL地址，浏览器将生成一个HTTP请求。（3）浏览器连接到指定的Web服务器，并发送HTTP请求。（4）Web服务器接到HTTP请求，根据请求的内容不同作相应的处理，再将网页以HTML文件格式发回给浏览器。（5）浏览器将网页显示到屏幕上图1-2 Web的工作步骤3 WWW世界中的标记语言1．HTML语言HTML（Hypertext Markup Language，超文本标记语言）是创建网页的计算机语言。所谓网页实际上就是一个HTML文档。文档内容由文本和HTML标记组成。HTML文档的扩展名就是html或htm。浏览器负责解释HTML文档中的标记，并将HTML文档显示成网页。（1）HTML标记HTML标记的作用是告诉浏览器网页的结构和格式。每一个标记用尖括号<>括起来。大多数标记都有一个开始标记和一个结束标记。标记不分大小写。多数标记都带有自己的属性。例如字体标记有FACE、COLOR、SIZE等属性：FACE定义字体；COLOR定义字体的颜色；SIZE定义字体的大小。使用格式： BEIJING 。网页中有很多文本链接和图片链接。链接，又被称为超链接，用于链接到WWW万维网中的其他网页上。在HTML文档中表示超链接的标记是，通过属性HREF指出链接的网页地址URL。使用格式： BEIJING 。（2）HTML程序HTML程序必须以标记开始，以标记结束。在和标记之间主要由两部分组成：文件头和文件体。文件头用标记来标识，文件体用标记来标识。在文件的头部通常包含整个网页的一些信息。例如标记是用来说明网页的名称；标记是用来说明网页的其他信息，如设计者姓名和版权信息等。所有在浏览器中要显示的内容称为网页的主体，必须放在标记中。下面给出的是一个空网页的HTML程序。 (在此标记中写网页的标题) (在此标记中写网页的内容) （3）HTML规范HTML规范又称为HTML标准，它总在不断地发展。每一新版本的出现，HTML都会增加新的特性和内容。有关HTML版本的详细信息请访问网站。在不同的浏览器中，网页的显示效果可能会有所不同。每一个浏览器都使用自己独特的方式解释HTML文档中的标记，并且多数浏览器不完全支持HTML的所有特性。因为，像Microsoft和Netscape公司在HTML标准上又开发了一些特有的HTML标记和属性，称之为HTML的扩展。这些标记和属性只被他们自己的浏览器所识别，不可能被其他公司的浏览器识别。如果浏览器不能识别HTML文档中的标记，则会忽略这个标记。（4）HTML程序的编辑环境与运行环境HTML文档是一个普通的文本文件（ASCII），不包含任何与平台、程序有关的信息。因此HTML文档可以利用任何文本编辑器来方便地生成。要注意的是HTML文档的扩展名必须是html或htm。运行HTML文档可以在任何浏览器下进行，并可在浏览器上查看网页的HTML源代码。关于HTML语言中标记的种类与使用方法将会在第5章中更详细地进行介绍。2．可扩展标记语言（XML）HTML是Web上的通用语言，随着Internet的深入人心，WWW上的Web文件日益复杂化、多样化，人们开始感到了HTML这种固定格式的标记语言的不足。1996年W3C开始对HTML的后续语言进行研究，并于1998年正式推出了XML（Extensible Markup Language，可扩展标记语言）。在设计网页时，XML提供了比HTML更灵活的方法。（1）XML语言的特点XML是国际组织W3C为适应WWW的应用，将SGML （Standard Generalized Markup Language）标准进行简化形成的元标记语言。简单地说，XML是使用标记来描述内容或与内容相关的形式信息的通用语言。一个XML文档由标记和字符数据组成。而作为元标记语言，XML不再使标记固定，允许网页的设计者定义数量不限的标记来描述内容，同时还允许设计者创建自己的使用规则。（2）XML的DTDDTD（Document Type Definition,文档类型定义）是一组应用在XML文档中的自定义标记语言的技术规范。DTD中定义了标记的含义及关于标记的语法规则。语法规则中确定了在XML文档中使用哪些标记符，它们应该按什么次序出现，标记符之间如何嵌套，哪些标记符有属性等等。DTD可以包含在它所描述的XML文档中，但通常它是一份单独的文档或者一系列文档。作为外部文件可通过URL链接，被不同的XML文档共享。XML把DTD的定义权开放，不同行业可以根据自己的实际需求定义描述内容的DTD，以适应本行业内部的信息交流和存档需要。因此，适合于不同行业、不同平台的标记语言大批涌现。（3）XML的CSS与XSL强调内容描述与形式描述的分离，一方面可以使XML文件的编写者更集中精力于数据本身，而不受显示方式的细节影响；另一方面允许为相同的数据定义不同的显示方式，从而适合于不同应用、不同媒体，使XML数据得到最大程度的重用。XML文档数据的显示形式是通过样式单定义的。CSS（Cascading Style Sheets）是XML使用的一种标准的级联样式单，XSL（Extensible Style Language）则是可扩展的样式语言。由于XML允许用户创建任何所需的标记，而通用浏览器却既无法预期用户标记的意义，又无法为显示这些标记而提供规则，因此用户必须为自己创建的XML文档编写样式单，样式单可以实现共享。浏览器对一个XML文档的处理过程是，首先去关联它所指定的样式单文件，如果该样式单是一个XSL文件，则按照规定对XML数据进行转换然后再显示，XSL本身也是基于XML语言的，可以将XML转化为HTML后再显示。如果该样式单是一个CSS文件，浏览器就会按照样式单的规定给每个标记赋予一组样式后再显示。2 Web数据库访问技术Web数据库访问技术通常是通过三层结构来实现的，如图1-3所示。目前建立与Web数据库连接访问的技术方法可归纳为CGI技术，ODBC技术和ASP、JSP、PHP 技术。 Web数据库访问的三层结构1 CGI技术CGI（Common Cateway Interface，通用网关界面）是一种Web服务器上运行的基于Web浏览器输入程序的方法，是最早的访问数据库的解决方案。CGI程序可以建立网页与数据库之间的连接，将用户的查询要求转换成数据库的查询命令，然后将查询结果通过网页返回给用户。一个CGI工作的基本原理如图1-4所示。CGI程序需要通过一个接口才能访问数据库。这种接口多种多样，数据库系统对CGI程序提供了各种数据库接口如Perl、C/C++、VB等。为了使用各种数据库系统，CGI程序支持ODBC方式，通过ODBC接口访问数据库。 CGI工作流程2 ODBC技术ODBC（Open Database Connectivity，开放数据库互接）是一种使用SQL的应用程序接口（API）。ODBC最显著的优点就是它生成的程序与数据库系统无关，为程序员方便地编写访问各种DBMS的数据库应用程序提供了一个统一接口，使应用程序和数据库源之间完成数据交换。ODBC的内部结构为4层：应用程序层、驱动程序管理器层、驱动程序层、数据源层。它们之间的关系如图1-5所示。由于ODBC适用于不同的数据库产品，因此许多服务器扩展程序都使用了包含ODBC层的系统结构。 ODBC的内部结构Web服务器通过ODBC数据库驱动程序向数据库系统发出SQL请求，数据库系统接收到的是标准SQL查询语句，并将执行后的查询结果再通过ODBC传回Web服务器，Web服务器将结果以HTML网页传给Web浏览器，工作原理如图1-6所示。 Web服务器通过ODBC访问数据库由于Java语言所显示出来的编程优势赢得了众多数据库厂商的支持。在数据库处理方面，Java提供的JDBC为数据库开发应用提供了标准的应用程序编程接口。与ODBC类似，JDBC也是一种特殊的API，是用于执行SQL语句的Java应用程序接口。它规定了Java如何与数据库之间交换数据的方法。采用Java和JDBC编写的数据库应用程序具有与平台无关的特性。3 ASP、JSP、PHP技术ASP是Microsoft开发的动态网页技术，主要应用于Windows NT+IIS或 Windows 9x+PWS平台。确切地说ASP不是一种语言，而是Web服务器端的开发环境。利用ASP可以产生和运行动态的、交互的、高性能的Web服务应用程序。ASP支持多种脚本语言，除了VBScript和Pscript，也支持Perl语言，并且可以在同一ASP文件中使用多种脚本语言以发挥各种脚本语言的最大优势。但ASP默认只支持VBScript和Pscript，若要使用其他脚本语言，必须安装相应的脚本引擎。ASP支持在服务器端调用ActiveX组件ADO对象实现对数据库的操作。在具体的应用中，若脚本语言中有访问数据库的请求，可通过ODBC与后台数据库相连，并通过ADO执行访问库的操作。关于ASP的编程技术将会在第7章中详细介绍。JSP是Sun公司推出的新一代Web开发技术。作为Java家族的一员，几乎可以运行在所有的操作系统平台和Web服务器上，因此JSP的运行平台更为广泛。目前JSP支持的脚本语言只有Java。JSP使用JDBC实现对数据库的访问。目标数据库必须有一个JDBC的驱动程序，即一个从数据库到Java的接口，该接口提供了标准的方法使Java应用程序能够连接到数据库并执行对数据库的操作。JDBC不需要在服务器上创建数据源，通过JDBC、JSP就可以实现SQL语句的执行。PHP是Rasmus Lerdorf推出的一种跨平台的嵌入式脚本语言，可以在Windows、UNIX、Linux等流行的操作系统和IIS、Apache、Netscape等Web服务器上运行，用户更换平台时，无需变换PHP代码。PHP是通过Internet合作开发的开放源代码软件，它借用了C、Java、Perl语言的语法并结合PHP自身的特性，能够快速写出动态生成页面。PHP可以通过ODBC访问各种数据库，但主要通过函数直接访问数据库。PHP支持目前绝大多数的数据库，提供许多与各类数据库直接互连的函数，包括Sybase、Oracle、SQL Server等，其中与SQL Server数据库互连是最佳组合。3 网络数据库应用系统的层次体系当前，Internet/Intranet技术发展异常迅速，越来越多的数据库应用软件运行在Internet/Intranet环境下。在此之前，数据库应用系统的发展经历了单机结构、集中式结构、客户机/服务器（C/S）结构之后，随着Internet的普及，又出现了浏览器/服务器（B/S）结构与多层结构。在构造一个应用系统时，首先考虑的是系统的体系结构，采用哪种结构取决于系统的网络环境、应用需求等因素。1 客户机/服务器结构1．二层C/S结构二层C/S结构是当前非常流行的数据库系统结构，在这种结构中，客户机提出请求，服务器对客户机的服务请求做出回答。它把界面和数据处理操作分开在前端（客户端）和后端（服务器端），这个主要特点使得C/S系统的工作速度主要取决于进行大量数据操作的服务器，而不是前端的硬件设备；同时也大大降低了对网络传输速度的要求，因为只须客户端把服务请求发送给数据库服务器，数据库服务器只把服务结果传回前端，如图1-7所示。在设计时，对数据可能有如下不同的处理形式。（1）在处理时，客户机先向服务器索取数据，然后释放数据库，即客户机发出的是文件请求，在客户机端处理数据，最后将结果送回服务器。这种处理方式的缺点很明显：所有的应用处理都在客户端完成，这就要求客户端的计算机必须有足够的能力，以便执行需要的任何程序。更为糟糕的是，由于所有的处理均在客户端完成，每次运行时都要将文件整体传送到客户端，然后才能执行。如：Student表中有30 000条记录，客户端发出命令：Select * From Student Where Sno='200101'这条命令将要求服务器将Student表中的所有记录传送到客户端，然后在客户端执行查询，结果只用到一条记录；如果查询的记录不存在，网络传输的数据实际上是无用的。如此大的数据传输量是不可想象的。因此，人们提出了在服务器中能够执行部分代码的客户机/服务器结构。（2）在处理时，客户机接受用户要求，并发给服务器；在服务器端处理用户要求，最后将结果传回客户机显示或打印。这种处理方式网络通信量较小。客户机向服务器发出的是处理请求，而不是文件请求，处理请求中的代码在服务器端执行后向客户机传送处理后的结果。这样，为了特定任务，客户机上的程序和服务器上的程序协同工作：客户机端的代码用于完成用户的输入输出及数据的检查，而服务器端的代码完成对数据库的操作。客户机/服务器结构的另一个主要特点在于软件、硬件平台的无关性。数据库服务器上的数据库管理系统集中负责管理数据，它向客户端提供一个开放的使用环境，客户端通过数据库接口，如ODBC（开放数据库连接）和SQL语言访问数据库，也就是说，不管客户端采用什么样的硬件和软件，它只要能够通过网络和数据库接口程序连接到服务器，就可对数据库进行访问。在客户机/服务器结构中，常把客户机称为前台，而把服务器端称为后台。前台应用程序的功能包括用户界面、接收用户数据、处理应用逻辑、向后台发出请求、同时接收后台返回的结果，最后再将返回的结果按一定的格式或方式显示给用户。而后台服务器则负责共享外部设备、存取共享数据、响应前台客户端的请求并回送结果等工作。前台的应用程序和数据一般是用户专用的，而后台的数据和代码是所有用户可以共享的。由于数据库服务器不仅要管理共享数据，保证数据的完整性，还要执行一部分代码，完成客户端的一些处理请求，所以对用于服务器的计算机提出较高的要求。最好要采用一台专用的服务器，有较快的处理速度，有大容量的硬盘和内存，支持磁带等大容量的存储设备。上面讲的客户机/服务器结构将应用分在了客户机、服务器两级，称其为两层客户机/ 服务器结构。总之，两层C/S结构的基本工作方式是客户程序向数据库服务器发送SQL请求，服务器返回数据或结果。这种C/S结构有两种实现方式，一种是客户来完成表示部分和应用逻辑部分，而服务器完成数据访问部分，这种情况是以客户为中心的，适用于应用相对简单、数据访问量不是很大的情况。另一种是以服务器为中心的，把一些重要的应用逻辑部分放到服务器上，这样可充分利用服务器的计算能力，减少网络上需要传送的数据。通常以存储过程和触发器的形式出现，但存储过程都依赖于特定数据库，不同数据库之间很难移植，而三层C/S结构可以很好地解决这个问题。注意：触发器（trigger）是数据库系统中，一个在插入、删除、修改操作之后运行的记录级事件代码。不同的事件可以对应不同的动作。通常有3种类型的触发器：INSERT触发器、DELETE触发器和UPDATE触发器。2．三层C/S结构由于两层结构的客户机/服务器系统本身固有的缺陷，使得它不能应用于一些大型、结构较为复杂的系统中，故出现了3层结构的客户机/服务器系统，将两层结构中服务器部分和客户端部分的应用单独划分出来，即采用“客户机—应用服务器—数据库服务器”结构（如图1-8所示）。典型的数据库应用可分为三部分：表示部分、应用逻辑（商业逻辑）部分和数据访问部分，三层结构便是对应于这三部分。图1-8 三层C/S结构其中，应用服务器和数据库服务器可位于同一主机，也可位于不同主机。客户机是应用的用户接口部分，负责用户与应用程序的交互，运行在客户机端的软件也称为表示层软件。应用服务器存放业务逻辑层（也称为功能层）软件，是应用逻辑处理的核心，实现具体业务。它能响应客户机请求，完成业务处理或复杂计算。若有数据库访问任务时，应用服务器层可根据客户机的要求向数据库服务器发送SQL指令。应用逻辑变得复杂或增加新的应用时，可增加新的应用服务器。数据库服务器便是用来执行功能层送来的SQL指令，完成数据的存储、访问和完整性约束等。操作完成后再通过应用服务器向客户机返回操作结果。2 浏览器/服务器结构随着Internet技术和Web技术的广泛应用，C/S结构已无法满足人们的需要。因为在典型C/S体系中，通常为客户安装前端应用程序的做法已不再现实，并且限制客户端工作环境只能基于Windows、Macintosh或UNIX等操作系统也不切实际。于是基于浏览器/服务器结构（Browser/Server）的系统应运而生。采用B/S结构后，在客户端只需安装一个通用的浏览器即可，不再受具体操作系统和硬件的制约，实现了跨平台的应用。基于B/S结构的典型应用通常采用三层结构：“浏览器—Web服务器—数据库服务器”，B/S模式的工作原理是：通过浏览器以超文本的形式向Web服务器提出访问数据库的请求，Web服务器接受客户请求后，激活对应的CGI程序将超文本HTML语言转化为SQL语法，将这个请求交给数据库，数据库服务器得到请求后，进行数据处理，然后将处理结果集返回给CGI程序。CGI再将结果转化为HTML，并由Web服务器转发给请求方的浏览器，如图1-9所示。图1-9 B/S工作原理在B/S模式中，客户端的标准配置是浏览器，如IE；业务功能处理由独立的应用服务器处理，Web服务器成为应用处理的标准配置；数据处理仍然由数据库服务器处理。从本质上讲，B/S结构与传统的C/S结构都是以同一种请求和应答方式来执行应用的，区别主要在于：C/S是一种两层或三层结构模式，其客户端集中了大量应用软件，而B/S是一种基于超链接（HyperLink）、HTML、Java的三级或多级C/S结构，客户端仅需单一的浏览器软件，是一种全新的体系结构，解决了跨平台问题。到目前，这两种结构在不同方面都有着广泛的应用。虽然C/S结构在Internet环境下明显不如B/S结构具有优势，但它在局域网环境下仍具有优势。3 Internet/Intranet信息系统的多层体系结构多层结构应用软件与传统的两层结构应用软件相比，有可伸缩性好、可管理性强、安全性高、软件重用性好等诸多优点，如何在Internet/Intranet环境下构建应用软件体系结构就成为一个非常重要的问题，也是现今软件体系研究的一个新热点。目前各种技术层出不穷，如最初的静态HTML页面、简单的CGI网关程序、Java Applet程序，现在的ASP等Web数据库技术，还有动态的Java在线游戏及PHP技术等。实际上，多层的概念是由Sun公司提出来的。Sun公司提出的多层应用体系包括4层：客户层、顶端Web服务层、应用服务层和数据库层。其中顶端Web服务层是Sun公司多层体系结构中非常重要的一层，它主要起代理和缓存的作用。顶端Web服务器的作用是缓存本地各客户机经常使用的Java Applet程序和静态数据，通常被放置在客户机所在的局域网内，起到一个Java Applet主机（向Web浏览器传送Java Applet程序的计算机）和访问其他服务的代理作用。与普通代理服务器的作用相同。构建多层结构应用软件时，选用Java平台是一个很好的选择，因为它跨越各应用平台。总之，在Java平台上构建多层应用软件体系代表着今后Internet/Intranet应用的趋势。

有图片的，这里发不了图片，满意我的论文加分后联系我，我发给你。　　基于关系数据库的模式匹配技术研究　　摘要随着网络技术的发展，信息处理需要对大量的、异构的数据源的数据进行统一存取，多源异构数据的集成问题就显得十分重要。而模式匹配是数据集成领域的一个基本技术。文章提出一种解决关系数据库语义冲突问题的模式匹配技术，以实现异构数据的共享与互操作。　　关键词数据集成；模式匹配；语义冲突　　1 引言　　随着计算机及网络技术的快速发展，网络上的各种信息以指数级爆炸性增长，成为了一个巨大的信息库，同时各企业单位开发了大量的软硬件平台各异的应用系统，在各种应用系统下又积累了丰富的数据资源。这样就形成了成千上万个异构的数据源，多为传统的关系数据库数据。这些数据资源由于软硬件平台各异、数据模型各异而形成了异构数据，使各数据源间的互操作变得复杂。为了更好地利用这些异构信息，以及不造成企业应用系统的重复建设和数据资源的浪费，模式匹配技术吸引了众多关注。本文针对模式匹配过程中存在的语义冲突进行分类，并提出了相应的解决策略，以达到异构数据源的共享和互操作。　　2 模式匹配中的冲突问题　　在数据集成领域中，由于数据源系统多是独立开发，数据源是相对自治的，因此描述数据的数据模型或存储结构经常会出现模式的不一致，数据源的自治性和数据源模式的异构性使数据源在共享和互操作上存在了语义冲突。这些正是模式匹配的焦点问题，它们形式上的性质使得人们很容易想到要用模式匹配去解决逻辑、语义和知识的描述问题。　　对于描述模式匹配中的语义冲突有两种较有代表性的分类[4]。第一种分类将冲突分为异类冲突、命名冲突、语义冲突和结构冲突。第二种分类主要是对第一类异类冲突概念的一个细致的改进，但和其它分类仍有细微的不同，它把异类冲突看作是语义不一致的一类(如语义冲突)，把冲突分为命名冲突、域冲突、元数据冲突、结构冲突、属性丢失和硬件/软件不同。　　模式匹配是一项复杂而繁重的任务，所能集成的数据源越来越多，上述冲突情况也会越来越普遍，想解决所有的模式冲突是不现实的。本文主要解决关系数据模式之间的语义冲突。　　3 模式匹配中的语义冲突　　本文所提出的模式匹配方法是根据关系数据库的特点设计的。关系数据库中关系的基本单位是属性，属性本身就包含着语义信息，因此异构数据源语义相似性就围绕着数据源模式中的属性来进行，并在匹配的过程中解决异构数据源模式之间的一系列语义冲突。　　1 语义匹配体系结构　　本文提出的语义匹配体系结构采用数据集成中的虚拟法数据集成系统的典型体系结构，采用将局部模式匹配到全局模式的语义匹配体系结构，自下而上地建立全局模式。首先进行模式转化，消除因各种局部数据模式之间的差异所带来的影响，解决各种局部模式之间的语义冲突等，然后在转化后的模式的基础上进行模式匹配，其主要手段是提供各数据源的虚拟的集成视图。　　数据仍保存在各数据源上，集成系统仅提供一个虚拟的集成视图和对该集成视图的查询的处理机制。系统能自动地将用户对集成模式的查询请求转换成对各异构数据源的查询。在这种体系结构中，中间层根本不实际存储数据，当客户端发出查询请求时，仅是简单地将查询发送到适当的数据源上。由于该方法不需要重复存储大量数据，并能保证查询到最新的数据，因此比较适合于高度自治、集成数量多且更新变化快的异构数据源集成。　　本文中的语义匹配的体系结构如图1所示。　　2 关系数据库模式中语义冲突问题分类及其解决策略　　大多数数据库系统提供了一套概念结构来对现实世界的数据进行建模。每一个概念结构被认为是一个类型，它可以是一种复杂类型或一种基本类型。类型和它所表示的数据间的联系就称为语义[3]。　　在关系数据库中，一个关系模式是一个有序对(R，c)，其中R为模式所指向的关系(表)的名称，而c则为具有不同名称的属性的有限集。同时，属性也是一个有序对(N，D)，其中N为属性的名称，而D则为一个域。可以看出关系模式的基本单位是属性。属性本身就包含着语义信息，因此模式语义相似性就围绕模式中的属性来进行，并在模式匹配的过程中解决异构数据库模式之间的一系列语义冲突。　　根据语义的定义，在关系数据库系统中，语义系统是由模式、模式的属性、模式中属性之间的联系和模式间的属性之间的联系构成。这里将语义分为3级：模式级、属性级和实例级。下面将异构模式中存在的语义冲突问题进行了分类，并阐述了各种语义冲突的解决策略：　　1)模式级冲突　　(1)关系命名冲突。包括关系名同义词和关系名同形异义词。前者进行换名或建立关系名同义词表以记载该类冲突；后者进行换名或建立关系名同形异义词表以记载该类冲突。　　(2)关系结构冲突。分为包含冲突和相交冲突。包含冲突是指在含义相同的两个关系 R1 和 R2 中一个关系的属性集是另一个的属性子集。相交冲突是指两关系属性集的交不为空，我们用 attrset 代表关系的属性集。对包含冲突：①如果两个关系的属性集相同即attrset(R1)=attrset(R2)，则合并这两个对象，Merge(R1， R2)into R3；②如果 attrset(R1) attrset(R2)，则 attrset(R2')=attrset(R2)－attrset(R1)，attrset(R1') = attrset(R1)；③对相交冲突：通常概括语义进行如下解决：generalize(R1，R2)其中 attrset(R3)=attrset(R1)∩attrset(R2)， attrset(R1')= attrset(R1)－attrset(R3)；attrset(R2')=attrset(R2)－attrset(R3)。　　(3)关系关键字冲突：两个含义相同的关系具有不同的关键字约束。包括候选关键字冲突和主关键字冲突。解决候选关键字冲突的方法是，将两关系的候选关键字的交集作为两关系的候选关键字；解决主关键字冲突的方法是，从两关系的公共候选关键字中选一个分别作为两关系的主关键字。　　(4)多对多的关系冲突：两个数据库中用不同数量的关系来表达现实世界的相同语义信息，就产生了多对多的关系冲突，这种冲突分3种：一对多，多对一和多对多。解决方法是在表示相同语义信息的数据库中关系之间建立映射来表示多对多的关系。　　2)属性级冲突　　(1)属性命名冲突：分属性名同义词冲突和属性名同形异义词。前者的解决方法是，换名或建立属性名同义词字典；后者的解决方法是，换名或建立属性名同形异义词字典。　　(2)属性约束冲突：分属性类型冲突和属性长度冲突两种。当在两个相关的关系R1和R2的属性N1和N2具有不同的属性类型时，就发生属性类型冲突。解决方法是在全局模式中将发生属性类型冲突的属性统一到某种属性类型。对属性长度的解决方法是，在全局模式中将发生属性长度类型冲突的属性对统一定义为最大者就可。　　(3)多对多的属性冲突：两个数据库中的关系分别用不同数量的属性来表达现实世界中相同的语义信息时，就发生了多对多的属性冲突，这种冲突分3种：一对多，多对一和多对多。解决方法是在表示相同语义信息的数据库中关系的属性之间建立映射来表示这种多对多的关系。　　3)实例级冲突　　(1)不兼容关系实例冲突：当含义相同的数据项在不同的数据库中存在不一致的数据值时就发生了不兼容关系实例冲突。其解决方法是：将关系实例的最近修改作为关系实例冲突部分的值，但不能保证数据的正确性。　　(2)关系实例表示冲突：关系实例表示冲突是指用不兼容的符号、量纲和精度来表示相关关系实例中等价的数据元素，主要包括表达冲突、量纲冲突和精度冲突。表达冲突是指在两个相关的关系R1和R2中含义相同的属性N1和N2具有不同的数据表达时，这种冲突使用语义值的概念来解决，即将表示同一概念的多种表达在全局数据中进行统一即可。量纲冲突是指在两个相关的关系R1和R2和中含义相同的属性N1和N2具有不同的量纲表示。量纲冲突也可以语义值加以解决，解决过程如下：分别定义发生量纲冲突的局部数据源的语义值模式和语义值说明，然后再定义全局数据模式中相应的语义值模式和语义值说明，将发生量纲冲突的属性值在全局模式中进行统一。精度冲突是指在两个相关的关系 R1 和 R2 中含义相同的属性具有不同的精度。其解决方法是在全局模式中将发生精度冲突的数据项定义为最高精度即可。　　4 总结　　本文针对异构数据源管理自治和模式异构的特点，提出了数据源集成模式匹配的体系结构，制定了匹配策略，研究了基于语义的模式匹配过程。以关系模式为参考模式，对异构数据源关系模式间可能存在的语义冲突问题进行了分类，并阐述了解决这些语义冲突的策略。　　参考文献　　[1] Bergamaschi S， Castano S， Vincini M Semantic Integration of Semistructured and Structured Data Sources [J] SIGMOD Record， 1999， 28(1)： 54-　　[2] Li W， Clifton C， Liu S Database Integration Using Neural Network： Implementation and Experiences [J] Knowledge and Information Systems， 2000， 2(1)　　[3] Reddy M P， Prasad B E， GReddy P A Methodology for Integration of Heterogeneous Databases [J] Information System， 1999，24(5)　　[4] Rahm E，Bernstein PA Survey of Approaches to Automatic Schema Matching[J] The International Journal on Very Large Data Bases (VLDB)，2001，10(4)：334-　　[5] 孟小峰，周龙骧，王珊数据库技术发展趋势[J]软件学报，2004，15(12)：1822-1835　　[6] 邓志鸿，唐世渭，张铭，等Ontology研究综述[J]北京大学学报( 自然科学版)，2002，38(5)：730-738　　[7] 郭志鑫基于本体的文档引文元数据信息抽取[J]微计算机信息，2006，22(6-3)　　相关文献：　　基于XML的多数据库系统集成数据模型 - 华中科技大学学报：自然科学版 - 卢晓蓉陈传波等　　基于CORBA和XML的多数据库系统研究 - 郑州轻工业学院学报：自然科学版 - 张素智,钱慎一,卢正鼎,　　集成数据库和文件系统的多数据库事务模型 - 华中理工大学学报 - 卢正鼎肖卫军　　基于主动规则对象的分布式多数据库系统集成 - 小型微型计算机系统 - 胡华,高济,　　基于CORBA的多数据库系统 - 计算机科学 - 石祥滨张斌　　基于XML的文件系统与多数据库系统的集成 - 小型微型计算机系统 - 卢正鼎李兵等　　基于CORBA／XML的多数据库系统的研究与实现 - 计算机研究与发展 - 卢正鼎李兵等　　多数据库系统集成平台CMDatabase体系结构 - 计算机工程 - 魏振钢郭山清贾忠伟　　多数据库系统的数据模式集成与查询处理 - 电脑开发与应用 - 陶世群　　数据库网格：基于网格的多数据库系统 - 计算机工程与应用 - 任浩李志刚肖侬　　高校学生收费系统基于多数据库系统集成的一种实践 - 昆明冶金高等专科学校学报 - 杨滨生,蒋涛勇,张中祥,谢静静,　　基于RDBMS的地理信息集成数据库系统 - 计算机工程 - 江崇礼王丽佳等　　基于CORBA的异构数据库系统集成模型的研究 - 现代计算机：下半月版 - 陈刚　　基于分布式对象技术的多数据库系统 - 计算机工程与科学 - 韩伟红隋品波　　基于CORBA的多数据库系统互操作技术 - 计算机科学 - 肖明,肖毅,

关于数据库论文

给我发邮件，我以前自己写的一个。1W多字

数据库设计应用论文包括六个主要步骤：1、需求分析：了解用户的数据需求、处理需求、安全性及完整性要求；2、概念设计：通过数据抽象，设计系统概念模型，一般为E-R模型；3、逻辑结构设计：设计系统的模式和外模式，对于关系模型主要是基本表和视图；4、物理结构设计：设计数据的存储结构和存取方法，如索引的设计；5、系统实施：组织数据入库、编制应用程序、试运行；6、运行维护：系统投入运行，长期的维护工作。

关于数据库的外文文献

国际医学文献数据库检索网站Medline——世界上最著名的医学文献检索系统之一AIDS Databases——有关艾滋病的临床实验、药物研制以及相关文献数据库CANCERLIT——癌症数据库(National Cancer Institute)CHID online——综合卫生信息数据库，提供有关卫生、卫生教育资源的题录、文摘等信息ClinicalTv——向医患人员提供的临床实验信息数据库DIRLINE——收集美国约17,000个政府机构、研究机构、公司、学术机构等信息药物信息库——包含有9,000余种美国处方与非处方药物信息HSTAT——包括有健康指南、评价、和消费者指南信息的全文数据库NCCAM Resources——补充和替代医学资源Dietary Supplements——提供维生素、矿物质、植物等信息畸形、智力迟缓数据库——提供先天畸形、智力发育迟缓信息LOCATORplus——杂志、书籍和视听教材目录数据库Chemical Abstract——覆盖化学、化工、医学、生物学、环境、食品等多学科的科技文献系统Dialog 联机检索系统——世界上最大的文献检索系统Biomedicine——荷兰医学文摘，世界权威性的医药文献数据库。RHO——生殖健康展望，由William H Gates 基金会的基金资助Out Look——有关生殖健康的论题，由 PATH 出版，联合国人口基金资助，可免费索取医药信息网——有药品数据库、疾病数据库、新药数据库、医药市场等主要数据库MEDLINE Search——最权威的生物医学文献数据库，可获取全球范围内的4300种期刊的文献Consensus Statements——提供对医生、患者有重要意义的有争议医学问题一致性见解Cancer net Database——综合癌症信息数据库Rare Diseases Database——罕见疾病临床研究数据库Visible Human Project——可视人计划数据库TOXNET Databases——毒理学数据库，将有关毒理和有害物质信息分为八个文档FDA——最新的有关食品、药物、生物制剂、美容品、医学装置等通过、调整等信息Guideline Clearinghouse——提供临床医疗指南，汇总美国各权威协会和学术机构制定的各种指南性文件Women's Health & Environment——妇女卫生与健康研究信息数据库Rehabilitation Information——康复信息数据库INFOTRIEVE——可通过WEB浏览器查找医学文献CLINIWEB——医学信息检索系统，帮助医生从WEB上查询有用的医学信息Health A to Z——一个功能强大的INTERNET医学信息资源搜索器Medguide——收录了网上大部分生物医学资源，支持多词逻辑检索achoo——INTERNET医学信息资源搜索MedAll List——是哈佛大学收集医药网点的列表，有大量网上医学院校和图书馆的联接MedExplorer——检索方法简便，主要提供有关医学新闻及杂志的信息MEL health resources——将INTERNET上的医药信息按学科分类进行整理，提供关键词查找Medical Virtual library——是一个分布式的资源系统，提供关键词查找，并有按字序排列的列表BiomedNet——由美国多家机构联合建立，收集网页1万余个Medscape——面向临床医师和其他医疗卫生专业人员的交互式的商用Web站点Medical Matrix——有分类检索和关键词检索两种检索方式。还提供免费Mailing listsDoctor's Guide——向医生和患者提供信息和服务，特色服务是新闻和会议消息美国化学文摘社——世界最大、最强化学信息库,1300万条摘要、1650万种物质美国专利数据库——提供美国专利目录和摘要数据库,免费查找专利名称、摘要等信息天然产物数据库——提供75年以来活性天然产物，通过电子邮件申请帮助查询IBM 专利服务器——提供美国专利局26年来的专利摘要，免费摘要、付费定购拷贝件Science 科学——世界订户最多综合性科学刊物，这是我国引进的电子版PharmInfoNet——医药信息网，提供药品、疾病、新药数据库；医学专题综述、医药市场等Nature Medicine——自然杂志出版生物医学论文，提供1996年以来各期目录及摘要The Lancet 柳叶刀——始于1823年著名医学杂志，提供大量全文，全部免费阅读')美国国家健康研究所——联邦政府生物医学研究中心，世界上著名的生物医学研究中心HealthGate数据公司——提供免费Medline查询，最新研究信息，帮助临床治疗、生物医学研究及教育生物医学文献数据库——中国医科院信息研究所研制，综合性生物医学数据库，国内权威美国医学协会出版物——美国医学协会出版，新闻、文摘或全文，包括以下部分。内科学文卷、皮肤病文卷、外科学文卷、眼科学文卷、美国医学会志、美国医学新闻、神经病学文卷、妇女健康杂志、家庭医疗文卷、普通精神病学文卷、耳鼻喉、头颈外科、儿科及青春期医学British Medical Journal——英国医学杂志Medical Conference——医学会议库，4500多条会议信息，每日更新NIST Webbook and Chemistry Webbook——美国国家标准与技术研究所数据集，免费查询5000多种化合物的红外光谱，8000多种化合物质谱等等。New England Journal of Medicine——报道医学重要研究成果的周刊，提供全部过刊信息及现刊的论文摘要国内医学文献数据库检索网站中国科技信息资源共享网络——涵盖中国生物医学文献数据库（CBM）、美国MEDLINE数据库中国科学引文数据库——集多种功能为一体的综合性文献数据库中国科学引文索引数据库——收集我国出版315种重要期刊，91-94年13万篇论文及45万引文摘要。中医中药数据库——中国科学院科学数据库提供中国中医药文献检索中心——由中国中医研究院信息中心制作，提供中医药方面的Web界面文献检索服务金纬达海峡信息数据库检索——包括动态信息、科技类、综合类以及台湾系列信息等六十五个数据库万方数据医学期刊——由中国科技信息研究所制作，收录了近百种医学期刊的电子版，免费使用医管论文(台湾医院协会)——收有台大医学院,阳明医学院,高雄医学院,中国医药学院论文若干中国专利数据库——中国知识产权局研制，提供85年专利法实施后批准的专利，收集我国出版315种重要期刊，91-94年13万篇论文及45万引文摘要中医药期刊文献数据库——收集我国出版315种重要期刊，91-94年13万篇论文及45万引文摘要海峡信息数据库检索——中文网上科技文献检索中国医学信息网络——栏目有中国卫生事业，中国生物医学文献数据库，中医学院，协和医科大，医学信息网，亚洲桥，Internet信息查询中国卫生事业——有卫生事业概况、中国生物医学文献数据库、中国医学科学院、医学信息网络、医药卫生机构等栏目中国生物医学文献数据库——收录了1982年以来近千种中国生物医学期刊以及会议论文的文献题录

很多，以下是经常用的全文数据库，pubmed大部分没全文：1、OVID2、EBSCO3、proquest4、scicnedirect5、springer6、

关于数据库的英文文献

CNKI中国知网维普中文科技期刊全文数据库超星数字图书馆读秀学术搜索高等学校中英文图书数字化国际合作计划 CADAL万方数据资源

数据库设计是数据库应用的核心

数据库系统设计

A啊，09年VB计算机二级的第8题就是一模一样的，选的是A啊！

数据库系统的核心和基础，是数据模型,现有的数据库系统均是基于某种数据模型的。数据库系统的核心是数据库管理系统。数据库系统一般由数据库、数据库管理系统（DBMS）、应用系统、数据库管理员和用户构成。DBMS是数据库系统的基础和核心。

数据库系统的核心是数据库管理系统。用于建立、使用和维护数据库，简称DBMS。它对数据库进行统一的管理和控制，以保证数据库的安全性和完整性。用户通过DBMS访问数据库中的数据，数据库管理员也通过DBMS进行数据库的维护工作。它可以支持多个应用程序和用户用不同的方法在同时或不同时刻去建立，修改和询问数据库。大部分DBMS提供数据定义语言DDL（Data Definition Language）和数据操作语言DML（Data Manipulation Language），供用户定义数据库的模式结构与权限约束，实现对数据的追加、删除等操作。DBMS优点1、控制数据冗余。数据库管理应尽可能地消除了冗余，但是并没有完全消除，而是控制大量数据库固有的冗余。例如，为了表现数据间的关系，数据项的重复一般是必要的，有时为了提高性能也会重复一些数据项。2、保证数据一致性。通过消除或控制冗余，可降低不一致性产生的危险。如果数据项在数据库中只存储了一次，则任何对该值的更新均只需进行一次，而且新的值立即就被所有用户获得。如果数据项不只存储了一次，而且系统意识到这点，系统将可以确保该项的所有拷贝都保持一致。不幸的是，许多DBMS都不能自动确保这种类型的一致性。3、提高数据共享。数据库应该被有权限的用户共享。DBMS的引入使更多的用户可以更方便的共享更多的数据。新的应用程序可以依赖于数据库中已经存在的数据，并且只增加没有存储的数据，而不用重新定义所有的数据需求。

首页

> 期刊发表知识库

关于数据库设计的论文