中国科学院科学数据库
专业数据库群体,为建设信息化的科学研究环境提供数据资源保障。
——科研数据的采集与积累。将实验室、科研课题项目等科研活动中积累的科学数据和成果收集、整理、加工、建库上网,提供数据共享与服务。
——国外数据的合作交换。通过与国外同行科学数据的合作交换,建立互利互惠的合作关系,扩大专业领域的数据资源。
——建立国外数据库网上镜像节点。根据科学研究的需求,联系专业领域内国际上最权威的网上免费数据服务系统,在我国建立生物、天文等相应的网上镜像节点,实现在国内网上提供全球性科技信息资源共享。
·数字标本馆建设
中国科学院在生物和地学领域的研究所中分布着24个实物标本馆,其中相当一部分标本馆在国际上有很高的地位。数字标本馆是将原始实物标本系统地转化整理成易于传递的数字化电子信息,将标本在网上进行实物展示,具有很大的方便性和灵活性。数字标本馆的建设是一个新的探索,由于标本馆标本数量多,经费投入大,国内外尚无成功的范例。如何三维、直观和综合有效地展示标本的技术问题还有待探讨和解决。
“十五”期间,将在生物和地学领域选择1-2个标本馆,进行数字标本馆建设的试点工作。
(2)标准规范建设
·科学数据库元数据标准体系
科学数据库系统涉及的学科比较广泛,包括了数、理、化、天、地、生等多个领域,科学数据库系统数据资源的类型也多种多样。因此,不可能建立单一的科学数据库元数据标准,只能建立多种元数据标准共存的元数据标准集,在该标准集中不同的元数据标准间能实现一定程度的交换与互操作(Interoperability)。
此外,元数据标准集应该是一个开放的、可扩展的系统,随着科学数据库系统建设规模不断扩大,新学科、新应用不断产生,该标准集应能动态扩充。为此,我们将科学数据库元数据标准体系建设分成两个主要部分进行:
——科学数据库元数据标准框架。所谓元数据标准框架是科学数据库系统内制定不同学科、不同应用的元数据标准时应该遵行的规则、方法,它是抽象化的元数据,它从更高层次上规定了科学数据库系统中元数据的功能、数据结构、格式、设计方法、语义语法规则等多方面的内容。
——科学数据库元数据标准集。所谓科学数据库元数据标准集是科学数据库系统内针对各学科领域、各实际应用建立起来的元数据标准的集合。在该集合内发布的标准是各建库单位进行元数据建设时可以采用的标准。元数据标准集是一个开放的、可扩展的系统,随着科学数据库不断的扩大,新学科、新应用不断产生,可以不断地制定新的元数据标准并纳入到标准集中。
·科学数据库数据标准体系
建立科学数据库完整的数据标准规范体系是一项非常复杂的工程,在“十五”期间我们只是针对科学数据库的特点与需求,以软课题的方式,就以下一些方面进行研究,并且研究的重点在于数据质量的评估标准与相关的保证措施。
——科学数据库数据质量评估标准体系。数据质量包括数据的完备性、准确性等多个方面,数据质量的好坏直接影响数据应用者分析结果的可靠程度和系统应用目标的真正实现。科学数据库专家委员会在对每一个科学数据库进行检查和验收时,希望能有一套有效的方法来评估和检测数据的质量问题,对用户来说,科学数据的应用者在查询和利用数据时,也希望了解数据的来源与可靠程度。因此数据质量评估标准的研究与制定,将对科学数据库的发展起着重要的作用。
——科学数据库自身的评价与分类指标体系。科学数据库经过20多年的建设,一直没有明确提出什么样的数据是科学数据,什么样的数据库可以称为科学数据库;作为一个科学数据库必须具备哪些方面的特征;以什么样的标准来评价一个科学数据库建设的好与坏;科学数据库与其它数据库(如文献库等)的关系;不同的科学数据、科学数据库之间如何分类,不同的类之间有何种联系等等一系列的问题。通过研究和建立科学数据库自身的评价与分类指标体系,将解决上述这些问题,使科学数据库能成为一个自身完整的系统,为以后的研究与应用打下良好的基础。
——科学数据库标准术语和统一的数据词典。科学数据库中的各个子库是由不同的创建者建立的,所以一直以来没有统一的数据语义,为数据的整合和共享造成了很多的困难。因此,“十五”期间我们将在科学数据库的数据概念层上进行研究,建立统一的数据字典,保证能在异构,不同数据源的数据之间建立统一的语义关系。这样,就可以实现在异构的,分布式的数据环境下为用户提供统一的全局视图,以实现在多级数据管理系统上的数据整合。
——科学数据库信息编码体系。同类数据或信息采用相同的编码方式也是保证数据和信息能充分共享的条件,科学数据库信息编码体系分为科学数据库内部制定的信息编码体系和国际、国内信息编码体系。对于国际上或国内已经有的标准的编码方式,科学数据库采用国际、国内标准编码,对于科学数据库特殊需要的编码方式,在科学数据库内部制定并通用。
·科学数据库管理规范体系
科学数据库管理规范体系的研究在“十五”期间同样是以软课题的方式进行,其主要目的在于从宏观政策层面研究国际、国内关于数据共享、数据管理和服务相关的法律、法规、政策、规章等等,从而制定科学数据库系统内数据共享政策、数据服务政策、管理规范等。
科学数据库管理规范的研究可以分解为以下几个主要方面:
——科学数据库数据共享政策与规范。“科学数据库及其应用系统”十五期间在数据资源建设方面将涉及到近40个研究所,每一个研究所还涉及不同的课题组和大量的科研人员。对于这样庞大的一个系统,如何有效地进行数据的共享,不仅仅是一个技术上的问题,而且还涉及数据管理与共享的政策问题。研究和制定科学数据库数据共享的政策与相关的管理办法,可以保证在科学数据库系统内数据资源的充分共享,也保证基于这些数据所开展的各种信息服务的质量。
——科学数据库管理规范体系。科学数据库本身是一个复杂的系统工程。它的管理问题贯穿在主体库的建设和运行服务之中。因此,要根据过去的经验和未来发展的趋势,对科学数据库提出一套符合管理科学的理论,又适合科学数据库特点的管理体系。在科学数据库数据中心 - 各学科分中心 - 专业数据库三个层次都提出相应的管理规范。
——科学数据库运行服务体系。运行服务体系是建立科学数据库的重要目标之一。采取什么样的运行服务机制是一个十分复杂和敏感的问题,因此,在“十五”期间我们将在实践的过程总结和建立一套多级运行服务机制。
(3)系统平台建设
“十五”期间科学数据库及其应用系统项目的系统平台和应用系统建设任务包括以下五个部分:一个数据中心;三个数据分中心;科学数据库系统平台软件开发;科学数据库系统平台建设;先进应用系统建设。
·科学数据中心
科学数据库数据中心具备由海量存储资源、高性能计算资源、高性能网络资源和多媒体处理资源等组成的
——科研数据的采集与积累。将实验室、科研课题项目等科研活动中积累的科学数据和成果收集、整理、加工、建库上网,提供数据共享与服务。
——国外数据的合作交换。通过与国外同行科学数据的合作交换,建立互利互惠的合作关系,扩大专业领域的数据资源。
——建立国外数据库网上镜像节点。根据科学研究的需求,联系专业领域内国际上最权威的网上免费数据服务系统,在我国建立生物、天文等相应的网上镜像节点,实现在国内网上提供全球性科技信息资源共享。
·数字标本馆建设
中国科学院在生物和地学领域的研究所中分布着24个实物标本馆,其中相当一部分标本馆在国际上有很高的地位。数字标本馆是将原始实物标本系统地转化整理成易于传递的数字化电子信息,将标本在网上进行实物展示,具有很大的方便性和灵活性。数字标本馆的建设是一个新的探索,由于标本馆标本数量多,经费投入大,国内外尚无成功的范例。如何三维、直观和综合有效地展示标本的技术问题还有待探讨和解决。
“十五”期间,将在生物和地学领域选择1-2个标本馆,进行数字标本馆建设的试点工作。
(2)标准规范建设
·科学数据库元数据标准体系
科学数据库系统涉及的学科比较广泛,包括了数、理、化、天、地、生等多个领域,科学数据库系统数据资源的类型也多种多样。因此,不可能建立单一的科学数据库元数据标准,只能建立多种元数据标准共存的元数据标准集,在该标准集中不同的元数据标准间能实现一定程度的交换与互操作(Interoperability)。
此外,元数据标准集应该是一个开放的、可扩展的系统,随着科学数据库系统建设规模不断扩大,新学科、新应用不断产生,该标准集应能动态扩充。为此,我们将科学数据库元数据标准体系建设分成两个主要部分进行:
——科学数据库元数据标准框架。所谓元数据标准框架是科学数据库系统内制定不同学科、不同应用的元数据标准时应该遵行的规则、方法,它是抽象化的元数据,它从更高层次上规定了科学数据库系统中元数据的功能、数据结构、格式、设计方法、语义语法规则等多方面的内容。
——科学数据库元数据标准集。所谓科学数据库元数据标准集是科学数据库系统内针对各学科领域、各实际应用建立起来的元数据标准的集合。在该集合内发布的标准是各建库单位进行元数据建设时可以采用的标准。元数据标准集是一个开放的、可扩展的系统,随着科学数据库不断的扩大,新学科、新应用不断产生,可以不断地制定新的元数据标准并纳入到标准集中。
·科学数据库数据标准体系
建立科学数据库完整的数据标准规范体系是一项非常复杂的工程,在“十五”期间我们只是针对科学数据库的特点与需求,以软课题的方式,就以下一些方面进行研究,并且研究的重点在于数据质量的评估标准与相关的保证措施。
——科学数据库数据质量评估标准体系。数据质量包括数据的完备性、准确性等多个方面,数据质量的好坏直接影响数据应用者分析结果的可靠程度和系统应用目标的真正实现。科学数据库专家委员会在对每一个科学数据库进行检查和验收时,希望能有一套有效的方法来评估和检测数据的质量问题,对用户来说,科学数据的应用者在查询和利用数据时,也希望了解数据的来源与可靠程度。因此数据质量评估标准的研究与制定,将对科学数据库的发展起着重要的作用。
——科学数据库自身的评价与分类指标体系。科学数据库经过20多年的建设,一直没有明确提出什么样的数据是科学数据,什么样的数据库可以称为科学数据库;作为一个科学数据库必须具备哪些方面的特征;以什么样的标准来评价一个科学数据库建设的好与坏;科学数据库与其它数据库(如文献库等)的关系;不同的科学数据、科学数据库之间如何分类,不同的类之间有何种联系等等一系列的问题。通过研究和建立科学数据库自身的评价与分类指标体系,将解决上述这些问题,使科学数据库能成为一个自身完整的系统,为以后的研究与应用打下良好的基础。
——科学数据库标准术语和统一的数据词典。科学数据库中的各个子库是由不同的创建者建立的,所以一直以来没有统一的数据语义,为数据的整合和共享造成了很多的困难。因此,“十五”期间我们将在科学数据库的数据概念层上进行研究,建立统一的数据字典,保证能在异构,不同数据源的数据之间建立统一的语义关系。这样,就可以实现在异构的,分布式的数据环境下为用户提供统一的全局视图,以实现在多级数据管理系统上的数据整合。
——科学数据库信息编码体系。同类数据或信息采用相同的编码方式也是保证数据和信息能充分共享的条件,科学数据库信息编码体系分为科学数据库内部制定的信息编码体系和国际、国内信息编码体系。对于国际上或国内已经有的标准的编码方式,科学数据库采用国际、国内标准编码,对于科学数据库特殊需要的编码方式,在科学数据库内部制定并通用。
·科学数据库管理规范体系
科学数据库管理规范体系的研究在“十五”期间同样是以软课题的方式进行,其主要目的在于从宏观政策层面研究国际、国内关于数据共享、数据管理和服务相关的法律、法规、政策、规章等等,从而制定科学数据库系统内数据共享政策、数据服务政策、管理规范等。
科学数据库管理规范的研究可以分解为以下几个主要方面:
——科学数据库数据共享政策与规范。“科学数据库及其应用系统”十五期间在数据资源建设方面将涉及到近40个研究所,每一个研究所还涉及不同的课题组和大量的科研人员。对于这样庞大的一个系统,如何有效地进行数据的共享,不仅仅是一个技术上的问题,而且还涉及数据管理与共享的政策问题。研究和制定科学数据库数据共享的政策与相关的管理办法,可以保证在科学数据库系统内数据资源的充分共享,也保证基于这些数据所开展的各种信息服务的质量。
——科学数据库管理规范体系。科学数据库本身是一个复杂的系统工程。它的管理问题贯穿在主体库的建设和运行服务之中。因此,要根据过去的经验和未来发展的趋势,对科学数据库提出一套符合管理科学的理论,又适合科学数据库特点的管理体系。在科学数据库数据中心 - 各学科分中心 - 专业数据库三个层次都提出相应的管理规范。
——科学数据库运行服务体系。运行服务体系是建立科学数据库的重要目标之一。采取什么样的运行服务机制是一个十分复杂和敏感的问题,因此,在“十五”期间我们将在实践的过程总结和建立一套多级运行服务机制。
(3)系统平台建设
“十五”期间科学数据库及其应用系统项目的系统平台和应用系统建设任务包括以下五个部分:一个数据中心;三个数据分中心;科学数据库系统平台软件开发;科学数据库系统平台建设;先进应用系统建设。
·科学数据中心
科学数据库数据中心具备由海量存储资源、高性能计算资源、高性能网络资源和多媒体处理资源等组成的
上一篇:中国科学院海洋研究所[ 03-18 ]
下一篇:中国科学院兰州资源环境科学信息中心[ 03-18 ]