1概述
植物学是一门综合性学科,研究内容涉及植物的形态、分类、生理、生态、分布、发生、遗传、进化等,涉及17个学科方向。伴随着植物学研究的发展,在植物学各个研究领域都产生了海量的科学数据,且随着新技术的发展,数据呈现出数据量大、类型多,且更新快等特点。如何集成、管理、利用好海量的植物科学数据,进而推动产生新的科学发现,是植物科学领域亟需解决的问题。
数据分类与编码是推进数据深度整合的基础。数据分类的合理性直接影响数据组织、生产、交换和共享的效率和质量。因此,开展数据分类与编码标准化工作,可有效提高数据组织和生产的效率和质量,是科学数据共享活动面临的任务之一。然而,植物科学数据散落在从事植物研究的各个高校、研究所等多个部门,虽然也建立一些植物科学数据共享系统,但是缺乏整体规划,各部门采用不同的分类编码规则,导致各信息系统互不兼容,“信息孤岛”问题严重,无法对不同系统所产生的数据进行整合、综合利用与分析。而且,在现有的科学数据分类和编码体系中,也缺乏系统、全面的植物科学数据分类与编码方案。因此,当前亟需建立一套植物科学数据分类和编码系统,为数据集的组织、整合、汇交、发布和目录查询提供系统化、规范化、实用性的分类和编码方案,促进植物科学数据的集成、整合与深度挖掘,推动植物科学研究的进一步发展。
本章在参考了科学数据共享工程数据分类和编码方案(SDS/T 2122-2004)、林业科学数据分类和编码(v1.0)、地震科学数据分类与编码(DB/T 11.1-2007)等规范的基础上,制定了植物科学数据分类与编码方案,主要服务于植物科学数据的标识、汇交、深度整合及共享,也可以供制定其他学科的数据分类与编码方案参考。
2引用标准
GB/T 13745-2009 学科分类与代码
3术语和定义
3.1植物科学数据Plant scientific data
科学数据是指人类在认识世界、改造世界的科技活动所产生的原始性、基础性数据,以及按照不同需求系统加工的数据产品和相关信息。植物科学数据则是与植物学各个学科方向研究相关联的原始性、基础性数据及各类经过再次加工的数据产品。
3.2植物科学数据分类 Categori of plant scientific data
根据植物科学数据的属性和特征,将其按照一定的原则和方法进行区分和归类,并建立起一定的分类体系和排列顺序,以便更好地管理和使用。
3.3植物科学数据代码 Code for plant scientific data
编码是一个对特定对象或事物进行分类的过程,或是对事物进行多轴分类的分类集合。植物科学数据编码就是在分类的基础上,给植物科学数据赋予有一定规律性、计算机容易识别与处理的符号,最终目的是实现数据集的唯一标识。
3.4学科分类Category of academic discipline
依据学科研究对象、研究特征、研究方法、学科的派生来源、研究目的和目标等方面对学科进行划分。
3.5线分类法Linear classification
又叫层级分类法、体系分类法。是将分类对象按所选定的若干个属性或特征,作为分类的划分基础,逐次地分成相应的若干个层级的类目,并排成一个有层次的,逐级展开的分类体系。
3.6面分类法Face classification
面分类法是把给定的分类对象,依据其本身固有的各种属性,分成相互之间没有隶属关系的面,每个面都包含了一组类目。
3.7数据集Dataset
数据集指有独立主题、规范格式,能够通过计算机采集、整合、存储和展现的数据集合。
3.8调查数据Survey data
主要指通过人工方式对某一现象、事物或者事件进行实地访问、考察获取的数据。
3.9实验数据Experiment data
对科学实验中的对象采用观察、测试等方法而收集到的数据。
3.10观测数据Observation data
指在较长的时间范围,通过人工或者仪器对某一自然或者其他现象进行不间断的、较高频度的观察和记录而获得的数据。
3.11关系型数据Relational data
指关系数据库中的数据表、视图或完整的数据库。
3.12文本数据 Text data
以文件形式存储的数字化文本或表格。
3.13图片数据 Image data
指用数值表示的各像素的灰度值的集合。此处图像数据不包括空间数据中的栅格和矢量数据。
3.14空间数据Spatial data
空间数据又称几何数据,它用来表示物体的位置、形态、大小分布等各方面的信息,是对现世界中存在的具有定位意义的事物和现象的定量描述。空间数据通常包括栅格数据、矢量数据两种结构类型。
4数据分类
4.1分类原则
(1)系统性原则:充分考虑植物科学各个领域特点、数据属性和数据集主题一致性,按其内在联系进行系统化排列,基本涵盖所有植物科学数据。
(2)实用性原则:有利于数据的分类组织和标识,简洁易懂,便于用户理解和使用。
(3)可扩充性原则:植物科学数据的种类和数据类型会随着科技的发展而逐渐增多,因此分类体系要有很好的扩展性,容易接纳更多的新数据种类。
4.2整体思路
(1)以植物学学科分类作为数据分类的基础依据。
(2)三级分类,按照大类、中类和小类等三类进行数据分类。
(3)线分类与面分类相结合:大类划分采用线分类法,大类涵盖各个植物学学科门类数据;中类和小类采用面分类方法,中类划分是根据获取数据的方式,小类是按照数据类型进行划分。
4.3大类划分
以植物学学科分类(学科分类与代码GB/T 13745-2009)作为数据大类划分的主要依据,并参照现代植物学研究的主要领域(国家自然科学基金委员会研究方向名称和代码http://www.nsfc.gov.cn/publish/portal0/tab553/)对学科分类进行增减,最终大类划分为21类,具体如下:植物分类学数据、植物生态学数据、植物引种驯化数据、植物化学数据、植物生物物理学数据、植物生物化学数据、植物形态学数据、植物解剖学数据、植物细胞学数据、植物生理学数据、植物生殖生物学数据、植物发育学数据、植物遗传学数据、植物病理学数据、植物地理学数据、植物群落学数据、实验植物学数据、民族植物学数据、植物寄生虫学数据、古植物学与孢粉学数据、植物学其他学科数据。
4.4中类划分
中类划分为调查数据、实验数据、观测数据及其它数据4类。
4.5小类划分
小类将数据归为关系型数据、文本数据、图片数据、视频数据、空间数据、工具软件和其他数据等7类。
5数据编码
5.1编码原则
(1)唯一性:每个编码对象有且仅有一个代码,一个代码唯一表示一个编码对象。
(2)可扩充性:保留适当的冗余容量,可以随着数据类别的增加而进行扩充。
(3)简单性:代码结构尽量简单,长度要短。
(4)规范性:代码的类型、结构及格式一致。
5.2编码规则
植物科学数据编码采用字母数字混合代码,代码长度为7位,其中第一位固定为字母Z,表示植物科学数据,第二、三位表示大类,第四、五位表示中类,第六、七位表示小类。
在本部分的表述中,大类的7位代码中,第四至七位设定为0,中类的7位代码中,第六至七位设定为0。具体编码结构如下(图2-1):
图2-1 植物科学数据编码规则示意图
5.3大类代码
植物科学数据分成21个大类,其名称、代码见表2-1。
表1 大类代码、名称和说明表
代码名称代码名称
Z010000植物分类学数据Z120000植物发育学数据
Z020000植物生态学数据Z130000植物遗传学数据
Z030000植物引种驯化数据Z140000植物病理学数据
Z040000植物化学数据Z150000植物地理学数据
Z050000植物生物物理学数据Z160000植物群落学数据
Z060000植物生物化学数据Z170000实验植物学数据
Z070000植物形态学数据Z180000民族植物学数据
Z080000植物解剖学数据Z190000植物寄生虫学数据
Z090000植物细胞学数据Z200000古植物学与孢粉学
Z100000植物生理学数据Z210000植物学其他学科数据
Z110000植物生殖生物学数据
5.4中类代码
中类是建立在大类的基础上,在每个大类中再划分为4个中类,用01、02、03、04分别表示调查数据、实验数据、观测数据及其它数据四个中类。如植物生态学中的样方调查数据在中类上属于调查数据,其中类代码是Z020100。由于中类代码的数量较多,不再列表一一描述。
5.5小类代码
小类在大类、中类基础上再次划分,分别用01、02、03、04、05、06表示关系型数据、文本数据、图片数据、视频数据、空间数据和其他数据等四个小类。如植物生态学中的样方调查数据在中类上属于调查数据,在小类上属于文本数据,其小类代码是Z020102。由于小类代码的数量较多,不再列表一一描述。
6分类的细化和改进
植物学是一门综合性学科,学科方向众多。在学科分类中,包含17个三级学科,在国家自然科学基金委的研究领域中,植物学包含近30个研究领域,此外在其他研究领域还存在植物学相关研究内容,如生态学、遗传学、生物化学等诸多研究领域中都包含大量的植物学研究方向。因此,植物科学数据的分类面临着较大的挑战。
本章采用线分类与面分类相结合的方式,按照大类、中类和小类将植物科学数据分门别类。这种方法的优点是相对较为简单,可以直观了解数据所属的学科方向、数据的获取方式和数据类型,容易理解和使用,但是存在一定的缺点,对数据的学科属性反映的不够详细。比如,如果采用线分类方法,植物生态学数据还可以进一步细分为种群生态学数据、生理生态学数据、植物分子生态学数据等等。但是,这需要组织植物学各个学科的专业人员对各个学科方向的数据进一步的细分,短期内难以完成。因此,本章暂采用线分类与面分类相结合的方式进行数据的分类,后期会根据工作的进展增加分类层次,逐步完善植物科学数据分类体系。