1 编制背景和目的
植物标本是植物学研究中一类重要的本底研究资料,一般保藏于植物标本馆中,供研究人员查询浏览。上世纪90年代开始,随着数码摄影和计算机技术在中国的发展,各大植物标本馆开始尝试将馆藏植物标本数字化、数据化,并依托互联网进行数据开放共享,且已经与野外采集植物标本的工作流程进行了深度整合。我国也涌现了众多提供数字化植物标本线上共享服务的网络平台,而各个平台的数字化植物标本的数据标准却存在较大差异。因此,在植物标本数字化领域,需要依据一套全面、科学的数据规范来开展工作,以确保数字化植物标本数据在生产、存储和共享等阶段中的质量和兼容性,从而提升数据利用的效率。
作为国内最大的数字化植物标本数据在线共享平台,始建于2006年的中国数字植物标本馆(Chinese Virtual Herbarium,CVH,www.cvh.ac.cn)在中国植物馆藏标本数字化领域深耕十余年,在数字化植物标本数据的标准化、规范化方面进行了深入的探索。本规范在编写时,参考了CVH的数字化植物标本数据标准化存储模式,并结合中国植物标本数字化工作流程的特点进行了补充扩展。
本规范适用于数字化植物标本数据(如腊叶标本、种子标本等),旨在为中国数字化植物标本数据的生产与管理提供一个全面、科学的数据标准和数据质量控制准则,促进植物科学数据标准的统一和完善,保证数据质量,并与全球主流生物多样性数据标准对接,提升数字化植物标本数据的开放和共享的能力。
2 定义和术语
2.1 数字化植物标本记录
一份植物标本数字化后所获得的数据和图像等信息的集合称为一条数字化植物标本记录(Digitalized plant specimen records),数字化植物标本记录一般由标本的采集、鉴定、馆藏和图像数据组成。
2.2 标本保藏单位代码
标本保藏单位代码(Institution code)是标本保藏单位的唯一机构标识符,通常为标本馆的馆代码,由大写英文字母组成。
2.3 标本条形码
标本条形码(Catalog number)是一份标本在保藏单位内部的唯一识别符,通常为一串数字,即植物标本上粘贴的条形码的值。
2.4 标本流水号
标本流水号(Serial code)是标本在进入保藏单位进行保藏时被分配的编号。
2.5 标本生殖状态
标本生殖状态(Reproductive condition)是对一份植物标本所处的生殖阶段的描述,如该标本是否有花有果,是否具有孢子囊等。
2.6 标本生活型
标本生活型(Life form)是对标本植物的生活型描述,如草本、灌木、乔木、藤本等。
3 数据内容与数据表结构规范
3.1 数据内容
数字化植物标本数据的核心内容是结构化的5个数据表(表1),以及相应的非结构化植物标本图像数据。
表1 数字化植物标本数据表
序号 | 数据表代码 | 数据表中文名称 | 数据表简介 |
1 | spm_raw | 原始标本采集记录表 | 包括标本记录编号、采集号、采集人、采集日期、国家、省、县、地点、海拔、原始经度、原始纬度、生殖状态、生境、生活型、株高、根形态、胸径、外皮形态、茎形态、叶形态、花形态、果形态、孢子囊形态、寄主、俗名、修改时间和采集事件备注等字段 |
2 | spm_storage | 标本馆藏记录表 | 包括标本记录编号、保藏单位代码、条形码、流水号、修改时间和馆藏备注等字段 |
3 | spm_identification | 标本鉴定记录表 | 包括鉴定记录编号、标本记录编号、物种学名、模式类型、科拉丁名称、属拉丁名称、种加词、种下等级拉丁名称缩写、种下加词、命名人、鉴定人、鉴定日期、原始鉴定日期、修改时间和鉴定备注等字段 |
4 | spm_standardization | 标准化标本采集记录表 | 包括标本记录编号、采集人、采集日期、国家、国家代码、省、县、地点、最低海拔、最高海拔、十进制经度、十进制纬度、修改时间和标准化操作备注等字段 |
5 | spm_image | 标本图像记录表 | 包括图片ID、标本记录编号、图片路径、图片作者、图片创建时间、图片文件格式、版权/共享方式、修改时间和图像备注等字段 |
3.2 数据表结构及字段说明
数据表字段设置原则为:尽量能使植物标本馆藏、采集签、鉴定签上的信息分门别类地落入不同的数据表字段中,使数据表能够完整地记录一份植物标本包含的所有信息。
结构化数据共包括5个数据表,数据表的不同字段对应了植物标本在馆藏、采集、鉴定、数字化、数据规范化等方面所具的不同属性,下面对各个数据表结构进行逐一阐述。
3.2.1 原始标本采集记录表(spm_raw)
原始标本采集记录中的信息为植物腊叶标本的采集信息,其中信息应当与腊叶植物标本的采集标签或采集记录保持一致。一条记录代表一份植物腊叶标本,每条记录包含标本记录编号、采集号、采集人、采集日期、国家、省、县、地点、海拔、原始经度、原始纬度、生殖状态、生境、生活型、株高、根形态、胸径、外皮形态、茎形态、叶形态、花形态、果形态、孢子囊形态、寄主、俗名、修改时间和采集事件备注等字段。
(1)标本记录编号
标识:collectionID
中文名称:标本记录编号
英文名称:Specimens Collection ID
定义:数据库中标本记录的唯一标识
字段类型:C
字段示例:23;c1a6c466;20031100045
(2)采集号
标识:recordNumber
中文名称:采集号
英文名称:Record Number
定义:由采集人制定的标本采集编号
字段类型:C
字段示例:831;897274;B-373
(3)采集人
标识:recordedBy
中文名称:采集人
英文名称:Recorded By
定义:采集植物标本的人、团体或组织
字段类型:C
字段示例:孙永华;W.T.Tsang;孟连调查队
(4)采集日期
标识:verbatimEventDate
中文名称:采集日期
英文名称:Verbatim Event Date
定义:标本采集日期的原始记录
字段类型:C
注释:推荐采用ISO 8601 中日期和时间的表示格式
字段示例:1934;2002-03-26
(5)国家
标识:country
中文名称:国家
英文名称:Country
定义:国家名称
字段类型:C
字段示例:中国;France
(6)省
标识:stateProvince
中文名称:省
英文名称:State Province
定义:植物标本采集的省级行政区
字段类型:C
字段示例:西康;香港;Hawaii Islands,U.S.A
(7)县
标识:county
中文名称:县
英文名称:County
定义:植物标本采集的县行政区
字段类型:C
字段示例:东城;平山;Batan Island
(8)地点
标识:verbatimLocality
中文名称:地点
英文名称:Verbatim Locality
定义:详细的标本采集地点
字段类型:C
字段示例:帽儿山五花草溏;hsiaowutaishan;sandy clearing, 4.5mi.e.of ROCKTON
(9)海拔
标识:verbatimElevation
中文名称:海拔
英文名称:Verbatim Elevation
定义:海拔高度的原始描述
字段类型:N
字段单位:米(m)
字段示例:100-200
(10)原始经度
标识:verbatimLongitude
中文名称:原始经度
英文名称:Verbatim Longitude
定义:位置的原始经度
字段类型:C
字段示例:E108°48′34.32″
(11)原始纬度
标识:verbatimLatitude
中文名称:原始纬度
英文名称:Verbatim Latitude
定义:位置的原始纬度
字段类型:C
字段示例:N34°1′47.40″
(12)生殖状态
标识:reproductiveCondition
中文名称:生殖状态
英文名称:Reproductive Condtion
定义:植物所处的生殖状态,如花期,果期等
字段类型:C
字段示例:有花无果;有孢子囊
(13)生境
标识:habitat
中文名称:生境
英文名称:Habitat
定义:物种生活环境的描述
字段类型:C
字段示例:林缘;山坡流石滩
(14)生活型
标识:lifeForm
中文名称:生活型
英文名称:Life Form
定义:标本记录表中的物种生活型信息
字段类型:C
注释:建议采用《中国植被》的生活型分类系统
字段示例:直立草本;灌木;草质藤本
(15)株高
标识:height
中文名称:株高
英文名称:Height
定义:植株高度
字段类型:N
字段单位:厘米(cm)
字段示例:300
(16)根形态
标识:root
中文名称:根形态
英文名称:Root
定义:根的形态描述
字段类型:C
字段示例:须根
(17)胸径
标识:DBH
中文名称:胸径
英文名称:Diameter Breast Height
定义:树木1.3米高度处直径
字段类型:N
字段单位:厘米(cm)
字段示例:10
(18)外皮形态
标识:skin
中文名称:外皮形态
英文名称:Skin
定义:茎周皮(树皮)的形态描述
字段类型:C
字段示例:树皮浅灰褐色,纵裂
(19)茎形态
标识:stem
中文名称:茎形态
英文名称:Stem
定义:茎的形态描述
字段类型:C
字段示例:茎直立,分枝多
(20)叶形态
标识:leaf
中文名称:叶形态
英文名称:Leaf
定义:叶的形态描述
字段类型:C
字段示例:单叶互生,叶羽状深裂
(21)花形态
标识:flower
中文名称:花形态
英文名称:Flower
定义:花的形态描述
字段类型:C
字段示例:总状花序,花黄绿色
(22)果形态
标识:fruit
中文名称:果形态
英文名称:Fruit
定义:果的形态描述
字段类型:C
字段示例:果绿色,密集生于叶腋处
(23)孢子囊形态
标识:sporangia
中文名称:孢子囊形态
英文名称:Sporangia
定义:孢子囊形态的描述信息
字段类型:C
字段示例:孢子四面型,有细微的乳头状突起
(24)寄主
标识:host
中文名称:寄主
英文名称:Host
定义:标本植物所寄生的寄主名称
字段类型:C
字段示例:毛白杨;Ulmus pumila
(25)俗名
标识:commonName
中文名称:俗名
英文名称:Common Name
定义:标本植物在采集地的俗称
字段类型:C
字段示例:岩拐角
(26)修改时间
标识:modified
中文名称:修改时间
英文名称:Modified
定义:记录修改的日期时间
字段类型:D
注释:推荐采用ISO 8601 中日期和时间的表示格式
字段示例:2016-06-03T19:23:00
(27)采集事件备注
标识:eventRemarks
中文名称:采集事件备注
英文名称:Event Remarks
定义:采集标本事件的备注信息
字段类型:C
字段示例:标本份数4;遗传材料1份
3.2.2 标本馆藏记录表(spm_storage)
用于描述植物标本在标本馆、标本室等单位的保藏情况,表中记录与原始标本采集记录一一对应,每条记录包含标本记录编号、保藏单位代码、条形码、流水号、修改时间、馆藏备注等字段。
(1)标本记录编号
标识:collectionID
中文名称:标本记录编号
英文名称:Specimens Collection ID
定义:数据库中标本记录的唯一标识
字段类型:C
字段示例:23;c1a6c466;20031100045
(2)保藏单位代码
标识:institutionCode
中文名称:保藏单位代码
英文名称:Institution Code
定义:收藏标本的标本馆单位代码
字段类型:C
字段示例:PE;IBK;WUK
(3)条形码
标识:catalogNumber
中文名称:条形码
英文名称:Catalog Number
定义:标本粘贴条形码的值
字段类型:C
字段示例:01938585;GZTM0033862
(4)流水号
标识:serialCode
中文名称:流水号
英文名称:Serial Code
定义:标本的馆藏记录顺序号
字段类型:C
字段示例:50711
(5)修改时间
标识:modified
中文名称:修改时间
英文名称:Modified
定义:记录修改的日期时间
字段类型:D
注释:推荐采用ISO 8601 中日期和时间的表示格式
字段示例:2016-06-03T19:23:00
(6)馆藏备注
标识:storageRemarks
中文名称:馆藏备注
英文名称:Storage Remarks
定义:标本馆藏记录备注信息
字段类型:C
字段示例:库存
3.2.3 标本鉴定记录表(spm_identification)
用于存储植物标本的鉴定信息,该信息一般位于植物标本的鉴定标签上。一份鉴定过的植物标本对应一条或多条鉴定记录,通过标本记录编号与原始标本采集记录关联。数据表设置鉴定记录编号、标本记录编号、物种学名、模式类型、科拉丁名称、属拉丁名称、种加词、种下等级拉丁名称缩写、种下加词、命名人、鉴定人、鉴定日期、原始鉴定日期、修改时间和鉴定备注等字段。
(1)鉴定记录编号
标识:identificationID
中文名称:鉴定记录编号
英文名称:Specimen Identification ID
定义:植物标本鉴定记录的唯一标识
字段类型:C
字段示例:id_201609230017
(1)标本记录编号
标识:collectionID
中文名称:标本记录编号
英文名称:Specimens Collection ID
定义:数据库中标本记录的唯一标识
字段类型:C
字段示例:23;c1a6c466;20031100045
(2)物种学名
标识:scientificName
中文名称:物种学名
英文名称:Scientific Name
定义:鉴定标签填写的标本植物的学名
字段类型:C
字段示例:Ginkgo biloba L.;Viola biflora var. rockiana (W. Becker) Y. S. Chen
(3)模式类型
标识:typeStatus
中文名称:模式类型
英文名称:Type Status
定义:模式标本的类型
字段类型:C
字段示例:Paratype
(4)科拉丁名称
标识:family
中文名称:科拉丁名称
英文名称:Family
定义:标本植物所在科的学名
字段类型:C
字段示例:Ginkgoaceae;Violaceae
(5)属拉丁名称
标识:genus
中文名称:属拉丁名称
英文名称:Genus
定义:标本植物所在属的学名
字段类型:C
字段示例:Ginkgo;Viola
(6)种加词
标识:specificEpithet
中文名称:种加词
英文名称:Specific Epithet
定义:标本植物学名的种加词
字段类型:C
字段示例:biloba;biflora
(7)种下等级拉丁名称缩写
标识:verbatimTaxonRank
中文名称:种下等级拉丁名称缩写
英文名称:Verbatim Taxon Rank
定义:标本植物学名中的种下等级缩写
字段类型:C
字段示例:subsp.;var.
(8)种下加词
标识:infraspecificEpithet
中文名称:种下加词
英文名称:Infraspecific Epithet
定义:标本植物学名中的种下加词
字段类型:C
字段示例:rockiana
(9)命名人
标识:scientificNameAuthorship
中文名称:命名人
英文名称:Scientific Name Authorship
定义:根据命名法规格式化的学名的作者信息
字段类型:C
字段示例:L.;(W. Becker) Y. S. Chen
(10)鉴定人
标识:identifiedBy
中文名称:鉴定人
英文名称:Identified By
定义:鉴定人姓名
字段类型:C
字段示例:张三
(11)鉴定日期
标识:dateIdentified
中文名称:鉴定日期
英文名称:Date Identified
定义:标准化的鉴定日期
字段类型:D
注释:推荐采用ISO 8601 中日期和时间的表示格式
字段示例:2008-05-26
(12)原始鉴定日期
标识:verbatimDateIdentified
中文名称:原始鉴定日期
英文名称:Verbatim Date Identified
定义:鉴定标签填写的原始鉴定日期
字段类型:C
字段示例:2008.26
(13)修改时间
标识:modified
中文名称:修改时间
英文名称:Modified
定义:记录修改的日期时间
字段类型:D
注释:推荐采用ISO 8601 中日期和时间的表示格式
字段示例:2016-06-03T19:23:00
(14)鉴定备注
标识:identificationRemarks
中文名称:鉴定备注
英文名称:Identification Remarks
定义:鉴定备注信息
字段类型:C
字段示例:从花序结构和叶形来看,该种不是金佛山悬钩子,近似于乌泡子
3.2.4 标准化标本采集记录表(spm_standardization)
为了快速地对植物标本数据进行检索和统计分析,在保留原始的采集记录的同时,还应当对原始植物标本采集记录进行标准化操作。标准化操作主要包括日期转换、地名标准化、经纬度进制转换、计量单位统一等工作。标准化标本采集记录和原始标本采集记录一一对应,二者通过标本记录编号关联。数据表设置标本记录编号、采集人、采集日期、国家、国家代码、省、县、地点、最低海拔、最高海拔、十进制经度、十进制纬度、修改时间和标准化操作备注等字段。
(1)标本记录编号
标识:collectionID
中文名称:标本记录编号
英文名称:Specimens Collection ID
定义:数据库中标本记录的唯一标识
字段类型:C
字段示例:23;c1a6c466;20031100045
(2)采集人
标识:recordedBy
中文名称:采集人
英文名称:Recorded By
定义:标准化的标本采集人、采集队名称
字段类型:C
字段示例:曾怀德
(3)采集日期
标识:eventDate
中文名称:采集日期
英文名称:Event Date
定义:标准化后的采集日期
字段类型:D
注释:推荐采用ISO 8601 中日期和时间的表示格式
字段示例:1956-06-15
(4)国家
标识:country
中文名称:国家
英文名称:Country
定义:国家名称
字段类型:C
字段示例:中国;法国
(5)国家代码
标识:countryCode
中文名称:国家代码
英文名称:Country Code
定义:国家代码
字段类型:C
注释:推荐使用ISO 3166-1-alpha-2国家代码标准
字段示例:AR;SV
(6)省
标识:stateProvince
中文名称:省
英文名称:State Province
定义:标准化的省级名称
字段类型:C
字段示例:四川省;香港特别行政区;State of Hawaii
(7)县
标识:county
中文名称:县
英文名称:County
定义:标准化的县级行政区名称
字段类型:C
字段示例:房山区;阿坝藏族羌族自治州;Rockton
(8)地点
标识:verbatimLocality
中文名称:地点
英文名称:Verbatim Locality
定义:标准化的详细标本采集地点
字段类型:C
字段示例:小五台山;Mt.Bosavi, Northern side
(9)最低海拔
标识:minimumElevationInMeters
中文名称:最低海拔
英文名称:Minimum Elevation In Meters
定义:以米为单位的标本采集海拔范围的最小值
字段类型:N
字段单位:米(m)
字段示例:100
(10)最高海拔
标识:maximumElevationInMeters
中文名称:最高海拔
英文名称:Maximum Elevation In Meters
定义:以米为单位的标本采集海拔范围的最大值。
字段类型:N
字段单位:米(m)
字段示例:950
(11)十进制经度
标识:decimalLongitude
中文名称:十进制经度
英文名称:Decimal Longitude
定义:标准化后的标本采集经度
字段类型:N
字段单位:度(°)
字段示例:121.176111
(12)十进制纬度
标识:decimalLatitude
中文名称:十进制纬度
英文名称:Decimal Latitude
定义:标准化后的标本采集纬度
字段类型:N
字段单位:度(°)
字段示例:41.098342
(13)修改时间
标识:modified
中文名称:修改时间
英文名称:Modified
定义:记录修改的日期时间
字段类型:D
注释:推荐采用ISO 8601 中日期和时间的表示格式
字段示例:2016-06-03T19:23:00
(14)标准化操作备注
标识:standardizationRemarks
中文名称:标准化操作备注
英文名称:Standardization Remarks
定义:标准化标本采集记录的备注信息
字段类型:C
字段示例:由计算机自动标准化
3.2.5 标本图像记录表(spm_image)
反映植物标本图像与植物标本记录的映射关系,通过标本记录编号与植物标本记录关联,一条标本记录对应一条或多条图像记录。该表仅记录标本图像的描述数据,不存储图像数据。
数据表设置图片ID、标本记录编号、图片路径、图片作者、图片创建时间、图片文件格式、版权/共享方式、修改时间和图像备注等字段。
(1)图片ID
标识:imageID
中文名称:图片ID
英文名称:Image ID
定义:图像的唯一标识
字段类型:C
字段示例:8fa58e08-08de-4ac1-b69c-1235340b7001
(2)标本记录编号
标识:collectionID
中文名称:标本记录编号
英文名称:Specimens Collection ID
定义:数据库中标本记录的唯一标识
字段类型:C
字段示例:c1a6c466
(3)图片路径
标识:pathway
中文名称:图片路径
英文名称:Pathway
定义:图像的存储路径
字段类型:C
字段示例:/photo//2021/3/6f86bbec-d8be-4624-95c8-c6b0ec3aecb9a.jpg
(4)图片作者
标识:creator
中文名称:图片作者
英文名称:Creator
定义:图像的创作者
字段类型:C
字段示例:张三;PE
(5)图片创建时间
标识:createdTime
中文名称:图片创建时间
英文名称:Created Time
定义:图像的创建时间
字段类型:D
注释:推荐采用ISO 8601 中日期和时间的表示格式
字段示例:2016-06-03T19:23:00
(6)图片文件格式
标识:format
中文名称:图片文件格式
英文名称:Format
定义:图像的文件格式
字段类型:C
字段示例:jpg
(7)版权/共享方式
标识:license
中文名称:版权/共享方式
英文名称:License
定义:图像采用的传播/共享方式
字段类型:C
字段示例: http://creativecommons.org/licenses/by/4.0/legalcode
(8)修改时间
标识:modified
中文名称:修改时间
英文名称:Modified
定义:记录修改的日期时间
字段类型:D
注释:推荐采用ISO 8601 中日期和时间的表示格式
字段示例:2016-06-03T19:23:00
(9)图像备注
标识:imageRemarks
中文名称:图像备注
英文名称:Image Remarks
定义:图像的备注说明
字段类型:C
字段示例:Nikon D850