1 编制背景和目的
植物图像数据是针对野生或栽培植物类群,通过数码相机或扫描仪采集植物数码图像过程中所产生的数据,包括植物图像、鉴定物种信息、拍摄时间、地点、生境等数据。植物图像是认识和理解植物性状最直观的途径,也是植物分类学及相关研究工作的重要资料。植物图像除了可作为研究资料在科学研究、科学普及、物种鉴定等领域发挥作用外,其拍摄或采集时记录的时间、地点、生境等信息也可作为重要的观测数据,有效补充植物标本采集等传统物种信息采集方式在时效性、完备性等方面的不足。此外,分类鉴定的植物图像也可作为计算机视觉技术研究的基础数据,用于开发植物图像智能识别系统等快速鉴定技术。
本规范的编制以中国植物图像库(Plant Photo Bank of China, PPBC)标准数据格式及Darwin Core生物多样性信息标准为基础,旨在为植物图像数据提供一个全面、科学的数据规范准则,促进植物科学数据标准的统一和完善,保证数据质量。
2 定义和术语
2.1 植物图像数据
植物图像数据(Plant photo data)是指拍摄主体为植物,包含有效鉴定信息,由数据采集者在野外或栽培环境下通过数码相机、智能手机等具有将光学影像转换成电子数据功能的设备采集的图像数据。此外,还包括利用扫描仪将传统胶片、幻灯片或纸质相片转换得到的数码图片。
2.2 拍摄地点
拍摄地点(Location)指采集植物图像时所在的位置信息,包括可标准化的国家、省、市、县数据和可自定义的小地点数据,以及拍摄时的经纬度、海拔等相关信息。对于通过扫描仪间接获取的植物图像数据,拍摄地点信息应为原始图像采集地点的位置信息,而不是扫描图像时的位置信息。
2.3 EXIF信息
可交换图像文件格式(Exchangeable Image File Format,缩写为EXIF)信息是专门为数码相机的照片设定的数据格式,可记录数码照片的属性信息和拍摄数据。EXIF可以附加于JPEG、TIFF、RIFF等图像文件之中,为其增加有关数码相机拍摄参数信息的内容和索引图或图像处理软件的版本信息。
3 数据内容与数据表结构规范
3.1 数据内容
植物图像数据的核心内容是植物图像及拍摄信息表。数据表的代码、中文名称和英文名称见表1。
表1 植物图像及拍摄信息表
序号 | 数据表代码 | 数据表中文名称 | 数据表简介 |
1 | plant_photo | 植物图像及拍摄信息表 | 包括图片ID、图片路径、物种名称ID、物种学名、拍摄时间、小地点、省、市、县、县代码、标签、鉴定人、鉴定日期、拍摄人、标本号、生境、图像说明、EXIF信息、图片尺寸、原始纬度、原始经度、海拔、原始文件名和上传时间等字段 |
3.2 数据表结构与字段说明
植物图像及拍摄信息表字段设置与具体规范的相关说明:①数据表字段设置原则为:对应于植物图像采集流程的各个项目的指标项,并添加有关辅助项,使各表内容叙述完整;②数据精度要求是根据字段的实际数值范围或仪器精度确定;③数据表中的数据尽量体现图像采集时的原始数据。
植物图像及拍摄信息表(plant_photo)包括图片ID、图片路径、物种名称ID、物种学名、拍摄时间、地点、省、市、县、县代码、标签、鉴定人、鉴定日期、拍摄人、标本号、生境、图像说明、EXIF信息、图片尺寸、原始纬度、原始经度、海拔、原始文件名和上传时间等23个字段。
(1)图片ID
标识:photoID
中文名称:图片ID
英文名称:Photo ID
定义:图片的唯一标识
字段类型:C
字段示例:8fa58e08-08de-4ac1-b69c-1235340b7001
(2)图片路径
标识:pathway
中文名称:图片路径
英文名称:Pathway
定义:图片的存储路径
字段类型:C
字段示例:/photo//2021/3/15/6f86bbec-d8be-4624-95c8-c6b0ec3aecb9a.jpg
(3)物种名称ID
标识:scientificNameID
中文名称:物种名称ID
英文名称:Scientific Name ID
定义:物种名称的唯一标识
字段类型:C
字段示例:8fa58e08-08de-4ac1-b69c-1235340b7001
(4)物种学名
标识:scientificName
中文名称:物种学名
英文名称:Scientific Name
定义:使用双名法命名的物种的完整名称,包含命名人
字段类型:C
字段示例:Cymbidium mannii Rchb. f.
(5)拍摄时间
标识:photoTime
中文名称:拍摄时间
英文名称:Photo Time
定义:照片拍摄时间。
字段类型:D
注释:推荐采用ISO 8601 中日期和时间的表示格式
字段示例:2016-07-14T17:37:01
(6)地点
标识:verbatimLocality
中文名称:小地点
英文名称:Verbatim Locality
定义:详细的标本地点信息
字段类型:C
字段示例:百花山,十三陵水库
(7)省
标识:stateProvince
中文名称:省
英文名称:State Province
定义:省级行政区的名称
字段类型:C
注释:推荐使用全国行政区划信息查询平台上的名称,省级单位包括省、自治区、直辖市、特别行政区
字段示例:河北省,北京市,内蒙古自治区,香港特别行政区
(8)市
标识:municipality
中文名称:市
英文名称:Municipality
定义:地市级行政区划
字段类型:C
注释:推荐使用全国行政区划信息查询平台上的名称,包括地级市、地区、自治州、盟
字段示例:保定市,阿里地区,凉山彝族自治州,兴安盟
(9)县
标识:county
中文名称:县
英文名称:County
定义:县级行政区名称
字段类型:C
注释:推荐使用全国行政区划信息查询平台上的名称,县级单位包括县、市辖区、县级市、旗
字段示例:东城区,平山县,辛集市,乌拉特前旗
(10)县代码
标识:countyCode
中文名称:县代码
英文名称:County Code
定义:县级行政区的代码
字段类型:C
字段示例:130016
(11)标签
标识:photoTAG
中文名称:标签
英文名称:Photo TAG
定义:为图像标记的标签Tag等
字段类型:C
注释:标签支持多维度标记,如拍摄部位、生境等
字段示例:根,茎,叶,花,果,景观
(12)鉴定人
标识:identifiedBy
中文名称:鉴定人
英文名称:Identified By
定义:鉴定人姓名。
字段类型:C
字段示例:张三
(13)鉴定日期
标识:dateIdentified
中文名称:鉴定日期
英文名称:Date Identified
定义:鉴定日期
字段类型:D
字段示例:2008-05-26
(14)拍摄人
标识:photoMember
中文名称:拍摄人
英文名称:Photo Member
定义:照片拍摄人
字段类型:C
字段示例:张三
(15)标本号
标识:photoSpecimens
中文名称:标本号
英文名称:Photo Specimens
定义:同一物种、同一时间采集的图像的编号
字段类型:C
字段示例:tu6852668
(16)生境
标识:habitat
中文名称:生境
英文名称:Habitat
定义:物种生活环境的描述
字段类型:C
字段示例:高山草甸,灌丛
(17)图像说明
标识:photoIntro
中文名称:图像说明
英文名称:Photo Introduction
定义:图像的备注说明
字段类型:C
字段示例:Nikon D850
(18)EXIF信息
标识:photoEXIF
中文名称:EXIF信息
英文名称:Photo EXIF
定义:数码相机照片的元数据,记录了数码照片的拍摄参数、缩略图及其他属性信息
字段类型:C
(19)图片尺寸
标识:photoSize
中文名称:图片尺寸
英文名称:Photo Size
定义:图片的分辨率大小
字段类型:C
字段示例:像素3000万×2000万
(20)原始纬度
标识:verbatimLatitude
中文名称:纬度
英文名称:Verbatim Latitude
定义:位置的原始纬度
字段类型:C
字段示例:北纬39°56′,39°56′N
(21)原始经度
标识:verbatimLongitude
中文名称:经度
英文名称:Verbatim Longitude
定义:位置的原始经度。
字段类型:C
字段示例:东经116°23′17″
(22)海拔
标识:verbatimElevation
中文名称:海拔
英文名称:Verbatim Elevation
定义:海拔高度的原始描述。
字段类型:N
字段单位:米(m)
字段示例:100-200
(23)原始文件名
标识:photoMapPath
中文名称:原始文件名
英文名称:Photo Map Path
定义:文件初次上传的文件名
字段类型:C
字段示例:DSC_3283.JPG
(24)上传时间
标识:photoAddTime
中文名称:上传时间
英文名称:Photo Add Time
定义:照片上传时间
字段类型:D
注释:推荐采用ISO 8601 中日期和时间的表示格式
字段示例:2016-07-14T17:37:01