点击上方「测绘科学」关注
摘 要
针对志愿者地理信息的质量评价的问题,对当前的研究现状和存在问题进行了较为全面的综述。有关志愿者地理信息数据质量分析与评估的研究也是该领域的研究热点,国内外学者从不同的角度进行了研究,依据是否使用参考数据分为基于参考数据的方法和基于数据分析的方法。总结了基于参考数据方法的基本流程,论述了两种评价方法中具有代表性的研究成果,分析了这些方法的特点和不足,最后指出了现有研究中存在的问题和进一步需要研究的方向。
引用格式
马超,孙群,徐青,等.志愿者地理信息数据质量研究现状与趋势[J].测绘科学,2017,42(3):93-97,125.
正文
志愿者地理信息(volunteered geographic information, VGI)是指用户通过在线协作的方式,以普通手持GPS终端、开放获取的高分辨率遥感影像以及个人空间认知的地理知识为基础参考,创建、编辑、管理、维护的地理信息。相比传统测绘和遥感而言,VGI可以发挥大众参与的优势,能够提供现势性高、细节丰富的地理信息,为建立和更新地理数据库提供了一种不同于传统测绘方式的新途径,成为近年来国际地理信息科学领域的研究热点。
但是VGI数据大部分来自于没有经验的非专业人士,数据质量没有保障,存在信息冗余、精度未知、分布不均等问题。自 GIS 诞生不久的20世纪60年代开始, 空间数据质量就是 GIS 学术界研究的一个热门课题,并受到地理信息业界的重视。空间数据质量的好坏和空间数据标准化程度的高低,都直接影响到系统的经济利益和社会效益,与GIS系统的成败密切相关。VGI 数据质量问题也是应用 VGI 数据前首要解决的问题,科学、全面的质量评价是 VGI 数据最终使用效果和数据质量的重要保障,需要完备的技术体系、深厚的理论方法提供支撑。
现有VGI数据质量评价方法分类如图1所示,可以按照是否使用参考数据分为基于参考数据的方法和基于数据分析的方法两种。前者是将VGI数据与质量较高的参考数据进行比较,从而获得其数据质量信息,又可以根据是否分割瓦片进行区分;后者是通过分析VGI数据质量与志愿者数量、不同版本之间的相似性等之间的内在联系,从侧面间接分析VGI数据质量,可以分为基于用户数据的分析和基于数据历史版本的分析两类。本文以VGI数据质量评价为核心,综述该问题的研究现状和发展趋势。
基于参考数据的方法是目前最常用的方法,不同国家和地区的学者提出了各种各样的评价方法和模型。这些方法之间的区别包括参考数据的选取、质量元素的选取和量化。常用的参考数据包括官方出版数据、实测数据和遥感影像数据。质量元素的选取主要有数据完整性、几何定位精度、属性数据精度、逻辑一致性、现势性等。
基于数据分析的评价方法是在没有参考数据的情况下,通过对数据固有信息进行深入分析、挖掘,以获得能够反映VGI数据质量的相关信息,是一种间接分析的方法,不能得到定量的结果。根据分析对象的不同,可以分为基于志愿者信息的分析和基于数据版本的分析。基于志愿者信息的分析主要是从数据来源的角度出发,通过对志愿者的数量、背景、信誉等方面的分析,来判断其所上传的数据是否可信;基于数据版本的分析主要是利用了Linus’s Law(足够多的眼睛,就可以让所有问题浮现)原理,认为数据的后续版本是对前者的完善和优化,当不同版本差距逐渐消失时,认为数据就得到了广泛的认可,具有较高的质量。该方法的部分代表性研究如下:
基于志愿者信息分析方面,Haklay等研究了VGI数据质量与用户的数量的关系。研究结果表明,志愿者人数较多的区域位置精度往往更高。当志愿者数量是5至13时,位置精度增加最明显,超过13时,仍会保持在一定的精度。根据其研究结果,志愿者的数量可以直接显示定位精度,而不需要与参考数据相比较来得到。他们还研究了数据完整性与社会经济发展程度直接的关系,但是没有得出有价值的结论。最后作者提出,如果对志愿者数量进行更加系统的分析,可以得到其与数据完整性和属性精度之间的关系。Arsanjani等在评估德国海德堡地区VGI数据质量时考虑了志愿者本身的因素。论文以德国联邦地质调查局的数据为参考数据,选取了位置精度、完整性、语义精度等作为质量元素,同时将参与VGI数据上传的志愿者根据其上传数据情况,分为初级、中级、高级、专业级、专家级等5个等级,每个等级之间的人数比例控制在90:9:1。在之前学者研究志愿者人数与VGI数据质量关系时就曾经提出,可以将志愿者信息作为评价数据质量的一种辅助手段,该论文实现了这种思想,但其对志愿者的分级是依据志愿者上传数据的多少,并不是很合理。赵肄江基于版本相似度建立了志愿者信誉度计算模型,利用志愿者信誉度对数据质量进行分析,其实验结果表明,志愿者信誉度与数据质量总体上正相关。
在基于数据版本分析方面,Mooney等研究了VGI数据中被多次编辑(超过15次)的对象的情况。论文指出,很多被多次编辑的对象是由很少的志愿者完成的,87%的编辑由11%的志愿者完成。例如就某一条道路的类型而言,3个志愿者观点不一致,导致该道路类型被反复修改。故此,作者得出一个重要的结论是,VGI数据中被编辑的次数与志愿者人数并无明显的比例关系。但是研究结果还表明,通过对比VGI数据历史版本,可以提高其数据质量而不用借助参考数据。Pascal等研究了VGI数据在世界各地的分布情况,选取了伦敦、洛杉矶、莫斯科、东京、平壤、悉尼等各大洲的主要城市为对比对象,其研究结果主要有:当地人口总数与志愿者的数量关系不是特别明显,但收入水平与志愿者数量呈正比关系,且收入水平较高的地区,VGI数据丰富、质量较好,更新频繁。
由于参考数据往往难以获取或成本较高,因此基于数据分析的方法是一种很好的选择。但是基于数据分析评价方法目前研究还处于初步阶段,相关的模型和算法还不完善,还需要进行深入的研究。
目前VGI数据质量评价研究还处于发展阶段,还没有能够普遍应用的方法。下一步需要在质量元素选取与量化、瓦片划分、结果表达、志愿者信息建模和数据版本分析等方面进行突破。随着地理信息走进人们的日常生活,VGI将会取得快速的发展,VGI数据将是未来地理信息获取的重要手段。研究如何通过质量评价、质量控制等手段,提高其应用范围和影响力,具有重大的实用价值。
2017年(第42卷)第3期
关于《测绘科学》
主管:国家测绘地理信息局
主办:中国测绘科学研究院
邮箱:niu@casm.ac.cn
网站:http://chkd.cbpt.cnki.net
作者QQ群:555495420
(稿号+姓名入群,群名片 姓名+单位)
编务QQ:2378225509
《测绘科学》微信公众号