为了解决当前数据中心运营过程中的数据管理组织混乱,无法深入数据本身,无法实现在线查看、浏览、分析计算等问题,我司推出了一款时空大数据云平台,能够实现数据的在线管理、在线可视化、在线计算以及在线代码编辑器等功能。
一、在线管理
当前数据中心数据管理方式多为FTP,用户只能看到数据包含的文件信息,而无法看到真实的数据信息。针对大多数常用的空间数据以及观测数据(SHP、GEOJSON、KML、TIF、IMG、JP2、TXT、CSV、EXCEL、DAT等),平台能够像百度网盘一样进行数据的上传、下载、删除、移动、重命名等常规操作。并可以深入到数据实体而非数据文件进行管理,能够查看数据的缩略图,查看数据元数据(包含波段、空间范围、大小、分辨率等),查看数据统计信息(包含字段、数量、最大值、最小值、平均值等信息)等。
通过这些信息能够让用户对此数据有一个直观的了解,但这些还不够,还不足以让用户全面的了解一个数据,于是我们实现了数据在线可视化功能。
二、在线可视化
当前数据中心只能针对选定的特殊数据,采用提前发布服务的方式供用户在线浏览,需要提前进行大量的预处理操作并且用户无法实现自行配置可视化样式。针对此,平台支持用户直接将上传到平台的空间数据叠加在地图上进行可视化,并能够配置点线面以及波段的显示样式等,还可以查看每一个空间对象的属性信息;观测数据可以通过表格和图表两种方式进行查看,并支持字段过滤等简单清洗操作;若观测数据包含空间信息(诸如经纬度、地址等),还可以将观测数据转为空间数据,在地图中进行可视化。
系统还支持直接将可视化结果输出,用户可以自行配置标题、指北针、图例、比例尺、作者、时间等要素信息。
当我们需要查看某个地区一段时间的变化情况时,能够将此地区所关注的数据叠加到地图中,并按照时间顺序逐一显示,会让我们对此地区的变化情况一目了然。为此我们设计了长时间序列数据可视化功能,能够在地图中按照时间顺序动态显示数据。
三、在线计算
当前数据中心几乎只能提供数据申请等“静态”操作,若用户需要处理数据,则需下载到本地使用自己的计算机完成计算,不仅操作繁琐,还无法发挥出云端分布式计算、流式计算等高效计算的优势。针对此,我们研发了在线计算功能,用户无需将数据下载到本地,即可将多个相关数据在云端进行计算分析。目前已经实现常用 GIS 软件中大多数通用分析方法,包含缓冲区分析、获取中心点、提取边界、插值、栅格化、坡度坡向、山影、波段计算器、NDVI 等,还可以对数据进行切割、投影变换等操作,观测数据可以实现 JOIN、GROUP、DISTINCT、字段计算器等操作。
当然,用户对计算的需求可能并不止一些常用的 GIS 操作,有些用户会使用已有的一些模型去做更复杂的计算,如 SHAW(Simultaneous Heat and Water)模型模拟土壤温度等,或者使用随机森林等方法进行数据生产。针对此,我们在平台的基础上封装了一些常用模型,用户可以直接在平台中调用平台数据完成模型的在线计算,并将计算结果写回平台中,以便进行可视化或其他分析操作。
四、在线代码编辑器
若以上分析方法无法满足用户对数据处理分析的要求,我们还提供了在线代码编辑器,用户可以在线使用 python 语言编写代码,调用平台中的数据和上述一系列封装好的基础分析方法,实现自己的分析方法和模型,并调用平台的计算资源在线得到计算结果。
当然,用户也可以直接调用 pandas、spark、matplotlib 等常用科学分析库来处理平台中的数据,得到自己想要的结果。
五、总结
平台通过以上四个部分,实现了完整的数据中心解决方案。对于数据中心的管理者来说,解决了数据中心运营中的诸多不便和问题,扩展了数据中心功能;对于用户来说,增强了用户体验,提高了用户黏度。
武汉一格空间科技有限公司