疫情发展趋势及防控措施了解程度的成因研究之数据整合
KNIME,康斯坦茨信息挖掘软件(The Konstanz Information Miner)是一个模块化的开发环境,它能够简单地进行可视化构建、并交互式地执行数据流(data pipeline)。它被设计为一个用于教学、研究和协作工作的平台,能够方便地集成出新算法和新工具,同时也可以在新模块或节点上对数据进行操作和可视化查看。
由KNIME工作流批量生成疫情空间分布热力图,并由另外的工作流将所有图
片合成GIF动图,疫情随日期如何发展到被控制的整个过程,规律跃然纸上。
KNIME,即 KoNstanz Information MinEr 就提供了一个这样的数据流构建环境。图2-2 是在 KNIME 中实现一个小型数据分析流的截图。在图的中间部分,数据流从两个数据源读取数据,然后在预处理、建模、可视化等若干个分析流或节点中并行地处理。在图的左边是节点库,从这些种类繁多的节点中,我们可以选择数据来源、数据预处理实施、建模的算法,以及可视化工具等节点,然后把他们拖拽到中间的编辑区内,在这里对节点之间进行连接。软件系统的图形化、可交互式查看视图、标记数据的能力(即可视化刷:visual brushing), 使得用户能够随时随地探索分析数据集合。KNIME 是用Java语言写的,它的图形化的工作流编辑器是以Eclipse插件形式实现的。通过开放的API 借口和已有的数据抽象的框架,软件扩展变得十分容易,也让开发者能够以一个十分规范良好的方式,更有效率地为软件添加新的节点。
在 KNIME 中,用户可以构建工作流1,其中包括处理数据的节点,以及承载在节点之间流通数据的管线。数据流通常是从一个读取数据的节点开始,该节点从某数据源读取数据。数据源一般都是文本文件,但某些特殊节点,也支持查询数据库来获取数据。导入的数据存储在内部的一个基于表的结构中,该结构包含一定的(但可扩展)数据类型(如:整数、字符串、图像、分子结构等),此外还含有一定数量的符合列属性行的数据。这些数据表通过管线传送给其他的节 点,以便进一步执行修改、变换、建模或是可视化的处理。修改可以包括处理缺失的数据、筛选指定的列或是行、过度取样、将数据表分割为训练数据和测试数工作流:workflow,
综上所述,KNIME提供了一个模块化的软件框架,为可视化组件和交互执行数据流程提供了一个图形化的工作平台。它具有一个强大而直观的用户界面,易于和新模块或节点集成,而且用户可以交互式探查分析结果或是训练后的模型。通过与一些诸如Weka机器学习和R统计软件等强大的库进行集成,它形成了一个可以应对各种数据分析任务、功能强大丰富的平台。
KNIME 2.0 新版本中的新特性,特别是对循环的支持、数据库连接操作以及PMML 进一步增强了 KNIME 的能力,使其成为一个强大的数据探索和分析的环境,同时它也具有优良的集成扩展能力,可以轻松地访问很多其他的数据处理与分析包。
时间:2022-08-24 作者:宾诗语 来源:沪光潋滟团队 关注: