IoT的数据管理与智能处理

发布时间:2011-02-11 作者:李玲娟 阅读量:

基金项目:国家重点基础研究发展(“973”)规划(2011CB302903)

 

    物联网(IoT)是通过射频标签(RFID)、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网连接起来,进行信息交换和通信,以实现智能化识别、定位、跟踪、监控和管理的一种网络。它是继计算机、互联网与移动通信网之后的又一次信息产业浪潮。


    物联网通过标识、感知、处理和信息传送4个关键环节,将整个世界无缝地连接在一起,智能地感知、推理和分析。


    物联网具备3个特征,一是全面感知,即利用RFID、传感器、二维码等随时随地获取物体的信息;二是可靠传递,通过各种电信网络与互联网的融合,将物体的信息实时准确地传递出去;三是智能处理,利用云计算、模糊识别等各种智能计算技术,对海量数据和信息进行分析和处理,对物体实施智能化的控制。


    物联网要实现人与物、物与物的智慧对话,必须对数据进行管理和智能处理,主要包括数据的采集、存储、查询、分析(融合与挖掘)等关键环节。这些数据智能处理技术已渗透在信号处理、传感网、数据库、信息检索技术、智能控制等领域。这些不同的领域都侧重于数据处理的不同方面:传感网研究中侧重于网络节点上数据分布、数据路由策略的研究,数据库中的数据管理技术侧重于数据模型、存储方式、索引策略和查询实现的研究,智能控制中的数据处理侧重于数据融合、特征提取和实时响应等。物联网中的数据智能处理技术不仅涵盖了这些数据处理方式,同时具有自己的特点。因此,要实现物联网的数据管理与智能处理,必须在合理运用已有技术的基础上引入新的技术和方法。


1 物联网中数据的特点
    物联网中数据的特点主要表现在以下几个方面:


    (1)异构性
    在物联网中,不仅不同的对象会有不同类型的表征数据,同一个对象也会有各种不同格式的表征数据。比如在物联网中为了实现对一栋写字楼的智能感知,需要处理各种不同类型的数据,如探测器传来的各种高维观测数据,专业管理机构提供的关系数据库中的关系记录,互联网上提供的相关超文本链接标记语言(HTML)、可扩展标记语言(XML)、文本数据等。为了实现完整准确的感知,必须综合利用这些不同类型的数据来全面地获得信息,这也是提供有效的信息服务的基础。


    (2)海量性
    物联网是一个网络的海洋,更是一个数据的海洋。在物联网中,世界中的各个对象都连接在一起,每个对象都可能在变化,表达其特征的数据在不断地积累。如何有效地改进已有的技术和方法或提出新的技术和方法来高效地管理和处理这些海量数据将是从数据中提取信息并进一步融合、推理和决策的关键。


    (3)不确定性
    物联网中的数据具有明显的不确定性特征,主要包括数据本身的不确定性、语义匹配的不确定性和查询分析的不确定性等。为了获得客观对象的准确信息,需要去粗取精、去伪存真,以便人们更全面地进行表达和推理。


2 物联网涉及的技术
    由于物联网是一个综合了已有技术并具有自己特色的新兴的产业,因此到目前为止,尚无能适应上述物联网数据特点的系统化研究结果面世,但是一些思想和已有的技术是可以借鉴的。


    除了传统的数据库技术之外,近年来兴起的数据空间技术、云计算数据管理技术、数据挖掘与融合技术、不确定性数据管理技术、语义Web技术等都可为物联网所用。

 

2.1 数据空间技术
    数据空间是近几年提出的数据管理新技术。按照文献[1]和文献[2]的描述,数据空间是与主体相关的数据及其联系的集合,其中的所有数据对主体来说都是可控的。主体相关性和可控性是数据空间数据项的基本属性。文献[3]指出数据空间有3个基本要素:主体、数据集和服务,其中主体是指数据空间的所有者;数据集是与主体相关的所有可控数据的集合,包括对象和对象之间的关系;主体通过服务对数据空间进行管理和使用,服务包括分类、查询、更新、索引等。可以说一个数据空间应该包含与某个组织或个体相关的一切信息,无论这些信息是以何种形式存储、存放于何处。数据空间技术包括信息抽取、分类、模式匹配、数据模型、数据集成与更新、数据查询、存储索引、数据演化等多个方面。


    提出数据空间的初始目标是解决Web应用中多源、异构、海量数据的管理和使用问题。典型的例子是通过构造个人数据空间,用户可以实现复杂的语义查询,实现随时随地对个人数据的快速访问,可以方便地备份个人重要数据,保持异地数据同步。通过构造群组数据空间,群组成员之间可以方便地进行信息的共享与交流。

 

2.2 云计算技术
    云计算是并行计算、分布式计算和网格计算的发展,或者说是这些计算机科学概念的商业实现[4]。
作为一种以数据为中心的密集型的超级计算技术,云计算的技术特点如下:


    (1)海量分布式存储
    云计算采用分布式存储的方式来存储数据,采用冗余存储的方式来保证存储数据的可靠性以高可靠软件来弥补硬件的不可靠,从而提供廉价可靠的系统。


    (2)并行编程模式
    为了高效地利用云计算的资源,云计算采用MapReduce编程模式,将任务自动分成多个子任务,通过映射(Map)和化简(Reduce)两步实现任务在大规模计算节点中的调度与分配。后台复杂的并行执行和任务调度对用户和编程人员透明。


    (3)数据管理
    云计算系统对大数据集进行处理、分析,向用户提供高效的服务,数据管理技术必须能够高效地管理大数据集。


    基于以上技术,云计算使得云用户不需要了解“云”的技术构架和专业知识就可以轻松便捷地完成应用的部署或迁移,只需要联网便可以在网络上实现各种应用,甚至包括完成超级计算任务。与传统应用模式相比,云计算具有超大规模、虚拟化、可靠性强、通用、高度可扩展、按需服务等特点[5]。


    目前提供的云计算服务形式有:软件即服务(SAAS)、实用计算、网络服务、管理服务提供商(MSP)、商业服务平台、互联网整合等。

 

2.3 数据挖掘与融合技术
    数据挖掘是从大量的数据中提取潜在的、事先未知的、有用的、能被人理解的模式的高级处理过程。被挖掘的数据可以是结构化的关系数据库中的数据,半结构化的文本、图形和图像数据,或者是分布式的异构数据。数据挖掘是决策支持和过程控制的重要技术支撑手段。


    数据融合[6-7]是一个多级,多层面的数据处理过程,主要完成对来自多个信息源的数据的自动检测、关联、估计及组合等的处理,是基于多信息源数据的综合、分析、判断和决策的新技术。数据融合有数据级融合、特征级融合、决策级融合,其中:


    (1)数据级融合直接在采集到的原始数据上进行融合,是最低层次的融合,它直接融合现场数据,失真度小,提供的信息比较全面。


    (2)特征级融合先对来自传感器的原始信息进行特征提取,然后对特征信息进行综合分析和处理,这一级的融合可实现信息压缩,有利于实时处理,它属于中间层次的融合。


    (3)决策级融合在高层次上进行,根据一定的准则和决策的可信度做最优决策,以达到良好的实时性和容错性。


    数据挖掘与数据融合是两种功能不同的数据处理过程,前者发现模式,后者使用模式。两者的目标、原理和所用的技术各不相同,但功能上相互补充,将两者集成可以达到更好的多源异构信息处理效果。

 

2.4 不确定性数据管理技术
    在经济、军事、物流、金融、电信等领域,数据的不确定性普遍存在。不确定性数据的产生原因比较复杂。文献[8]将之概括为5个方面:


    (1)原始数据不准确。这是产生不确定性数据最直接的因素。比如:数据的准确度会受仪器的精度、传输过程中网络的带宽、传输延时、能量等因素影响;在传感器网络与RFID等应用中,原始数据的准确度会受周围环境的影响。


    (2)从粗粒度数据集合转换到细粒度数据集合的过程可能会引入不确定性。


    (3)出于隐私保护等特殊目的,某些应用无法获取原始的精确数据,而仅能得到变换之后的不精确数据。


    (4)装备故障、无法获取信息、与其他字段不一致、历史原因等都可能产生缺失值。


    (5)不同数据源的数据信息可能存在不一致,在数据集成过程中就会引入不确定性。


    不确定性数据的表现形式多种多样,它们可以以关系型数据、半结构化数据、流数据或移动对象数据等形式出现。


    目前国际上的一些大学和科研机构已在不确定数据的数据模型、数据预处理与集成、存储与索引、查询处理、管理系统等方面做了有益的研究工作[9-11]。


3 物联网数据管理与智能处理思路
    为了实现物联网中海量数据的高效处理,无缝地融合各种异构数据,最终为物联网中的决策与控制服务提供支撑,本文提出一种综合运用以上技术来解决物联网的数据管理与智能处理问题的思路:以云计算平台为数据管理平台;以数据空间来逻辑组织主体的数据和服务;在此基础上以数据挖掘和数据融合相集成的方式实现多层次、多粒度、跨领域的数据处理;同时,以不确定的方式对数据及其上的服务进行表达和推理,从而实现对多元世界的准确刻画。


    由于物联网中的数据具有多源、异构、海量的特点,做出一个决策可能要使用原始感知数据、融合过的数据、领域数据。这些数据经常具有不同类型,比如字符型等常规数据、时间数据、空间数据、知识等,而且这些数据所表征的事物可能是同领域的,也可能是跨领域的,但他们之间通常具有内在的联系。数据空间的初始目标就是解决Web应用中多源、异构、海量数据的管理和使用问题。因此,在数据空间的概念下组织、管理和使用物联网数据是可行而有效的途径,也符合物联网自身的可扩展性特点。


    基于云计算平台来实施物联网数据的管理可以充分利用云计算平台的可靠、安全的数据存储中心和严格的权限管理策略,以及云计算中心对接入网络的终端的普适性,有利于解决物联网的机器对机器通信(M2M)应用的广泛性,并可与运营商合作,避免重复投资。同时借鉴云计算数据管理技术,设计海量数据处理的体系结构,能突破吞吐量“瓶颈”,实现实时或准实时的数据查询和深层次的数据分析。


    在物联网中通常要综合利用各种异构的数据源来实现智慧感知。数据源本身的不确定性不可避免地带来物联网数据空间的不确定性,主要包括数据本身的不确定性、语义映射的不确定性和查询分析的不确定性等,有必要利用不确定性技术来对物联网的数据进行管理。采用不确定性理论对数据本身、语义映射和查询服务进行表达,并据此推理,能够更好地描述可能的物联网世界,符合物联网数据不确定和动态演化的特点,能帮助人们实现不确定条件下的情景感知和决策。


    解决物联网数据管理与智能处理的关键研究内容包括:

 

3.1 物联网数据的管理
    针对物联网的数据管理需要研究以下内容:


    (1)数据空间中采用的数据模型
    需要合理地定义物联网数据空间的要素,研究出更为灵活的模型来表达数据空间数据及其关联关系的方法,研究由数据获取模式的方法、模式演化的维护等。


    (2)不同粒度主体对数据的提取
    需要针对物联网数据空间的3个不同的数据融合层次,研究融合感知数据提取实体数据、融合实体数据提取决策数据、3个层次间的相互融合关系。


    (3)数据的存储方式
    由于物联网数据空间中数据模式频繁变化,主体对应的数据多样,需要研究合理的存储策略及其在云计算平台的分布策略。


    (4)数据的索引策略
    数据空间是介于模式固定的数据管理方式和松散的搜索引擎间的一种更为灵活的数据管理方式,其索引不仅要充分利用结构特征也要利用内容特征,比如关键字等。需要全面研究物联网数据的结构索引策略、内容索引策略、结构和内容相结合的索引策略。

 

3.2 物联网数据的智能处理
    数据处理是受服务驱动的,物联网的服务包括:分析、决策与控制。为了实现这些服务,在数据层面,需要进行一系列的数据处理工作。针对物联网数据的智能处理,需要研究以下内容:


    (1)以融合和决策为目的海量数据的实时挖掘
    基于物联网服务的需求,物联网中的数据挖掘应分为两个方面:辅助常规决策的数据挖掘和辅助数据融合的数据挖掘。


    鉴于物联网数据的异构、海量、分布性和决策控制的实时性,需要研究数据挖掘引擎的布局及多引擎的调度策略;需要研究时空数据的实时挖掘方案,海量数据的实时挖掘方法,不确定知识条件下的实时挖掘算法,数据挖掘算法的综合运用、改进和新算法,低时空复杂度算法;需要考虑物联网隐私的重要性,需要研究隐私保护的数据挖掘方法。


    (2)以情境感知为目的的不确定性建模和推理
    针对数据本身的不确定性,需要研究感知数据本身的不确定性表达和推理、实体数据的不确定性表达和推理以及决策数据的不确定性表达和推理。


    针对语义映射的不确定性,需要研究融合感知数据获取实体数据过程中的不确定性表达和推理、融合实体数据获得决策数据过程中不确定性表达和推理。


    针对查询分析的不确定性,需要研究物联网高维数据在松散模式下查询的不确定性表达、查询结果的不确定性表达和推理、联机分析处理(OLAP)和数据挖掘如何从不确定性数据中获取合理结果等内容。


    (3)物联网与云计算的结合
    本文希望实现数据空间概念下的基于云计算平台的物联网数据管理和智能处理。针对物联网与云计算的结合,需要研究符合物联网数据海量和负载动态变化特点的云计算平台构建方法。除了设计数据的存储之外,需要研究每个主体的分析与挖掘服务如何通过云计算的批处理任务实现,如何实现任务调度引擎,如何实现在线的监测和查询服务。各项研究应以达到物联网实时或准实时的处理要求为目标。


4 结束语
    数据管理与智能处理是物联网必须解决的关键问题,鉴于物联网数据的多源、异构、海量、动态等特点以及物联网的可扩展性,本文提出了一种综合运用先进的数据空间技术、不确定数据管理技术、云计算技术解决这一问题的思路,也给出了在此思路下需要研究的关键内容。


    随着物联网产业发展步伐的加快,以上内容有很大的研究空间,有效的研究成果将对物联网的实用化起到很好的技术支撑作用。


5 参考文献
[1] FRANKLIN M, HALEVY A, MAIER D. From Databases to Dataspaces: A New Abstraction for Information Management [J]. SIGMOD Record, 2005,34(4):27-33.
[2] JONES W, BRUCE H. A Report on the NSF-Sponsored Workshop on Personal Information Management [C]//An NSF Sponsored Invitational Workshop of Personal Information Management (NSF PIM Workshop), Jan 27-29, 2005, Seattle WA,USA.2005.
[3] 李玉坤, 孟小峰, 张相於. 数据空间技术研究 [J]. 软件学报, 2008,19(8):2018-2031.
[4] 邓倩妮, 陈全. 云计算及其关键技术 [J]. 高性能计算发展与应用, 2009,26(1):2-6.
[5] LIU Peng, SHI Yao, LI Sanli. Computing Pool—A Simplified and Practical Computational Grid Model [C]//Proceedings of the 2nd International Workshop on Grid and Cooperative (GCC’03), Dec 7-10,2003, Shanghai, China. LNCS 3032. Berlin, Germany: Springer-Verlag, 2004: 661-668.
[6] LI Tongying, FEI Minrui. Information Fusion in Wireless Sensor Network based on Rough Set [C]//Proceedings of the 2009 IEEE International Conference on Network Infrastructure and Digital Content (IC-NIDC’09), Nov 6-8,2009, Beijing, China. Piscataway, NJ, USA: IEEE, 2009:129-134.
[7] 张西川, 张平定, 杨丽娜. 数据挖掘与数据融合相结合的异类信息融合 [J]. 指挥控制与仿真, 2008,30(3): 42- 44.
[8] 周傲英, 金澈清, 王国仁, 等. 不确定性数据管理技术研究综述 [J]. 计算机学报, 2009,32(1):1-16.
[9] ORION DBMS: Handling Nebulous Data [EB/OL]. [2010-03-15]. http://orion.cs.purdue.edu/.
[10] Trio: A system for Integrated Management of Data, Uncertainty, and Lineage[EB/OL]. [2010-03-15]. http://infolab.stanford.edu/trio/.
[11] 康奈尔大学MayBMS项目 [EB/OL]. [2010-03-15]. http://www.cs.cornell.edu/database/maybms/.

 

收稿日期:2010-11-08

[摘要] 在物联网(IoT)中物与物、人与物的智能交互的实现要依赖于数据的智能处理,而数据管理则是数据智能处理的基础。由于物联网中的数据具有异构、海量和不确定等特点,因此要实现对其数据管理与智能处理,必须在运用已有技术的基础上进一步采用新的技术和方法。文章基于物联网中数据的特点、物联网新的数据管理与智能处理技术,提出了数据空间技术、不确定数据推理技术以及云计算在物联网中的应用思路,揭示了需要研究的关键内容。

[关键词] 物联网;数据管理;智能处理;数据空间;云计算

[Abstract] Thing-thing and human-thing interaction in IoT should be dependent on intelligent data processing based on data management. Since IoT data is heterogeneous, mass-scale, and somewhat unpredictable, using new methods and technologies in conjunction with existing technologies is necessary for data management and processing. In this paper, the characteristics of IoT are analyzed, and several new data management and intelligent processing technologies are introduced. Dataspace technology, uncertain data reasoning technology, and cloud computing technology in IoT are proposed and areas of further research are outlined.

[Keywords] Internet of things; data management; intelligent processing; data space; cloud computing