基于云计算技术的电力大数据预处理属性简约方法

2018年11月19日 23:19来源于:科技创新导报

互联网 大数据云计算电子PPT

皮霄林

摘 要:随着当今时代信息技术的快速发展,大数據概念一经提出便被广泛应用到了多个行业领域当中,将之应用于电网系统当中表现出了十分明显的多类型、大体量、高效率特性,基于这一现状之下显然已经无法再用传统的属性约简方式来对电力大数据进行计算与处理。因此,基于云计算的电力大数据预处理属性约简方法也便应运而生。该文主要就基于MapReduce技术的电力大数据预处理属性约简方法展开了深入探究,并最终就其正确性与对节点数目的影响进行了验证分析。

关键词:云计算技术 电力大数据 MapReduce技术 属性约简

中图分类号:TP18 文献标识码:A 文章编号:1674-098X(2017)04(c)-0158-02

身处于当今的大数据时代,电力企业信息化程度和智能电力系统的建设,将促使电力数据的体量实现指数级增长;在电力大数据应用方面,对于行业内外各方面的数据分析均会导致电力数据计算与处理类型成本增多。充分挖掘软硬件资源的潜在价值,减小投入支出,更多的从海量的数据信息当中发掘出其中有价值的数据,促使相关的管理人员能够获得更加多元化的知识内容,将是在大数据时代开展电网管理与控制工作最为重要的一项难题。

1 概述

在具体的电网数据分析工作中,对于最终决策起到主导作用的因素很可能仅是其中的某一部分,而要将这些最为关键的因素及时寻找出来将会对于缩减数据处理规模、提升数据处理效率意义重大。有研究人员就通过应用经典粗糙集理论将对于风力速度有可能产生影响的属性进行了约简处理,同时在对风力速度的预测过程之中也达到了较为满意的效果。一般的数据约简处理方法尽管在减小时间复杂程度、提升效率上价值明显,然而,此类属性所采取的约简算法都是假定将所有的数据内容一次性录入系统内,很明显这无法适用于电力大数据系统。还有研究采用传统关系数据库技术属性约简方式,来处理小规模属性约简问题,尽管在时间性能方面取得了较为满意的效果,然而采取此类方法所能够应对处理的数据规模及时效性均会受制于硬件限制。

而将云计算技术应用于电力大数据预处理当中,则能够给予其软件及硬件资源和相关的数据处理提供以新的途径方式。在本次研究中重点就针对美国谷歌公司所提出的MapReduce编程模型展开了深入的分析与探讨,具体就粗糙集相对正域理论和现行的知识约简计算方式展开了深入剖析,结合其模型设计与计算最终对基于云计算技术的电力大数据预处理属性约简方法的正确性,及其对节点数目的影响展开了实证分析,最终的实验结果显示,此项计算方法不当可大幅度提升电力大数据集的属性约简计算效率,同时还可达到较为优异的可拓展性效果。

2 基于MapReduce技术的电力大数据预处理属性约简

将一个电力大数据集视作为是一项电力知识表达系统,相应的便需求出对指定决策属性集的条件属性,也就是将这一电力大数据集的属性约简问题转归成计算正域势的问题。应用MapReduce计算以上问题,其具体方法为:map函数同时对于多个数据分片进行访问,依据实际需求,将属性及属性值取出,并以此产生出键值对(其所代表的意义即<“CO1 1故障区域Sec1”,1>)。Reduce函数接收来自于各个节点map所发送出的key值所对应的键值对序列,并以此来求出相同等价类的具体数量。

Hadoop在进行复杂任务处理之时是对任务数量的增多,而并非是提高map与reduce的复杂性,因此基于云环境下进行电力大数据预处理属性约简,则可设计出多个函数及主程序。在此方面的约简处理过程当中,可将某项具体的电力大数据集视作为是一项电力知识表达系统,并基于这一基础之上,再开展属性约简处理,并可将其视作为是对正域势的计算,具体的计算方式如下所示:

(1)map函数位于同一时段内针对多项数据分片各自独立展开访问,同时依据实际要求规范来获取属性和属性值,进而产生出键值对

(2)Reduce函数对即为各节点处的map与所发送的key值所相对应的键值对序列,同时还需针对相应的等价类个数予以计算处理。

应用Hadoop针对复杂任务予以处理之时,其主要侧重于对任务数量的增多,而并非是针对map以及Reduce函数复杂性的加强。因而,在基于云计算技术的电力大数据预处理属性约简方面,针对性设计出两项map,三项Reduce以及call job函数,同时还可携带一项主控程序,最终再结合以实际需求,各自给定算法,即可针对大数据预处理属性展开约简计算。

和传统约简方法相对比来看,基于云计算的约简方法不但可促使无法针对大数据集进行处理的情况迎刃而解,同时还能够显著提升整体简约处理的效率,大大减小简约复杂性,可同时实现对空间与时间的双重精简。鉴于此,在目前的电力企业发展过程之中,这一技术已成为电力大数据预处理属性约简的核心手段之一。

3 验证分析

现就针对基于云计算的电力大数据预处理属性约简方法,由算法正确性和节点数据的影响两方面来探讨其在电力大数据预处理之中的效用价值。

3.1 正确性

采用某一电网故障诊断决策表来阐明基于云计算的电力大数据预处理属性约简方法的正确性。下表1为由6个样本所构成的电网故障诊断决策表。

采用伪分布模式进行Hadoop程序的运行,便可获得决策表核{CO2,CO3}和一项约简{CO2,CO3,CB1,CO1}。经验证表明,结果正确。

3.2 节点数目的影响

在本次研究中选用Hadoop平台搭建了一个集群实验环境,其中的Hadoop版块为Hadoop-0.20.0,应用临近平均值针对缺失数值予以填补,促使数据离散成一系列的0,1列表,以促进数据处理效率的提升,并由此获得13项条件属性及1项据测属性电力知识表达系统S。

(1)可拓展性

这一特性是依据节点数量并按照特定比例来提高并行算法精确性。为验证算法的可拓展性,选取四个节点值来充当测试数据集,即2,4,8,16四个节点。如下图1所示,观察图1可发现,尽管因为硬件与平台运行资源耗损因素导致节点数上升到16之后算法能力有所降低,然而各作业的运行时间基本相当,此即表明了并行算法的良好拓展性。

(2)加速比

加速比即为在数据规模保持恒定不变的前提下,持续增多节点数量并行算法能力。较为合理的加速比往往是线性结构的,然而因为各项计算机设备间的通信、任务调度等因素影响,具体的加速比常常是要小于理想状态的。如下图2所示,测试数据集为20GB,同样为2,4,8,16四个节点,经观察约简时间与节点数量关系可表明,本次研究所提出的算法可达到较为优异的加速比性能。

4 结语

总而言之,在电力行业高速发展的当今时代,应大力加强对于相关云计算技术的深入研究及应用,同时在云计算技术的基础之上来开展关于电力大数据预处理属性约简,促进电力大数据处理效率能够得以大幅度的提升,并为企业的管理人员提供详尽、可靠的参考依据。

参考文献

[1] 彭小圣,邓迪元,程时杰,等.面向智能电网应用的电力大数据关键技术[J].中国电机工程学报,2015(3):503-511.

[2] 王德文,孙志伟.电力用户侧大数据分析与并行负荷预测[J].中国电机工程学报,2015(3):527-537.

 
免责声明:

     本文仅代表作者/企业观点,与【名品家电网】无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,仅供读者参考,并自行核实相关内容。

     【名品家电网】刊载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,也不代表本网对其真实性负责。

      如因作品内容、版权和其它问题需要同本网联系的,请在30日内进行;新闻纠错: lwl#youngchina.cn

关键词: 文章 数据 属性