大数据在日志详单类存储中的应用

发布时间:2015-02-01 作者:吴文峰(中兴通讯) 阅读量:

       据Cisco预测,2011—2016年,全球移动数据流量将激增18倍,达到10.8EB/月,宽带IP数据流量将达到110.28EB/月。数据的快速增长带来了数据存储、处理、分析的巨大压力。日志详单类数据是指上网日志、点击流、计费结算详单、用户信令及业务应用等一次写入、无追加及修改要求的数据。


  传统日志详单存储系统存在以下弊端:


  ●   各业务平台的存储系统独立建设,造成存储资源、网络资源等重复建设,导致CAPEX较高;


  ●   新业务部署成本高、周期长。由于新的业务部署在新的存储平台上,存储业务模式和接口升级后各业务存储设备和空间共享不足,导致部署新业务时经历采购、运输、安装、调测等一个完整的建设周期,致使新业务部署时间比较长;


  ●   由于技术选型的需要,存在不同的设备需求和运维手段,导致OPEX较高;


  ●   统计数据分析表明,存储设备日常运行中负荷不均,平均利用率约为40%。大量的存储、网络设备的空闲是一种资源的浪费,加上维持所需要的机房、供电、制冷等费用,增加了OPEX。


  一方面,为部署新业务需要不断增加存储资源、网络资源;另一方面,各种存储资源能力过剩、利用率过低导致资源浪费。以上两种矛盾现象并存,需要一种新模式来平衡业务建设需求和资源利用率。


  在日志详单类存储中引入大数据技术,不仅满足了系统功能和性能的要求,带来良好的可扩展性,降低了IT部署的成本,还拓展了数据智能分析的应用领域。采用大数据技术的日志详单类存储架构如图1所示。


  整个系统由硬件资源层、日志详单类存储软件层和业务应用层3部分组成。


  硬件资源层为云存储系统部署所用硬件资源,硬件使用统一的X86架构存储服务器。


  日志详单类软件层为云存储系统所使用的软件资源,包括基于Hadoop产品支撑的结构化数据存储引擎、并行计算引擎、NoSQL数据存储引擎、非结构化数据存储引擎。实现数据存储、查询、接口和访问功能。


  ●   数据存储:使用具备冗余存储、自动负载均衡能力的云计算分布式文件系统,提供海量结构化、非结构化和NoSQL数据的存储服务。


  ●   数据查询:完成用户查询的分解、转换、执行、结果收集和优化工作。由于数据可能被分配在很多存储服务节点上,数据查询服务必须具备分布式查询执行和结果收集的能力;同时,考虑到硬件的不可靠性,数据查询服务需要具备很高的容错能力。


  ●   数据接口和访问:连接应用程序和数据查询服务,主要对应用提供两类接口,一是数据存取接口,如针对非结构化数据的HDFS接口;二是数据查询分析接口,如MR接口、ODBC/JDBC/类SQL接口等。


  业务应用层为一次写入、无追加及修改要求的数据提供存储及处理服务。


  应用基于大数据平台的日志详单类存储系统,能够提升运营商资源利用率,降低能耗,存储资源管理能力大大增强。


  ●   降低能耗。通过引入大数据技术,细化存储资源分配单元,提高存储资源分布密度,提高使用效率,降低对物理设备的需求,进一步降低IT设备投入,从而降低能耗。


  ●   更便捷的存储资源管理。在传统模式下,如果需要提供新的存储能力,预算周期耗时很长,流程繁琐。而在新存储系统中,扩展流程将得到简化,实施部署细节简化,决策周期大为缩短,预算的重点也将落在业务需求上。


  ●   更敏捷的业务规划及部署。“按需使用”的资源让业务部门可以根据需要获得刚好够用的资源;“按需而用”的快速部署,把存储和业务目标结合得更加紧密,让业务部门的行动更加敏捷。存储的重点在于实现资源更快速的供给、支持不中断业务在线弹性伸缩、提供备份及模板等功能,这使得开展某些业务(如开发测试、培训和客户沟通)的效率大大提升。


  ●   预算更加可控。按照使用率付费并固定某一时间段内单位价格,使业务部门的预算更容易预测和控制,同时能够提高资源的利用率。

 

  后续电信运营商可以利用日志详单类存储的数据,在大数据平台上进行数据挖掘及深度分析,提升运营效率、加强网络智能化;还可以对用户进行深入洞察,提供快速的决策支持,帮助运营商提升服务水平。此外,运营商可以结合网络数据和用户数据,为第三方提供数据服务,开拓新的利润空间。大数据在日志详单类存储中的应用可以涵盖多个方面,包括企业管理分析(如战略分析、竞争分析)、运营分析(如用户分析、业务分析、流量经营分析)、网络管理维护优化(如网络信令监测、网络运行质量分析)、营销分析(如精准营销、个性化推荐)等。