三大IT支撑系统大数据融合建设模式研究
发布时间:2017-12-20
梁杨,孙淳晔,王智宏
(中国移动通信集团设计院有限公司河北分公司,河北 石家庄 050021)
【摘要】以某运营商大数据相关建设经验为背景,对某运营商在规划建设中积累的先进经验和教训进行总结和分析,并提出针对性建议,最后提出三大IT支撑系统大数据融合的建设模式。
【关键词】大数据    三域融合    IT支撑系统    资源池

1   引言
    近几年,某运营商一直以B域(即 支撑域,简称B域)的经分系统为基础建设大数据平台,尽量减少系统数量,充分利用现有资源,减少系统间数据的复杂度,同时结合公司运营中的重点、难点问题,逐步进行了一些基于大数据分析的应用开发和系统建设。本文基于此将总结运营商在规划建设中的经验和教训,给出相关建议,并提出三大IT支撑系统大数据融合的建设模式。

2   某运营商跨域融合建设情况
    该运营商在大数据方面的建设从业务、基础能力架构、组织架构三方面分别进行阐述。
2.1  业务
    流量经营战略地图是将流量经营的关键要素进行图形化分解的一种全息化经营视图,依据空间地域掌控营销范围,实现精确微区域营销。场景以战略地图为“显微镜”,深入透视微区域问题,排查问题寻找解决措施,通过跨域分析促进精细化工作的落地执行,实现流量经营关键要素的可视化、网格化,有效推动流量经营的持续发展。
    互联网业务分析基于经分系统,通过打通B域、O域(网管支撑域,简称O域)接口,通过采集网络信令并通过爬虫获取客户上网信息,并结合用户开销户和业务订购信息进行统计分析、流量监控,更新客户上网策略,目前系统在建设中。
    事件营销基于经分系统,通过打通B域、O域接口,获取网络侧实时信令消息,分析用户行为变化,及时向用户推荐相应产品,实现营销的及时推送,建设基于事件的营销分析,目前正在进行试点工作。
    业财融合涉及到B域、M域(管理信息域,简称M域)之间多个系统的协作,通过引入M域成本数据,实现产品和客户的成本精细分摊,为解决市场运营成本短板提供数据支撑。通过对业务线和财务线的业务流程分析,关联两条线的统一分析指标,加强分析的针对性和有效性;并通过钻取和挖掘等技术手段,对差异进行定位和监控,形成管理闭环,贯通业务流程,以达成降本增效、提升效率、规避风险的目标。
2.2  基础能力架构
    某运营商在近两年建设中不断优化系统基础能力架构,为新型大数据分析工作提供保障。
    从基础资源层面、应用层面、管理层面统一协同考虑对B、O、M三域大数据融合建设,积极协同建设三域资源池,不断提升X86化比例、统一分布式数据库、虚拟化软件的选型,并进行三域跨域数据的统一采集和去重处理等。
    建设基于X86架构的经分历史数据库,通过降低建设成本延长历史数据保留时间,有效提升历史数据的使用价值,并为数据仓库提供安全保障。
2.3  组织架构
    某运营商已经建立了跨部门的虚拟组织架构,通过明确各部门的分工,协同制定企业IT运营系统集中化总体目标及演进策略;部署企业IT运营系统集中化工作;统筹协调企业IT运营系统集中化所需资源;决策企业IT运营系统集中化中的重大事项。

3   以往建设中的问题
    某运营商在以往的系统建设中曾经出现过问题,通过剖析,分析出类似建设中的问题以及大数据建设过程中的困难所在。
3.1  以往建设问题
    前期O域某系统的建设与大数据平台的建设存在很多类似的特点,某系统在近几年的建设过程中,出现的问题值得借鉴:
    (1)规划考虑不全面:某系统定位为支撑全业务运营,实现网络资源数据的全生命周期管理,但没有与业务支撑、计划工程管理领域的相关系统统一规划,建设过程中业务开通长流程难以贯通。
    (2)演进思路不清晰:某系统的建设目标是替代专业网管的资源管理功能,但其与专业网管的分工原则一直不清晰,长期以来专业网管仍承担较多的资源管理方面的建设要求,建设过程中专业网管与某系统的接口难协调,接口规范不标准。
    (3)技术架构不先进:某系统数据源大部分为手工录入,目前从专业网管同步资源数据后做资源比对,由于统一采集层方案一直以来未明确和建设,造成资源数据采集自动化程度低,人工维护工作量巨大,数据质量长期存在不及时、不完整、不准确的问题,难以支撑实际生产管理的需要。3.2  大数据融合建设难点
    大数据融合建设的难度体现在:
    (1)存在数据整合困难、准确性提升需要系统和管理双重保障的特点。 
    (2)大数据分析应用范围又涉及多域应用,范围极广,必须有专业化的团队支撑服务。

4   三域大数据融合发展思路
    根据前文所述的建设经验,某运营商在大数据方面建设已经逐步渗透到各个环节,并在相关方面取得了一定的建设成果。
    (1)系统建设方面:由统一门户向开放式平台演进;由建单的数据封装向统一数据服务平台演进;由分散的基础平台向统一的管理平台演进;由小型机逐步向X86化演进;由结构化处理能力向非结构化处理能力演进。
    (2)业务应用方面:开展了流量经营战略地图、互联网分析、事件营销、业财融合、历史库等跨域融合类业务。
    (3)资源整合方面:协调多个部门,融合B、O、M三域数据,整合基础大数据资源;建立大数据资源管理部门,明确各部门职责和分工。
    根据前文所述的建设中遇到的问题,建议在大数据建设过程中统筹考虑,避免重蹈O域某系统建设的覆辙:
    (1)加强数据的标准化、归一化、集中化管理。上百个系统的管理分布在不同的部门和专业,数据规范制作没有统一标准,因此只有不断建立有效的把控手段,才能从源头上保证数据的可用性。
    (2)强化专业服务。一定要由专业人员或组织来做(避免兼职和非专业)。也许采用专业部门和第三方专业咨询相结合的方式是一种更好的选择,但第三方专业咨询一定要考虑长期战略合作与个性化合作相结合。
    (3)加强三域分析平台的统一规划。O域的综合分析系统、M域的财务主数据平台、B域的经分系统,在建设规划过程中要综合考虑。
    依据业界的建设经验,大数据建设大致可以从两个方向进行:一是从上到下,由应用带动数据;二是自下而上,由数据带动应用。本文提出了采用应用与数据互驱的方式进行三大IT支撑系统大数据融合建设。
4.1  应用带动数据
    结合公司运营中的重点难点,梳理分析应用需求,梳理相关数据需求,进而推动数据的标准化、自动获取和集中管控,以及相关基础软硬件能力的建设。这也是目前大数据平台建设的主要思路。4.2  数据带动应用
    加强数据的标准化管理。大数据分析的基础是数据获取,因此各种基础数据的归一化、标准化管理至关重要,但为了避免先建设后改造所带来的重复投资和时间限制,要不断加强入网数据的准入管理,通过对数据准入管理的把控,提升数据的标准化和集中化管理。
    逐步建立公司级的数据分布地图。在标准化的基础上,逐步建立起公司的标准化数据分布地图,即哪些系统存放着哪些数据,哪些数据是标准化和非标准化的,以及数据的重要性权重,通过建立数据分布地图,实现数据的分层级管理体系。
    加强数据节点的定位。从管理角度要考虑真正有效的数据节点所处的位置或环节(系统运营、职责分配、工作运营、决策支撑各环节的数据生成节点等,以及与现有的数据生成节点的关系)。
    在数据分布地图的基础上进一步建立数据需求地图,数据需求地图除了包含数据分布地图的部分内容外,还应该包括公司主要管理流程中产生的数据,而这些管理流程可能在实施过程中并没有进行信息化处理,但这些潜在的数据会对公司的运营决策产生重要影响,因此通过明晰数据需求地图,不断加强此类流程数据的IT化、可管理化和可使用化能力,丰富数据地图的范围。
4.3  应用与数据互驱
    鉴于以上的分析,总体发展思路是应用与数据互驱演进:以跨域分析应用的梳理为突破,带动B、O、M三域数据的集中管理;以三域数据的归一化梳理和集中,为更多的分析应用奠定基础。
    根据某运营商规划,将以“资源整合,数据集中,应用整合”原则为指导,打造三域融合的一体化支撑能力,资源池重点关注资源整合层面,而大数据平台对应数据集中和应用整合层面。IT支撑系统云资源池将分阶段分维度整合三域内及域间的IT基础资源,后续大数据平台所需的IT基础资源将由融合后的IT支撑系统云资源池统一提供,三大IT支撑系统私有云资源池规划演进阶段和方式视具体情况而不同。图1所列的是其中的一种典型情况,即O、M两域先融合,然后三域再统一融合,其他情况不再赘述。
 
图1    三大IT支撑系统私有云资源池融合规划演进(一种典型情况)


IT支撑系统私有云资源池是大数据平台的物理支撑平台,在规划建设中考虑适当的弹性冗余。大数据平台定位为建设统一的企业运营数据中心,以提供统一、标准、开放、可共享、可控制的数据服务为目标,前期重点建设非结构化数据处理能力,完成数据处理框架搭建,后期以诸如流量经营、业财融合等成熟的应用专题为切入点,逐渐丰富数据应用。

    某运营商大数据平台架构:面向互联网化的转型需求,结合去IOE(即以IBM小型机、Oracle数据库、EMC存储阵列为代表的传统IT软硬件架构模式)化进程,进行系统架构升级改造,开展大数据平台转型建设。构建信息整合、数据资产、应用和运维管控等扁平化中心,实现应用与数据深度解耦,数据处理多样化,硬件和数据资源池化。
    针对大数据的目标架构和特点,在近两期的建设中充分考虑了新技术的引入和应用,主要的关键技术体现在小型机的X86化进程中以及部分新功能模块建设中所运用的数据库相关技术,MPP关系型数据库(如深度分析库、历史库等)以及Hadoop(如互联网分析、云化ETL、爬虫等),通过分析研究,对两种技术的特点和应用场景进行了对比,如表1所示:
表1    MPP与Hadoop技术对比

 

MPP关系型数据库

Hadoop

技术架构

1MPP关系型数据库+SQL+MapReduce

2重点面向行业大数据,采用Shared Nothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,具有高性能和高扩展性的特点

分布式文件系统(HDFS+MapReduce

技术特性

1提供SQL或预置的SQL-MR功能,开发简单

2提供统一的实时管理监控平台,可监控系统总体情况以及所有硬件设备状态,运维简便,成本低

3支持通过第三方ETL工具、报表工具、挖掘工具或编写SQLSQL-MR语句来访问数据,可通过连接器直接访问其它平台数据

4具备完善的混合负载管理能力

5支持X86+本地盘的部署模式,成本低

6需要投入一定的软件成本

7访问方式:交互式处理和批处理

8数据更新:多次读写

9完整性:高(ACID

10数据处理类型:结构化为主

1通过Hive SQLMapReduce进行代码开发,开发工作量较大

2没有完善的监控管理界面,需要自己开发

3主要通过Hive SQLMapReduce语句访问数据,2.0及以上版本增加了YARN引擎,同时在HDFS中新增了HA特性,在集群中,YARN提供资源的统一管理和调度

4缺乏混合负载管理功能

5支持X86+本地盘的部署模式,成本低

6开源软件,完全免费

7访问方式:批处理

8数据更新:一次写入多次读取

9完整性:低

10数据处理类型:半/非结构化为主

测试验证

1大表关联、更新、排序、汇总性能优异

2并发处理性能突出

3压缩比和压缩性能高

4系统稳定高可用,线性扩展,支持在线扩容

1单表操作,简单查询的性能突出

2数据加载、导出性能优异

3)文本解析等非结构化数据处理性能

4系统稳定高可用,线性扩展,支持在线扩容

数据处理规模

TBPB

PBPB级以上

扩展能力

较高,单集群一般100节点以下

高,单集群4000~5000节点规模

采购成本

高,按照数据存储量购买

低,开源软件

运营成本

较低,关系型数据库维护、优化和应用开发较为成熟,专业人才较多

较高,系统维护、优化、应用开发较为复杂,专业人才较稀缺

相关产品

EMC GreenPlumHP Vertica

开源产品和商业平台

产品形式

成型产品

定制化开发


通过对以上两种主流技术的深入对比研究,总结如下:

    (1)两种技术根据各自的特点,具有各自的应用场景:
    鉴于MPP合理的分布键设计(MPP按行Hash分布,不同于Hadoop按块随机分布)、库内分析支持与分布式存储及计算相结合等方面的特性,支持数据量大、响应速度要求高、并发用户多的交互式数据分析,可以有效支撑PB级别的结构化数据分析,如:中等规模日志存储处理、经分数据仓库等。
    Hadoop则适用于响应时间要求不高、并发任务少的数据初步、加工提炼以及批量处理等场景,如大规模互联网社交网络、Blog、微博、在线详单查询、大规模日志存储处理、信令系统XDR数据存储和分析预处理、经分ETL等。此外,Hadoop能胜任传统关系型数据库较难处理的数据和场景,例如针对非结构化数据的存储和计算等,目前最为典型的应用场景就是通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑;对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型,也是Hadoop平台擅长之处。
    (2)基于列存储+MPP架构的新型数据库在核心技术上跟传统数据库有巨大差别,是为面向结构化数据分析设计开发的,能够有效处理PB级别的数据量。在技术上为很多行业用户解决了数据处理性能问题。
    (3)新型数据库是运行在X86服务器之上的,相比传统小型机部署方式可以大大降低数据处理的成本(1个数量级)。
    (4)新型数据库将逐步与Hadoop生态系统结合混搭使用,用MPP处理PB级别的、高质量的结构化数据,同时为应用提供丰富的SQL和事务支持能力;用Hadoop实现半结构化、非结构化数据处理,这样可同时满足结构化、半结构化和非结构化数据的处理需求。
    三大IT支撑系统大数据融合架构如图2所示:
 
图2    三大IT支撑系统大数据融合架构


在三大IT支撑系统大数据融合建设进程中,要加强各类大数据应用的有效性和时效性管理,建立应用的全生命周期管理手段,避免无效的应用长期占用系统资源甚至是运维资金。

    与此同时,建立公司级的数据运营团队十分必要,通过专业的运营团队,分析数据中隐含的决策支撑信息,建立分析的各种模型,定期形成分析结果的预评估,将经过预评估的模型通过软件开发进行落地实施,并在实施的过程中不断完善和修正,力争实现运营效果对基础数据管理能力的闭环反馈。

5   结论
    三大IT支撑系统大数据融合旨在数据资产规范化、显性化的基础上,逐步由内而外发掘数据价值,并支撑上层应用,最终通过资产经营充分实现其价值,实现“应用与数据互相驱动”。展望未来,融合的大数据平台这一新运营体系必然要经历螺旋式上升的过程而得以完善。

参考文献:
[1] 赵晶. 针对运营商的大数据建设方案研究[J]. 电信工程技术与标准化, 2015(3): 17-21.
[2] 梁杨. 大数据背景下企业级数据中心建设探索[J]. 互联网天地, 2014(2).
[3] 张雨,蔡鑫,李爱民,等. 分布式文件系统与MPP数据库的混搭架构在电信大数据平台中的应用[J]. 电信科学, 2013(11): 12-16.
[4] 刘智慧,张泉灵. 大数据技术研究综述[J]. 浙江大学学报(工学版), 2014(6): 957-972.
[5] 孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展, 2013(1): 146-169.
[6] 严霄凤,张德馨. 大数据研究[J]. 计算机技术与发展, 2013(4): 168-172.
[7] 程学旗,靳小龙,王元卓,等. 大数据系统和分析技术综述[J]. 软件学报, 2014(9): 1889-1908.
[8] 工业和信息化部电信研究院. 大数据白皮书[Z]. 2014.
[9] 中国移动通信集团公司. 中国移动省级NG2-BASS(v5.0)技术规范总册[S]. 2014.
[10] 中国移动通信集团公司. 中国移动经营分析系统大数据技术指南[R]. 2014. ★

作者简介
梁杨:高级工程师,硕士毕业于清华大学,现任职于中国移动通信集团设计院有限公司河北分公司,研究方向为电信领域IT支撑专业的咨询、设计、规划。
孙淳晔:助理工程师,硕士毕业于河北大学,现任职于中国移动通信集团设计院有限公司河北分公司,研究方向为电信领域IT支撑专业的咨询、设计。
王智宏:工程师,硕士毕业于北京交通大学,现任职于中国移动通信集团设计院有限公司河北分公司,研究方向为电信领域IT支撑专业的咨询、设计。
请输入评论内容
登录注册访问网站首页。

copyrights @ 2013  版权所有:中国电子科技集团公司第七研究所《移动通信》杂志社

粤ICP备17061932号-2     粤公网安备 44010502000212号