应对大规模数据集群治理,联通大数据这么做

时间:2019-08-10 来源:www.gdlsxny.com

?

在2012年出版的书《大数据时代》中,Victor预测数据被纳入公司资产负债表只是时间问题。如今,随着新兴技术的整合与创新,大数据已经应用于我们生活的各个方面,数据资产的概念逐渐得到了国内外公司的强烈认可。

但是,数据和企业资产可以直接等同吗?实际情况是,未经历系统管理和规划治理的数据集群不仅难以为企业创造实际利益,而且还会带来混乱,降低计算能力和冗余。存储计算,资源浪费和其他问题使整个数据集群处于“亚健康”状态。

那么,清远原来有解决方案吗?联通大数据有限公司技术部负责人李大中分享了2019年大数据产业峰会 - 大数据前沿技术论坛。他以《联通大规模数据集群治理实践》为主题分享了运营商的数据资产。管理经验与对策。

img_pic_1560136157_0.png

以下是李大中演讲的总结:

联通大数据有限公司负责联通的大数据容量建设和外部服务运营功能。目前,该平台的存储容量为100 PB,Hadoop集群拥有6000多个节点,数据模型的数量已达到2000多个。作为数据治理过程中的运营商,它必须面对大数据量的实时处理要求,还必须从成本的角度考虑集群计算能力配置和安全合规性的要求。大数据是一个高成本的行业,集群计算能力是其中的重要组成部分。

通过参考行业的治理经验,结合公司的业务和组织结构特点,我们总结出一套适合公司业务发展的数据资产管理系统,即“备用推广+巡检+数据价值”数据资产管理系统。基于“保护和促进”项目构建的全生命周期数据管理和控制系统是基于“成山”项目构建的大规模集群管理系统。基于“DataValue”项目,实现了外部数据值管理。同时推动三个主要项目形成数据治理。 +集群治理+数据值的整体协同作用。

img_pic_1560136157_1.png

在实际实施中,“滚山”项目如

首先激活入口点,效果最明显。在大规模集群计算环境处于亚健康状态的状态下,我们将治理工作分解为两个阶段:第一个任务是解决亚健康问题,即确保集群资源的可用性,确保集群稳定性和业务连续性;长期和更重要的任务是保持健康状态,即持续有效地监控数据治理项目的有效性。

对于大规模数据集群治理的推广方法,由于集群管理涉及从收集和清理到模型处理,从平台操作和维护到产品开发的一切,它几乎涵盖了公司的整个技术路线和工作内容。产品系列中有100人。使用自上而下的顶级设计是不现实的。我们使用自下而上,自发协作,精益驱动的数据集群治理文化。从问题的发现出发,找出原因,建立解决策略,建立相应的监管点,逐步形成系统。通过明确实现多个环节的治理结果,整个公司的生产组织体系逐步形成治理文化。

在治理过程中,我们将向您介绍我们遇到的重点:

1. HDFS和YARN工作深度监控

针对文件过多,文件过大,资源消耗过大的情况,联通大数据通过自行开发统一的元数据实时采集平台,重新序列化Fsimage和EditLog,实现资源队列信息和文件目录。时间。工作任务信息和其他内容,通过多维关联图像洞察到可疑的异常工作,促进工作优化和监控优化效果。群集文件的数量最终从近8000万减少到3000万,平均文件大小增加了4倍。群集资源负载几乎从每天充满,并减少到不到70%。每年可节省固定资产投资数千万元。

2. RPC请求和关键服务警报

对于群集RPC,请求延迟通常太大,甚至达到第二级,导致群集处于锁定不可用的状态。通过收集JMX指标,服务连接,堆栈信息,GC等,钻取相关图像,并钻取相关操作。准确定位要优化的作业。优化后,群集RPC请求延迟大大减少,并且降低到毫秒级别。

3.重复处理/冗余计算挖掘

对于数据的重复处理,冗余计算等,估计系统中存在大多数系统,这直接导致资源的浪费。我们通过HDFS JOB BINARY

FILE分析,找到可疑的冗余计算作业。这种方法与组织结构的复杂性无关,也不依赖于上层业务输入。核心思想是通过提取具有相同输入路径的作业,从目录维度的角度提取可疑的重复作业。群集资源减少10%以上。

4.重构元数据管理和血缘关系分析应用程序

对于数据处理流程的可追溯性,敏感数据难以有效跟踪等,通过对HIVE执行日志的SOL分析,以及通过SPARK作业的输入和输出目录肖像,构建企业级全局元数据平台以非侵入方式提供全局物理视图,业务视图,元数据更改跟踪监控和全局数据亲属关系图等核心功能可满足复杂的可追溯性要求和故障覆盖率评估。

谈到治理过程中的感受,李大中指出:“大规模数据集群治理不是单人,单个项目组可以完成,而是需要调动到公司的生产和开发组织系统中。文化渗透的形式。自我赞助,由OKR代替KPI管理,在解决问题的过程中不断调整目标,建立持续优化治理体系。当然,技术人员应该接受和理解大数据开源技术并采用开创性思考。解决问题。“