7大关键技术之七–运营支撑管理

为了支持规模巨大的云计算环境,需要成千上万台服务器来支撑。如何对数以万计的服务器进行稳定高效地运营管理,成为云服务被用户认可的关键因素之一。下面从云的部署、负载管理和监控、计量计费、服务水平协议(ServiceLevel Agreement,简称SLA)、能效评测这五个方面分别阐述云的运营管理。
(1)云的部署
云的部署包括两个方面:云本身的部署和应用的部署。如前所述,云一方面规模巨大,另一方面要求很好的服务健壮性、可扩展性和安全性。因此,云的部署是一个系统性的工程,涉及到机房建设、网络优化、硬件选型、软件系统开发和测试、运维等各个方面。为了保证服务的健壮性,需要将云以一定冗余部署在不同地域的若干机房。为了应对规模的不断增长,云要具备便利的、近乎无限的扩展能力,因而从数据存储层、应用业务层到接入层都需要采用相应的措施。为了保护云及其应用的安全,需要建立起各个层次的信息安全机制。
除此之外,还需要部署一些辅助的子系统,如管理信息系统(MIS)、数据统计系统、安全系统、监控和计费系统等,他们帮助云的部署和运营管理达到高度自动化和智能化的程度。
云本身的部署对云的用户来说是透明的。一个设计良好的云,应使得应用的部署对用户也是透明和便利的。这依赖云提供部署工具(或API)帮助用户自动完成应用的部署。一个完整的部署流程通常包括注册、上传、部署和发布四个过程。

(2)负载管理和监控
云的负载管理和监控是一种大规模集群的负载管理和监控技术。在单个结点粒度,它需要能够实时地监控集群中每个结点的负载状态,报告负载的异常和结点故障,对出现过载或故障的结点采取既定的预案。在集群整体粒度,通过对单个结点、单个子系统的信息进行汇总和计算,近乎实时地得到集群的整体负载和监控信息,为运维、调度和成本提供决策。与传统的集群负载管理和监控相比,云对负载管理和监控有新的要求:首先,新增了应用粒度,即以应用为粒度来汇总和计算该应用的负载和监控信息,并以应用为粒度进行负载管理。应用粒度是可以再细分的,在下面的“计量计费”一节中会提到,粒度甚
至精细到API 调用的粒度。其次,监控信息的展示和查询现在要作为一项服务提供给用户,而不仅仅是少量的专业集群运维人员,这需要高性能的数据流分析处理平台的支持。
(3)计量计费
云的主要商业运营模式是采取按量计费的收费方式,即便对于私有云,其运营企业或组织也可能有按不同成本中心进行成本核算的需求。为了精确的度量“用了多少”,就需要准确的、及时的计算云上的每一个应用服务使用了多少资源,这称为服务计量。
服务计量是一个云的支撑子系统,它独立于具体的应用服务,像监控一样能够在后台自动地统计和计算每一个应用在一定时间点的资源使用情况。对于资源的衡量维度主要是:应用的上行(in)/下行(out)流量、外部请求响应次数、执行请求所花费的CPU 时间、临时和永久数据存储所占据的存储空间、内部服务API 调用次数等。也可认为,任何应用使用或消耗的云的资源,只要可以被准确的量化,就可以作为一种维度来计量。实践中,计量通常既可以用单位时间内资源使用的多少来衡量,如每天多少字节流量;也可以用累积的总使用量来衡量,如数据所占用的存储空间字节大小。

在计量的基础上,选取若干合适的维度组合,制定相应的计费策略,就能够进行计费。计费子系统将计量子系统的输出作为输入,并将计费结果写入帐号子系统的财务信息相关模块,完成计费。计费子系统还产生可供审计和查询的计费数据。

(4)SLA
SLA 是在一定开销下为保障服务的性能和可靠性,服务提供商与用户间定义的一种双方认可的协定。对于云服务而言,SLA 是必不可缺的,因为用户对云服务的性能和可靠性有不同的要求。从用户的角度而言,也需要从云服务提供商处得到具有法律效力的承诺,来保证支付费用之后得到应有的服务质量。从目前的实践看,国外的大型云服务提供商均提供了SLA。
一个完整的SLA 同时也是一个具有法律效力的合同文件,它包括所涉及的当事人、协定条款、违约的处罚、费用和仲裁机构等。当事人通常是云服务提供商与用户。协定条款包含对服务质量的定义和承诺。服务质量一般包括性能、稳定性等指标,如月均稳定性指标、响应时间、故障解决时间等。实际上,SLA的保障是以一系列服务水平目标(Service Level Object,简称SLO)的形式定义的。SLO 是一个或多个有限定的服务组件的测量的组合。一个SLO 被实现是指那些有限定的组件的测量值在限定范围里。通过前述的对云及应用的监控和计
量,可以计算哪些SLO 被实现或未被实现,如果一个SLO 未被实现,即SLA 的承诺未能履行,就可以按照“违约的处罚”对当事人(一般是云服务提供商)进行处罚。通常采取的方法是减免用户已缴纳或将缴纳的费用。
(5)能效评测
云计算提出的初衷是将资源和数据尽可能放在云中,通过资源共享、虚拟化技术和按需使用的方式提高资源利用率,降低能源消耗。但是在实际应用中,大型数据中心的散热问题造成了大量的能源消耗。如何有效降低能源消耗构建绿色数据中心成为云服务提供商迫切需要解决的问题之一。
云计算数据中心的能耗测试评价按照不同的维度有不同测试手段和方法。针对传统的数据中心它有显性评价体系和隐性评价体系两个方面。
显性的能耗测试评价可以参照传统数据中心的评价体系,具体包括:能源效率指标、IT 设备的能效比、IT 设备的工作温度和湿度范围、机房基础设施的利用率指标。能源效率指标用于评估一个数据中心使用的能源中有多少用于生产,还有多少被浪费。在这方面,绿色网格组织的电能利用率(Power Usage Effectiveness,简称PUE)指标影响力较大。PUE 值越小,意味着机房的节能性越好。目前,国内绝大多数的数据中心PUE 值为3 左右,而欧美一些国家数据中心的PUE 平均值为2 左右。隐性能耗测试评价包括云计算服务模式节省了多少社会资源,由于客户需求的不同,云吞吐量的变化节省了多少IT 设备的投资和资源的重复建设。这些的测试评价很多时候是不能量化或者不能够进行精准地评价。
为了实现对数据中心能源的自动调节,满足相关的节能要求,一些IT 厂商和标准化组织纷纷推出节能技术及能耗检测工具,如惠普公司的动态功率调整技术(Dynamic Power Saver,简称DPS)、IBM 的Provisioning 软件。

此条目发表在云计算分类目录,贴了标签。将固定链接加入收藏夹。

7大关键技术之七–运营支撑管理》有 1 条评论

  1. Very great post. I simply stumbled upon your weblog and wanted to say that I have truly loved browsing your weblog posts. In any case I will be subscribing on your feed and I’m hoping you write again soon!

发表评论