等级定义:
四级(基本级),
三级(拓展级)
二级(改进(协同)级)
一级(提升(量化)级)
评判标准:
第一层是综合指数层,包含管理能力、资源配置、流程运行,技术水平,四个维度;
第二层为关键要素层,包含服务能力、交付管理、应急管理、人力资源管理、知识库管理,等多个关键要素;
最后一层是基础指标层,是上一层要素的进一步细分。
4项综合指数(大类),
16项关键要素(能力项),
87项基础指标(考核指标)
评判分数:
Sample:起步到成熟
1,实施最佳流程
2,业务关联
3,端到端的以业务为目标的服务
4,优化服务交付
5,服务水平管理
6,服务目录
Sample2:进阶
1,新架构
2,服务组合
3,关键业务流程
GB/T31167-2014 信息安全技术 云计算服务安全指南
1,非授权访问:数据隔离和防护事件,有发生跨虚拟机的非授权数据访问,纂改,泄露,和丢失;
2,拒绝服务攻击
3,恶意代码感染,病毒,蠕虫,木马,等恶意代码的感染
4,垃圾信息外发,包括但不限于垃圾邮件,垃圾短信
有部署垃圾信息检测与防护机制,并及时更新到最新版本;
有制定明确的信息分类和安全等级定义,有严格区分敏感信息和公开信息,承载敏感信息的数据载体需要进行加密处理;
稳定性
时延
业务连续性
数据的存储位置,
保密协议,所有云平台运维人员都需要签署保密协议,作为个人劳动合同或者外包服务合同的附件。
服务运行状态
性能指标,资源使用情况
特殊安全需求
云计算平台提供的监视技术和接口
其他必要的监管活动
云平台安全教育和监管
云计算环境和客户端的安全措施进行监管,最新补丁,防病毒软件,
信息安全策略更新
应急响应演练
应急响应计划更新
GB/T 37972-2019 信息安全技术 云计算服务运行监管框架
监管方法和手段:
监管内容:
介质集中管理,限制访问,访问记录和审计
配置项集中管理应用和验证
按照白名单策略,维护信息系统组件清单,检测非授权软件,硬件,固件
有在线系统支持事件处理和事件报告的过程
脆弱性扫描和分析,判断信息系统漏洞趋势;
更新恶意代码防护机制;
管理账号,密码,访问权限,自动关闭非活跃账号
监视和控制远程访问会话,所有的堡垒机,跳板机,都需要保留登录,访问和操作记录,
检测网络攻击,对攻击事件进行准实时分析
缺陷扫描,及时修复,修复后检测
温度湿度等环境控制
最小功能,关闭不需要,不必要的功能,包括但不限于进程,端口,协议,服务。
对云平台的系统级信息进行备份,如云平台,操作系统,数据库,中间件,应用软件等;==备份记录,备份完整性验证记录
===
监控度量指标,
监控频率;
交付件类型:
安全培训和演练记录,培训演练材料和培训演练视频;
安全事件和可疑安全事件报告和处理记录;
渗透性测试和深度安全检测
GB/T 37736-2019 信息技术 云计算 云资源监控通用要求
云平台整体运行状态监控
硬件设备电源供应状态监控
物理机和虚拟机资源CPU状态和性能监控
内存状态,性能,使用和空闲监控
存储设备和文件系统工作状态,使用空间,I/O读写性能指标的监控
云平台网络工作状态,网络链路,和网络流量监控
资源事件和使用监控,可以提供资源分配和超配情况,接收资源主动触发的告警。
进程状态和进程占用CPU内存等资源的监控,
虚拟机资源占用情况,资源调度,运行位置,服务进程的监控
采集管理
性能管理
告警管理:告警策略,参数设置,级别定义清晰,能做关联分析,通知方法多样,告警信息完整明确
统计分析:按照资源类型,业务类型,性能指标,告警指标,时间段,租户,
云平台运行预测
GB/T 36326-2018 信息技术 云计算 云服务运营通用要求
运营:
1,计算资源池化,按照计算能力的单位,包括CPU核数和主频,内存等构建计算能力池,合理规划和分配
2,存储资源池化,按照存储能力的单位,包括空间,IO,等构建存储资源池,合理规划和分配
3,网络资源池化,按照网络传输能力,包括传输带宽,峰值传输速率,VLAN和IP地址数量,安全要求等构建网络资源池,合理规划和分配
4,资源使用计量,对资源的使用情况进行采集和计量,包括但不限于资源规格,使用数量,使用时长等
监控:
1,可以整合性能数据,并且对外提供接口
2,提供监控数据归档,为事后性能分析和统计提供依据
3,提供可视化方案,展现当前状态和历史信息
4,监控各项服务的使用情况,将服务故障进行记录和报告
资源:
1,有确定和规范的计算资源,存储资源,网络资源的计量方法,满足业务的合理需要和规划
12,容量管理
资源效率方面,国网云平台资源整体充裕,
资源分配率处于中水位,部分单位资源利用不充分。
资源利用率率
资源闲置率
资源回收情况
受理问题
云知识库应用方面
云平台协同检修
状态评价
- 具备专业的作业管理工具,支持创建并记录作业规划,作业请求,审查作业请求,作业归类和划分优先级,并应对作业的全程跟踪和监控。
2. 采用高效率、低误差的作业操作模式,优先采用自动化作业,60%以上的日常工作实现自动化作业
3. 对于手工作业,建立作业范围和作业流程管理机制,在提供运维服务过程中能有效使用专业的作业管理工具来管理运维作业
4. 针对云平台日常运维作业应有作业计划,至少包括:作业目标、内容、范围、周期和人员安排,有按照难度和风险定义云平台日常作业的分类,明确作业执行过程,确保作业安全有序实施
5. 强化作业规范,保存作业记录,包括作业申请单、审批人,审批记录、作业报告等
6. 建立与作业过程一致的活动,包括作业建立、分类、调查和诊断、关闭等
7. 作业异常响应机制,包括作业问题出现率,问题解决率、问题平均解决时间等;
8. 有支撑作业活动和结果的知识库,包括作业记录文档、作业执行报告等。
9. 支持从服务级别、信息安全、配置、事件、及问题管理中获得各自过程的作业请求,并向事件管理、问题管理提供作业操作结果;
10. 建立作业评估和审核机制,并将该制度纳入组织级的质量管理体系中,至少应包含对作业审批机制、作业验证机制、作业回退机制、作业评价机制等进行定期评估和审核,并建立相关记录文件归档并同步到知识库
11. 作业配套的指导手册,至少包括作业任务清单、任务操作步骤及说明、运行状态是否正常的判定标准、运行状态信息的记录要求、异常状况处置流程(角色定义、处置方法、流转过程、结束要求)、报告模版,需保持及时更新;
12. 建立数据分析模型,使用自动化工具定期对作业数据进行量化分析,以可量化方式,分析作业过程和结果,发现作业中的优势内容、存在的不足,识别管理流程和技术能力缺陷,识别作业改进机会;
13. 建立持续改进机制,基于数据分析结果完善作业执行方案和内容,持续改进作业过程以适应业务变化;
14. 主动分析作业的业务价值及影响,建立对作业成果的评价、复用的方法,实施定期评价,并与运维服务知识库进行关联
SG-I6000信息系统运营调度体系
SG-UAP开发平台
IRS-信息通信专业管理系统
ICS-信息客服管理系统,呼叫中心
IDS-信息调度管理系统
DVS-大屏可视化
IMS-信息运维综合监管
TMS-通信管理系统
ITS-信息仿真培训系统
ISS-信息外网安全检测
云资源管理:调度,运行,检修,客服,三线
镜像和快照是保存在哪里,可以导出给外部使用?
GB/T31167-2014
1. 由领导牵头安质部主导,建立信息安全管理过程,对信息安全风险进行识别、评估、处置和改进,形成相关记录,包括信息安全控制措施及风险评估记录、实施记录等
2. 建立组织级的信息安全管理体系,制定、批准并发布信息安全目标和政策
3. 定义信息安全评估方法和风险接受准则,并通过工具落实在流程中;
4. 应安装和部署云平台信息安全管理工具,对云计算环境和客户端的安全措施进行监管,包括并不限于网络防火墙,WAF,Anti DDOS,IDS/IPS,软件安全补丁,防病毒软件等等,并保持安全管理工具和安全策略更新
5. 应具备专业的信息安全防护工具,至少包含用户口令的认证、权限,用户操作的日志、审计,病毒及漏洞扫描等功能
6. 应通过架构设计,实现双网双机分区分域保障模式,部署并起用云平台灾备方案,保障云平台整体安全
7. 应通过技术和工具实现动态感知和全面防护
8. 应管理安全接入,执行设备层和网络层的准入备案
9. 应禁止非授权访问,制定明确的数据分类和安全等级定义,有严格区分敏感信息和公开信息,进行数据隔离和防护,杜绝跨虚拟机的非授权数据访问,纂改,泄露,和丢失
10. 应部署工具防止拒绝服务攻击
11. 应通过管理流程和技术手段阻止恶意代码感染,包括并不限于病毒,蠕虫,木马,等恶意代码的感染和传播
12. 应通过权限控制等手段阻止垃圾信息外发,包括但不限于垃圾邮件,垃圾短信,有部署垃圾信息检测与防护机制,并及时更新到最新版本
13. 所有承载敏感信息的数据载体需要进行加密处理
14. 应持续改进信息安全管理过程以适应业务变化,定期实施信息安全评估,评估内容至少包含:可用性、完整性和保密性
15. 制定并实施信息安全控制措施,定期评审控制措施的有效性
====
9. 建立完整的信息安全管理体系,确保运维服务人员安全、提供运维服务的物理环境安全,以及支持运维服务业务的系统安全(包括运维工具、知识库和服务台等)
保密协议,所有云平台运维人员都需要签署保密协议,作为个人劳动合同或者外包服务合同的附件。
===安健环
1.建立和发布组织级的环境管理规范,对云平台运维相关的环境,人员,流程进行指导,培训,和演练,以落实云平台运维的安全基础
2.有在运维团队内部推动学习环境管理制度,明确的事故评定标准和上报流程
3.有安全员和安全接口人
4.建立与组织业务相适应的环境安全事件处理流程,发生事故时能够流程化处理,高效有序的帮助员工脱离风险
5.定义环境安全评估方法和风险接受准则
6.制定并实施环境安全控制措施,定期评审控制措施的有效性
7.定期进行环境安全评估,对环境安全风险进行识别、评估、处置和改进,形成相关记录,如安健环控制措施及风险评估记录、实施记录等
8.关注身心健康,定期提供健康体检,和心理测评
9.公共突发事件响应机制,对于自然灾害,传染疾病,火灾逃生,等有预防机制和定期演练
10.个人突发事件机制,对于心肺复苏,电梯故障,场地急救演习等基础安保项目进行培训和演练
11.具备常用的工具,应对公共事件的灭火器,个人急救设备(AED),配备常用药物比如感冒、退烧、扭伤喷雾,等等
12.建立完整的环境安全管理体系,通过合理安排工作,避免长时间加班导致身体健康和心理问题,通过团建、沟通等多种方式帮助员工减压,等等多种手段,确保运维服务人员的生理安全和心理健康
13.持续改进工作场所环境安全管理,以适应业务变化,为运维人员提供良好的工作环境,提高工作效率,从而保障云平台的健康性和安全性
- 有发布云平台调度管理制度,确认值班工作范围,值班和交接班要求,值班岗位职责,值班操作规程,汇报流程。
2. 有使用工具对调度值班进行管理,并记录值班数据。
3. 有根据业务需要制定云平台运维值班计划,明确班次和时间;
4. 所有值班班次均明确了值班责任人;
5. 有值班打卡记录,值班人员能及时到达值班工位;
6. 值班期间的突发事件都有及时处理和上报;
7. 当值人员有填写值班总结和交接报告,汇总和确认值班情况;
8. 值班应急事件的先期处置效率,有效避免次生、衍生事件的发生
9. 定期组织值班执行回顾会,对值班数据进行量化分析,以可量化方式,分析值班过程和结果;
10. 值班数据分析,从值班记录中发现值班中的优点和不足,识别管理流程和技术能力缺陷,识别改进机会;
11. 基于值班数据分析结果完善值班方案,持续改进值班过程以适应业务变化;
12. 能主动分析值班的业务价值及影响,以指导和优化值班安排;
13. 能主动从其他流程获取数据以支持值班流程
14. 建立对值班结果的评价、复用的方法,实施定期评价,并与运维服务知识库进行关联
- 具备专业的运行管理工具,支持创建并记录巡视规划,巡视执行,巡视巡视归类,和划分优先级,并应对巡视巡视的全程跟踪和监控。
2. 采用高效率、低误差的运行操作模式,优先采用自动化巡视,60%以上的日常巡视工作实现自动化工具化。
3. 对于手工巡视,建立巡视范围和巡视流程管理机制,在提供运维服务过程中能有效使用专业的运行管理工具来管理运维巡视
4. 针对云平台日常运维巡视应有巡视计划,至少包括:巡视目标、内容、范围、周期和人员安排,有按照难度和风险定义云平台日常巡视的分类,明确巡视执行过程,确保巡视安全有序实施
5. 强化巡视规范,保存巡视记录,包括巡视申请单、审批人,审批记录、巡视结果等
6. 建立与巡视过程一致的活动,包括巡视建立、巡视设备和业务分类、调查和诊断、关闭等
7. 巡视异常响应机制,包括巡视问题出现率,问题解决率、问题平均解决时间等;
8. 有支撑巡视活动和结果的知识库,包括巡视记录文档、巡视执行报告等。
9. 支持从云平台产品类型和级别、信息安全、配置、事件、及问题管理中获得各自过程的巡视请求,并向检修管理、问题管理提供巡视操作结果;
10. 建立巡视评估和审核机制,并将该制度纳入组织级的质量管理体系中,至少应包含对巡视审批机制、巡视验证机制、巡视回退机制、巡视评价机制等进行定期评估和审核,并建立相关记录文件归档并同步到知识库
11. 巡视配套的指导手册,至少包括巡视任务清单、任务操作步骤及说明、运行状态是否正常的判定标准、运行状态信息的记录要求、异常状况处置流程(角色定义、处置方法、流转过程、结束要求)、报告模版,需保持及时更新;
12. 建立数据分析模型,使用自动化工具定期对巡视数据进行量化分析,以可量化方式,分析巡视过程和结果,发现巡视中的优势内容、存在的不足,识别管理流程和技术能力缺陷,识别巡视改进机会;
13. 建立持续改进机制,基于数据分析结果完善巡视执行方案和内容,持续改进巡视过程以适应业务变化;
14. 主动分析巡视的业务价值及影响,建立对巡视成果的评价、复用的方法,实施定期评价,并与运维服务知识库进行关联