请选择 进入手机版 | 继续访问电脑版
发帖
开启辅助访问
 找回密码
 立即注册
取消
搜索
热搜:
活动 交友 discuz
分享到

大型数据中心是如何进行IT运维工作的?

#新人报道#时间:2019-05-31 阅读:614 回复:0

561

主题

561

帖子

3165

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
3165
  随着数据中心的建设规模不断扩大,新技术层出不穷,it运维的数据中心变得越来越复杂。数据中心往往是由很多规模庞大的集群系统组成的,it运维工作需要具备各方面的知识,包括硬件与业务上的知识。因为很多数据中心的规模非常大,面临的挑战和问题非常超前,很多不是问题的问题在这样的规模下也就凸显出来了,所以要做好大型数据中心的it运维工作,对整个数据中心技术的系统的学习就要花费比较长的时间,只有对这个数据中心整体非常了解,才能有针对性地制定一些运维方案,甚至可以二次开发一些监控软件,对整个数据中心进行管理与监控,提升整个数据中心的运行效率,减少故障的发生,从而将it运维工作推向新的高度。
  从数据中心安全方面来考虑,it运维工作就是十几个小项:攻击保护、固件管理、备份、抓BUG/找BUG、脚本工具、自动化维修、数据安全、性能优化、服务巡检等项目,其中每一项拿出来其实都包含很多的内容。
  比如说到攻击与保护,这个主要指的是防止外来的异常入侵者对数据中心发起的恶意攻击,恶意攻击就是有人故意的使用各种攻击方法,进入到数据中心内部将重要的数据窃取或者破坏,达到其不可告人的目的。
  为了方便it运维,也要做好一些执行脚本,以便在出现突发事件时,能够快速部署。比如如果一个数据中心的业务出现异常,为了快速恢复业务,需要将路由进行调整,将流量全部引到其它的数据中心,这就需要在核心路由器上进行调整,这时有个现成的脚本就可以自动执行,达到快速切换的目的。数据中心还应该准备很多其它工作的脚本,以便紧急的时候快速使用。
  从数据中心的基础运维管理方面考虑,则主要有网络抓包/过滤、可维护性优化、配置管理、监控、报警处理、自动化运维、断网,断电、机房容灾等运维工作。其中自动化it运维能提升运维的工作效率,尽量减少人为的参与,让数据中心自己管理自己,释放人力。同时针对数据中心可能发生的故障还做好监控与报警处理,以便能够在故障发生的第一时间知晓问题,往往一次大的故障都是从开始的一点小故障逐渐扩展最终引发整个大系统的崩溃的,所以在出现一些小的异常时一定要及时消除,而这些异常就要靠完善的监控和报警系统来检测。
  从数据中心服务器方面考虑,则主要有文件系统、内核参数调优、各种硬盘驱动、内核版本、Kernel panic等。Linux系统不仅在服务器,在网络操作系统也占据着主流地位,掌握Linux系统的使用才能更好地处理服务器和网络设备的运维工作,Linux是it运维工作的一项基本技能。除了熟悉Linux系统的操作,还要对服务器的运行状态和内核运行状态进行监控与管理,减少服务器故障的发生。一般大型的数据中心都包含有成千上万台的服务器,几乎每天都会有服务器出现各种各样的问题,只有对服务器有深入理解才能很好地消除问题。为了防止服务器故障引发业务中断,所以一般在服务器上都要部署虚拟化技术或者集群技术,当一台服务器物理硬件故障时,业务可以平滑切换到其它服务器上,业务不会受到任何影响。这些虚拟化技术增加了运维的难度,也需要对虚拟化技术进行不断学习。
  通过上面的罗列您一定很惊讶,原来数据中心it运维包含这么多内容,大大小小数十项,而且每一项包含的内容说起来都不那么简单,也涉及很多的技术知识。

回复
使用道具 举报
快速回复
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

客服电话
173-6185-1240
发布 快速回复 返回顶部 返回列表