百度系统部高级经理张炳华在DCD北京大会上发表主题演讲
中国最大搜索引擎——百度一直走在技术创新的前沿。它的数据中心部署了基于自研的整机柜服务器、ARM服务器、10GB接入交换机(TOR)和固态硬盘(SSD)。在云计算和大数据日益崛起的时代,这个互联网巨头公司对基础设施的需求快速增长,预制模块化成为了它满足日益增长的业务需求的“法宝”。
就在今年,百度在其M1数据中心部署了预制模块化集装箱数据中心(Prefabricated Data Center),不仅满足了百度快速增长的业务需求,更引领了中国数据中心建设方式的革新。
在近日举办的DCD 北京数据中心大会上,百度系统部高级经理张炳华先生应邀就互联网数据中心的技术创新发表主题演讲。他向广大参会者传递的一个重要信息就是,预制模块化将成为整个数据中心行业的未来发展方向。
云计算和大数据驱动的发展趋势
预制模块化数据中心采用工厂预制标准化组件,并在现场拼装的建设模式,具有预先设计、标准构造、质量可靠、灵活组合、快速部署、灵活扩展等去工程化优势。
在主题演讲中,张炳华指出,在云计算和大数据等新技术和新业务的推动下,预制模块化将成为未来数据中心的一个重要发展方向。“目前,百度每天处理的数据量达到100个PB量级。计算的复杂程度也在增长,包括浮点运算、整数运算、迭代运算等;此外,模型的复杂度也在增加,数据特征数、模型维度急剧增加,这些处理都会对数据中心产生海量需求,”他说道。
他指出,在这个万物互联的时代,特别是在云计算和大数据等业务的强劲驱动下,数据中心发展呈现以下四个趋势:
第一、单个数据中心的容量急剧增加。单个节点服务器规模从几百台、增长到几千台、再到几万台甚至更多。
第二、单机架功率密度不断提升。从最早的租用单机架2kW,发展到4年前自建单机架7kW。目前,建成的百度云数据中心单机架用电量达8.8kW,最高功率密度达到15kW。
第三、数据中心从单一节点走向区域集群化部署。百度数据中心已经从最开始的单栋建筑物、发展到整个园区、再发展到一个城市多个节点、以及在全国各个区域,如华东和华北都形成区域性集群的布局。
第四,对网络传输的需求也要求越来越高。从最开始的专线租用,再到裸光纤密集波分,单波容量也从10G很快增长到40G,现在又升级到100G。
张先生表示,在这几大发展趋势的驱动下,数据中心的建设面临着极大的交付压力。“以BAT为代表的大型互联网公司,它们的服务器规模都达到了几十万台量级。就百度而言,短短五年内,服务器数量就增加超过了15倍。如何保证基础设施建设能适应业务的快速扩张,成为了业界关注的一个重大话题。”他解释道。
无论是应对大数据处理的强劲需求,还是应对电力和网络资源需求的飞跃式增长,传统数据中心明显不能适应业务的快速增长及灵活部署需求,预制模块化以其独有的优势,逐渐将成为数据中心建设模式独一无二的选择。
解耦合和重耦合
据工信部的统计数据,从2011年到2013年上半年,全国规划建设数据中心是225个,已经投入使用的是173个;数据中心的服务器总体装机规模约728万台,实际投产约57万台。
“目前,国内大量资金涌入到数据中心行业中来,在全国各地大规模新建大型数据中心。如果采用传统的房地产模式去建设这些数据中心,从拿地到建完至少要3年时间。数据中心建设管理粗放,受工艺质量、施工材料、人工技能影响,数据中心建成后,存在成百上千项问题,交付运营后代价太高,”他说道。
此外,他还指出,如果采用传统的房地产模式建设数据中心,也很难解决数据中心IT、机电和建筑物生命周期不一致的问题。“一般数据中心建筑物可以使用50年左右,机电设备至少可以使用8~15年,然而服务器每3~5年都需要更新换代。我见过很多几年前建设的数据中心,现在部署新一代服务器,只能填满原来不到三分之一的机架空间,因为电力和制冷容量都跟不上。”
张先生表示,为解决数据中心建设过程中各个系统生命周期不一致的矛盾,需要完成两个重大的转变——“解耦和”与“重耦合”。“现有的服务器是将电源模块、存储、CPU、主板、内存等整合在一起的通用架构。然而,百度打破传统,自研了北极整机柜服务器,将服务器所有共享的部件,如电源和风扇分离出来,做成机柜级的共享架构。通过共享电源架构,我们节省了50%的电源成本,并将能效提升20%。通过采用共享风扇架构,我们可以节省20%的风扇成本,并将能效提升60%。”
张先生表示,通过这种“解耦和”和“重耦合”,百度数据中心从原来的以服务器为单元,升级到以机柜为单元,大大提升了管理效率,整机能耗降低15%,总体拥有成本(TCO)可以降低10%以上,峰值交付效率提升20倍,这个收益是非常可观的。”
“预制模块化定义”数据中心
目前,非常流行的一个理念就是“软件定义数据中心”。然而,张先生认为,在基础设施层面,最明显的发展趋势却是“预制模块化”。“预制模块化应该是从原来以传统服务器为核心的小系统,逐步扩展为以机柜为核心的可预制的系统、且可实现与供电容量、网络资源、制冷容量的最佳匹配的大系统。它可以将机柜和机房完全解耦,机柜可以想来就来,想走就走,与机房只有非常弱的耦合。”
他认为,模块化要发挥价值,需要像乐高玩具那样,通过积木搭建就能构造出想要的模型;同时也要向赛车手换轮胎一样,速度足够地快。“如果把灵活组建和快速交付两个特点结合起来,这就是预制模块化的核心价值。”
“只要事先制定好设计和流程标准,就可以把组件交给工厂去制造,然后运输到现场拼装,以‘宜家’的模式建设数据中心了。这样就不再需要大量民工现场做过多的切割、焊接工作,仅需要几个专业人员就可以搞定了。这个方式可以很方便地复制和推广。”
张先生认为“预制模块化”分三阶段演进,“现阶段做得多的就是IT机房模块化。百度推出的‘蜂巢’预模块,腾讯推出的微模块(MDC)都是这样的案例。百度以整机柜为核心的‘蜂巢’预制模块化解决方案,只要将预模块做好,服务器(带轮)就可以直接推进来了。第二阶段是如何做到风火水电等系统的标准化和预制化。第三阶段是建筑物的模块化与预制化。如果能一开始能够将建筑物设计与机电模块和IT模块匹配起来,那是最好的。”
他在演讲中指出,IT机房模块预制化构建分三步走。“第一步搭建框架。通过十几种工厂预制化的组件把框架拼装出来。第二步是把包括配电柜和行间空调在内的末端装上,对外连接好管路和母线。第三步是将整机柜服务器推进模块,插上电源和光纤就可以运行了。后面可以依此复制。”
张先生表示,百度在模块化数据中心建设领域已经有好几年的实践经验了,并取得了很好的效果。“基于工厂预制式的模式,质量非常可控;部署非常灵活,可以根据需求灵活扩展。比如,如果设计单机柜功率密度为8.8kW,某些业务需要6.6kW,或3年以后增长到16kW,这些都可以通过拆除空调末端增加机架,或拆除机架增加空调末端就可实现,只要保证机房的供冷和热负荷保持均衡就可以了。”
“通过采用预制模块化的建设方式,我们可以在一天内轻松交付1万台服务器。百度阳泉云计算中心8栋建筑物都采用了模块化的建设模式,里面配置完全一样。”他补充道。
挑战和机遇?
他认为,在数据中心的预制模块化领域,最难做的还是暖通系统的预制模块化。“暖通系统由三个组成部分——冷水制备模块、散热模块和冷冻水输送模块组成,管路系统最让人头疼,因为这涉及到许多的现场焊接工作,而且质量难以保证。未来管路是否也可以实现工厂预制,是否可以获得更快速的连接方式,都是值得思考的话题。”
他同样指出,尽管建筑物的模块化看起来比较困难,然而远大集团已有很好的案例可以借鉴。“远大集团采用预制模块化的方式在15天的时间内建成了一个30层的T30酒店,能够抗九级地震,现场产生的垃圾如水泥等都很少。此外,因为采用了这种建造模式,该项目还获得了世界高层都市建筑学会颁发的“创新大奖”。”
目前,中国的数据中心主要集中在北上广等一线城市,高层数据中心比较多。“如果选择在更为偏远的地方建设数据中心,可以采用1~3层的建设模式,利用工厂预制化的钢架屋顶,很快完成搭建工作。脸谱网在瑞典建设的数据中心就是一个很好的例子。”
对于业内人士希望照搬美国直接采用自然新风冷却数据中心的想法,张先生表示,经过研究,目前还是无法实现的。“这和我们的雾霾天气有很大关系,空气中不仅存在PM 2.5这类污染物,还包括二氧化硫等类别的污染源。我们对多个地区的有害气体进行了长期监测,大部时间有害气体都严重超标,严重地区几乎全年“爆表”。由于机房密封不严或采用新风冷却措施,华北和华东地区的多个服务器和交换机都因空气的腐蚀挂掉过。”
然而,他指出,中国虽然空气污染严重,但如果对服务器主板、硬盘等做一些耐腐蚀的处理,也是可以采用直接风侧免费冷却的。“百度已经对耐腐蚀的服务器进行了7~8个月的测试,测试结果良好,即将大规模投入商用。一旦高温耐腐蚀服务器在业界得到规模应用,取消冷水机组和管路就指日可待,冷却系统的预制模块化之路就容易多了。此外,中国西部污染较少的地方,尝试直接新风制冷也是未尝不可的。”
此外,他还指出,提高进风温度在降低数据中心能耗方面是非常可行的。“我们自研的高温服务器已经在35度的环境下承载线上业务持续运行了一年多,将水侧自然冷却的时间从原来的3~4个月延长到了8~9个月,并帮助我们节省了不少冷却成本。”
|