财经365视界:阿里造“神龙”(3)
2019-11-13 13:59 作者:史中
来源:财经365
描述
(四) 购买神龙云服务器的网页快被挤爆了。 第一时间购买神龙的客户大概分三类: 1、好奇的用户——他们来尝鲜; 2、云计算的同行——他们来看看阿
[本文共字,阅读完需要分钟]

(四)

购买神龙云服务器的网页快被挤爆了。


第一时间购买神龙的客户大概分三类:

1、好奇的用户——他们来尝鲜;

2、云计算的同行——他们来看看阿里云有没有吹牛;

3、传统企业——他们早就迫不及待地想上云,但之前传统的云计算架构并不适合他们,神龙架构却是他们的菜。

之前提到的上汽是第一个吃螃蟹的人。他们透露,相比过去使用传统超算服务,使用神龙超算集群汽车仿真计算效率提升25%;吉利集团也将全部仿真业务在神龙超级计算集群,过去平均排队2个月的任务,现在平均2周搞定。


为什么用传统云架构不行,换成了神龙云架构就行了呢?


这里中哥多解释一句。


很多传统企业,例如制造业,从90年代就采用了物理机架构,那时候还没有云计算,所以他们自己构建了一套虚拟化架构(很可能选用的是VMware)。


现在传统企业要向上云,就面临两难了:

1、把这套虚拟化架构原封不动地装在云计算本身的虚拟化架构里,就会出现“嵌套虚拟化”的问题,大概就像《盗梦空间》里描述的那样,在一个梦境里又做了一个梦,这样会让虚拟化性能开销飙升,跑起来比拖拉机还慢,完全不能忍

2、就算企业为了上云,下决心重新构建一套适应云计算架构的软件,又会发现上下游供应商他们用的体系还是传统架构,又出现了猪队友接口不兼容的问题。。。

由于神龙云服务器自身的虚拟化动作都被“藏”到了MOC卡里,对于传统企业来说,神龙机和物理机没区别。所以把原来的系统原封搬上来,既不会造成性能损失,又不用面临和上下游接口不符的问题。

云的好处全都有了,过去的不方便又全没了,世界上还有这样的好事儿。很多传统企业纷纷开始大量选购阿里云。

为此,2018年,行癫将阿里巴巴集团唯一一个企业端产品创新突破奖颁给了神龙。


但在阿里云眼中,此时的神龙还未强大到能支撑起所有计算需求。这是为啥呢?

之前我们提到,虚拟化其实分成两个方向:

一个方向是虚拟化组合:把一堆物理机粘成一个大的虚拟机;

一个方向是虚拟化切分:把一个物理机切成一堆小的虚拟机。

刚才为了不打扰你听故事,中哥没有说得很细:作为第一代产品,神龙云服务器用MOC卡实现的硬件虚拟化,其实只能满足第一个方向。

每一个神龙云服务器,就像一块乐高积木,很多乐高积木拼起来组成更大的积木,这没问题,但一个乐高积木本身没办法再切分。

神龙架构的虚拟化组合,大概就是这个样子。

结论很明确:第一代神龙架构其实是缺一条腿的——它只能支撑一半的云计算场景。


如果神龙架构不仅能做到虚拟化组合,还能够做到虚拟化切分,那么它就可以替换掉阿里云现有的所有服务器,实现全部升级了。

这就是神龙2.0的任务。


当时的神龙,已经不是当初一个小团队“自娱自乐”了,它是要支撑阿里云很多业务的。但凡拖延,后果不堪设想。说白了,这次技术升级是干也得干,不干也得干。

神龙2.0交付日期临近,团队手忙脚乱,人手严重不足。


这时,有一个人能紧急调动所有人的资源,那就是阿里云智能基础产品事业部总经理小邪。实际上,在神龙研发早期,小邪就对这个技术寄予厚望。


小邪在阿里巴巴的技术体系里“摸爬滚打”十年,他曾参与集团首次大规模技术改造项目——“五彩石战役”,非常清楚神龙对阿里云乃至整个行业的价值。如果说五彩石打通的是淘宝、天猫的架构和数据,那么神龙统一的则是阿里云的底层基础设施。

小邪在飞天2.0启动会上如是说。


那段时间,小邪在各团队奔走呼号,在他的感召下,无数兄弟部门加入战斗序列,为新一代神龙贡献力量。

正如那句话,如果你知道要去哪里,全世界都会为你让路。


2018年8月份,阿里云终于如约把新一代神龙架构的这套代码完成了——虚拟化层被做薄,损耗率被大幅降低。

这下旭卿“手里有粮,心中不慌”了——凡是能用传统云计算架构实现的,神龙架构都能实现!而这也意味着,云服务器首次实现了整颗CPU用于计算任务,在算力资源紧缺的时代,这一突破极具意义。

在第二代产品成型后,神龙这帮人就奔走呼号,邀请阿里巴巴内部的各个业务团队“吃狗粮”——不仅要多用阿里云,还要认准神龙云服务器作为底层的阿里云。


阿里巴巴内部使用神龙云服务器的云计算,和外部客户买阿里云的流程是一样的,特别简单,只要在网页上点几下,就相当于过去采购了几千台机器搬到机房。


时间来到2018年双11,投入战斗的神龙云服务器已经初具规模,团队再次严阵以待。


虽然对自己的技术有信心,但这毕竟是神龙第一次抵御这么大的流量洪峰,大家心里还是很紧张。


所有人都围在“作战室”,盯着神龙的后台数据。结果,神龙云服务器的CPU占用率非常平稳,几乎是一根直线,像假的一样。据估算,2018年双11当天,大部分云部分峰值流量都是神龙云服务器扛下来的。

不仅如此,在有些业务中,用神龙的虚拟化架构,比直接用物理机还快。虽然这看起来不科学,但其实也在团队的意料之中。


因为阿里云的很多业务是跑在时下正流行的“容器”中,而容器技术有个显著特点:它本身是基于云架构设计的。


所以,本来容器技术跑在云架构里就比物理机里更如鱼得水,加上神龙机本身的计算性能和物理机一样快,整体的性能就超越了物理机。


这一仗打得漂亮。

Copyright © 2017股票入门基础知识财经365版权所有 证券投资咨询许可证号为:ZX0036 ); })();