查看原文
其他

为什么我们的云老是故障

非法加冯 2024-04-23

Editor's Note

吕大师同样认为云是DC级OS,而现在公有云在OS上没有基础技术突破,只是攒出来的东西。我表示赞同,K8S作为开源的云操作系统的内核,更配称得上一个OS(Kernel)

The following article is from IT知识刺客 Author vage_lv

去年双11后第二天(1112号),阿里云大面积事故。我写了一篇文章,探讨其背后的原因。今年腾讯云事故,如出一辙,不写一篇文章讨论下,有厚此溥彼之闲。

这是我去年写的一句话:“我懒的去猜事故真正原因,而且,root cause的追索,并不是一件容易的事。真正的“起因”,有时也调查不出来,只是有一个看起来还行的“说法”而已。“

这句话,放之如今不需改一个字。

很多人只把眼晴订在眼前的事故上,讨论当下事故的原因。且不论是否能讨论的清。其实,公有云,不只有眼前的事故,还有多年前的诗和架构。

如今的事故,不过是多年前路线、方向错误,开花结果而已。

如今的局面,其本质是日益增长的复杂性,和落后的生产力之间的矛盾,这将是社会主义初级阶段中国式云计算的主要矛盾。

要从两个方面理解这个矛盾,一是复杂性,另一个是生产力的落后。

生产力的落后,其实指对云技术缺乏掌控。

出现这种情况的原因,是对“云“没有一个正确的认知与定位。

“云”是什么?我们从云的来源开始,简单的聊两句。

云计算的理论基础,起始自1950年代,出始自Artificial IntelligenceAI)概念的提出者、世界公认的人工智能之父,约翰·麦卡锡(John McCarthy)教授。

麦卡锡教授于1971年获得了图灵奖(AI方向),是AI方向著名的先驱之一。

AI的先驱,为什么会提出云计算呢?

很简单,不同于现在纯AI方向的技术人员,虽是研究AI的,但麦卡锡教授的知识体系非常全面。除去AI外,他对计算机体系从硬到软,都十分的了解。他创造了Lisp语言,提出了“分时“系统(可以认为是分时操作系统)。正是这个”分时“系统,可以看作是云计算的起点。

AI领域很多人都意识到,AI对于算力的需求将越来越大。麦卡锡教授很早就在思考一个问题:要如何的使用算力。说简单点,就是要如何使用一台或多台计算机。

麦卡锡教授的知识边界十分宽广,并能在自己的知道边界内,完成各项知识的融合。融合的结果,就是在1961年,麦卡锡教授提出那个穿越时空的概念:Utility Computing(公共计算服务)。

公共计算,这个概念,在之后几十年里,都因技术发展尚不成熟,只是停留在理论、概念阶段。直到2006年,由Google提出了云计算,Utility Computing,才最终变身为Clould  Computing

这里面有个重点,“分时”系统,它是麦卡锡教授公共计算服务的起点,也是“云”技术的起点。

看到这个“分时系统”这四个字,我首先联想到的,就是当年学习Unix时,教材上的一句话:Unix是分时复用操作系统。

对,其实云,也本应是一个操作系统,一个跨多台主机的操作系统,整合多台主机的各种资源(存储资源、网络资源、计算资源等),对外提供类似分时复用功能的OS

简单点说,云是一个更加复杂的、管理多台主机资源的OS。要开发自己的“云”,要用开发OS的思想去实现它。

但如今,因为有Linux这个单机OS,有各种五花八门的软件,自己手动攒一个“云”,也不是什么太难的事。

攒的时候,五花八门的软件一多,复杂性不就上去了吗。有谁能掌控这个复杂性吗?没有。管理云的方式仍然落后,这就是前文所说的“落后的生产力”。而云事故频发,其根本就是“日益增长的复杂性,和落后的生产力之间的矛盾”。

我们的云,特别是公有云,没有在基础技术上的突破,都是在使用模式上的创新。类似共享单车这种号称“新四大发明”的创新方式。

共享单车也挺好的,我一直买的有哈啰单车的会员。共享单车的确在自行车使用方式上,有很大的创新。

本来我们要使用网络资源,要到电信机房自己去买个机位,自己上架台服务器,自己去管理这台服务器。电信机房的托管服务,可以帮我们进行初步的管理,但管理方式比较初级。

公有云更进一步,不再以机位、服务器为单位,而以“服务”为单位,将多台主机资源整合,对外提供各种服务。这是很好的,说是一种革命,也不为过。这里面会产生非常多革新式技术,但是,目前看来,我们还只停留在“攒”,别说突破技术,连“把控”,都做的一般般。

这是云事故频发的真正原因。开源软件(如Linux)让云变的简单,但复杂度失控,又没有能力把控复杂度。

就像小孩子手拿一把真枪(开源软件就是枪,小孩子掌控不了其复杂性),也不会小孩子一碰到枪就出人命,但出人命是迟早的事。

说到底,公有云只是长尾理论的实践之一,使用公有云的,都是小微企业,或部分中型企业。当一会,真没啥大不了的。让我们的云更加前进的驱动力,其实是不足的,所以,未来也不必期望我们在云上能够如何。



继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存