联想超算的三张面孔

联想超算的三张面孔

史中

年,河北涿州,暖风和煦。

阳光从铸铁平推的窗子射进来,屋里不明不暗。

只是这硕大的房间有点怪异。在四周白墙之中,竟然还套着一个玻璃房子。在玻璃房中间,竖立着一台硕大的机柜。

这是一台超级计算机,简称超算。玻璃房的大门上挂着一把锁。锁头的钥匙揣在一个大鼻子蓝眼睛的人口袋里。在玻璃房子旁边,有他单独的一间办公室。

超算的开机密码就在这个美国人脑袋里,但他不会对任何一个黄皮肤的人说。每次中国人想要计算石油勘探数据时,都要请这个美国人打开超算,我们给计算机输入的每一个字节都在他的监督之下。

没错。这台超算是中国辗转从美国进口来的。而由于冷战时期“巴统”的禁运限制,超算绝对不能让中国人用于石油勘探以外的用途,尤其是武器研发。

那一年,中国的人口达到了人。遗憾无数科学家日夜奋战,却尚未打磨出一台能与国际顶尖水平匹敌的探矿、气象、海洋预测亟需的超算。

计算力,是一个民族生存在这个星球上的钢铁武器。

而我们,也曾手无寸铁。

丘吉尔、罗斯福、斯大林

雅尔塔,

(一)

仿佛一个巨人从睡梦中醒来,一团云雾顶天立地。巨大的呼啸追随爆燃的光闪,渴望把戈壁滩上的一切过往都扫荡殆尽。

冲击波把时间永远钉在了年10月16日。原子弹如同塔里木盆地最深处的新生婴儿,那些为它的降生付出半生韶华的科学家们双手挥舞向天,告慰共和国的艰辛岁月。

镜头轻轻摇动,就在“横空出世”之前一个月,一个尚未脱尽稚气的小伙子,眉眼带刀,走进了北大物理系的教室。

他就是祝明发。

彼时的北大物理系,可谓群星闪耀,用祝明发的话说就是“当时全清华都没有北大物理系培养的院士多”。一位年轻的北大学者隐姓埋名冲在前沿武器研究的队伍里。他就是后来人们熟知的氢弹之父,于敏。

于敏和夫人孙玉芹

由于美欧的技术封锁,全中国万平方公里上,性能最好的只有一台在苏联帮助下研制的“每秒万次”的电子管计算机(机)。而且,95%的时间都要分配给原子弹的计算。最初,于敏就是靠这5%的计算力,带着团队人手一把计算尺,废寝忘食地用肉身做计算。

之后他们才慢慢等来了每秒5万次的J机和机,最终在原子弹爆炸后的第三年成功试爆了氢弹。

站在两弹先驱们身侧,祝明发用血肉穿行了这段历史。“计算力”这三个字的沉重,他比别人更刻骨铭心,只恨自己还是个本科生,知识羽翼尚不丰满,只好发奋学习。

而国家命途多舛,年文化大革命爆发,祝明发的学业被延缓,直到年才正式毕业。

延迟毕业丝毫没有浇灭他胸中的报国火焰。祝明发被分配到北大附属的北京电子仪器厂,他负责研究的方向,正是芯片、晶体管和大规模集成电路。

故事由此开始。

祝明发

从上个世纪开始,石油勘探能力就一直是各个国家争夺的技术高峰。而石油勘探需要高强度的计算。为了我们的能源命脉,年,国家交给北京大学一个光荣而艰巨的任务,研制一台每秒百万次的计算机——代号“北大机”。

北京大学、厂(北京有线电厂)、石油部,三家单位总共好几百位工程师,凑在一起干。文化大革命时讲究自力更生,完全不能进口,每个元器件都是中国人自己造出来的。当时世界顶尖水平是每秒千万次,我们的超算能达到百万次,和世界的差距并不如后来的八九十年代大。

祝明发回忆。

他清楚地记得,年,警车开道,十几辆卡车拉着“机”几十个两米高的机柜,浩浩荡荡驶出北京,前往石油部徐水机房。

“当时的道路不够好,汽车开得很慢,就怕颠簸对计算机造成损伤。到了之后,我们花了整整三个月的时间把计算机重新拼好测试完毕。”祝明发说。

摇摇晃晃的卡车开进了历史的深处,直到那场改变中国的春天降临。

(二)

年,在停滞了多年以后,国家恢复了高考和研究生考试。

那一年,全中国录取了大概一万零五百位研究生,祝明发位列其中。他成为了中科院计算所的一名研究生。两年后,他被国家公派出国留学,在美国密西根州立(韦恩)大学拿到了硕士和博士学位,并且进行了两年人工智能的超前沿研究。

七载春秋。年,祝明发回到祖国。

实际上,力邀祝明发这个洋博士回到计算所的,是中国计算机史上传奇的人物——被誉为中国计算机之母的夏培肃。之所以她要找祝明发,也是有原因的。

夏培肃

刚才我不经意提到了祝明发在美国研究的方向——“人工智能”。没错,在历史长河里,人工智能迄今已经历了三起两落,而我们故事行进至此的-年,正是人工智能第二次高潮席卷的时代。

那时的人工智能比现在的人工智能更配得上“智能”二字,因为当时科学家的主要思路比较激进——想要用人工智能实现“超越人”,而不是今天通过数据统计“模仿人”。(当然事实证明那条路尚未走通,此乃后话。)

那个年代霸占报纸头条的新闻,不是三十年后的阿法狗大战李世石,而是日本搞出了“第五代向量机”,除了超强计算力外,还拥有模仿人类神经运作的能力。于此,全世界各个国家展开了计算机方面的“军备竞赛”,那种疯狂并不输如今的人工智能第三次浪潮。

而面对全世界一浪高过一浪的科技竞赛,被冷战遏制多年的中国显得被动。一边工业爆炸式发展,在短时间内极度渴求计算力;另一边自主技术却没办法满足。正是在这种情况下,进口计算机成为了被迫的选择,于是才出现了我在开头描述的一幕,计算机被玻璃房子罩起来。

但这是赤裸裸的屈辱。

四位科学家联合向中央建议实施国家级高科技战略,这就是大名鼎鼎的“计划”。

计划四位倡导者:陈芳允、王淦昌、杨嘉墀、王大珩(这四位的名字如果你不查字典都能念对,还是挺厉害的。)

计划覆盖各大科技领域,而具体到计算机方面,就是“智能计算机项目”,祝明发在这个领域是屈指可数的技术专家,所以他顺理成章地成为核心成员。

夏培肃发现一个重大的问题。如果按照日本的路线走,会成为越来越专用的计算机架构,而她却认为另一条路更有希望,那就是通用架构下的“并行计算”。

如果把专用架构比作一只鹰,那么通用架构并行计算就像一大群麻雀。二者真打起来,孰优孰劣很难判断。

两种技术路线着实进行了一番凶狠的缠斗,结局是:从90年代开始,全球所有高性能计算机几乎全部转向了并行计算。站在后来回望,当时用来决断的机会窗口其实非常短,一步走错,就可能损失十年。

历史奖赏了夏培肃先生的坚定。

年,拥有“并行计算”能力的BJ-01计算系统研发成功,黑暗的铁门被中国科学家撞出一道裂缝,金色的曙光洒进来。

研究成果论文发表

历史的舞台安静非常,一束追光正等来人。

那就是曙光。

这是“计划”寄予厚望的一个项目。一句话说,它的使命就是打碎那个“玻璃房子”。这个明星项目由李国杰院士牵头,祝明发任技术负责人。

当时的科学家们面临一个困境:

中央处理器,也就是CPU,和国际差距过大,在短时间内中国很难自主研发。这是一个残酷的现实。面前有两个选择:1、等待我国CPU技术发展成熟,再来研制中国自己的计算机;2、先购买intelCPU,把计算机整机技术磨练成熟。

爱国情怀让他们想选择第一条路。但科学家必须尊重理性,他们知道,技术如同一辆飞驰的列车,晚一秒上车,都可能被对手拉开巨大的差距。如果此刻赌气等待,很可能未来将一无所有。

科学家们一致同意,先用intelCPU。

并行计算,要求把几百颗CPU像广场舞一样整齐划一地调度起来,这就需要很多举着“小黄旗”的调度员。在机箱里,这个调度员就是“通信芯片”。

通信芯片示意图

(你中哥画了一个小时)

为了研发这个通信芯片,祝明发带着几十位科学家、研究员、博士生夜以继日。

然而,最担心的情况还是发生了。通信芯片研究完成,放到主板上与CPU连接,在这么小的方寸世界里,仍然像有一堵看不见的玻璃墙——信号就是无法传输到CPU。

“不用说,intel的芯片肯定没有问题,问题肯定出在中国人的芯片上。”他们想。但所有的人反反复复检查了三个月,就是找不到问题所在。

最焦灼的时候,祝明发亲自上阵,想了几天,他把同事们都叫在一起,说:根据我的经验,问题不在我们,在于intel,在这个CPU的附属连接芯片上。

大家都张大了嘴。

祝明发让大家试着绕开这个附属连接芯片,敲击回车,奇迹发生了,系统跑通了!

曙光

(三)

荣获国家科技进步一等奖,曙光名声大噪。

中国科大陈国良院士找到祝明发,你这个机器能不能卖给我们做教研用?祝明发说,可以啊,我再给你做一台。机器入驻后,在中国科大机房门口挂了个牌牌:国家高性能计算中心(合肥)。

一发不可收拾,西南交大,复旦大学,华中科技大学纷纷购买这台超算,成为了国家高性能计算中心(成都)(上海)(武汉)。。。

连国际友人都看上了这台机器,在澳门的联合国软件所,喀麦隆雅温得第二大学也强烈要求中国援助他们一台。。。

祝明发考虑到友邦山高水长,这机器全是特制硬件,坏了也不好修啊。于是他思考良久,决定用一套更通用的国际芯片,做成了曙光A送给了他们。

当时我的同事们跟去喀麦隆调试机器,培训他们的人员,连机房的桌椅板凳都是一起援助过去的。同事回来跟我说,那边的蚊子个个有大拇指那么大。。。

祝明发回忆峥嵘岁月,笑了。

雅温得第二大学

没想到,为非洲兄弟做的这个无心插柳的改进,却大大提高了工程化程度,成本大幅降低、生产更加容易、使用起来也非常方便。

年9月,辽河油田负责采购的同事找到计算所,有意向购买一台和非洲兄弟一样的超算。

祝明发听到这个消息,心中波涛翻涌。他仿佛看到时代在宣布,中国人用玻璃房子里的外国计算机寻找石油的日子,终于走到了终点。站在此刻,已经没人能阻挡中国计算机技术的前进浪潮。

历史证明,这一幕还有更深远的意义:中科院自主研发的超算终于走出了自己的科研圈子,在残酷的市场竞争中拼命扎下根。

辽河油田

三年时间,技术持续改进,在祝明发手上陆续卖出四十台超算,进入了气象、海洋、地质等各个领域,逐渐替代进口超算,支撑起了国计民生的各个领域。在同等的性能下,我国自主研发的超算价格是进口的一半,秒杀敌手,风光一时无两。

年,中国入世。市场经济成为了每个人呼吸的空气。

祝明发手握下一代计算机的技术路线,心里却在艰难抉择:如果继续做大商业化,一定会涉及到工程化、标准化的生产,在中科院计算所的体系内继续耕耘,恐怕不如在一家企业更适合。

但是,把这么精密庞大的超算技术工程化,可不是哪家企业都能接得住的。他举目四顾,有一家公司再合适不过了。不是外人,正是同样生长于中科院计算所这片热土的联想。

彼时的联想,刚刚从对抗八国联军的“微机之战”的尸山血海里爬出来,坐上个人计算机民族品牌第一把交椅。年,联想拍拍身上的灰尘,进军服务器领域。

祝明发找到时任计算所所长兼联想董事长,曾经给20万让柳传志创业的曾茂朝:“我想带队到联想继续做超算,你看如何?”曾茂朝很爽快:“我欢迎你!”他找到杨元庆布置此事,很快,祝明发团队正式进入联想,组件高性能服务器事业部。

当时的祝明发

(四)

跟随祝明发加入联想的十人队伍中,有一个沉默寡言却神情坚定的技术悍将,他就是肖利民。

肖利民出生在江西赣州。直到考上大学之前,他只见过电脑一面。那是在中学兴趣班的窗口,他向里张望:

敲一下键盘,就跳出来很多图表和曲线,非常神奇。而且那时候觉得,做计算机多好啊,每天都能坐在空调屋里!

他说。

就凭着这一秒钟的记忆,高考填志愿时,他写下了清华大学计算机系。

年,他大学毕业。恨不得上百家单位争着邀请肖利民加入,他自己反倒迷茫了。最后他决定:以静制动,继续深造。当时他可以选择被保送到两个地方,中科院软件所和中科院计算所。

“要是搞了软件,那硬件怎么办?所以我选了自己当时认为软硬件都有的计算所。”肖利民笑。

肖利民

到了计算所,需要选一位导师。看着这几位导师的名字,肖利民又犯愁了——都不认识啊。于是,他像掷骰子一样随便选了一位。你可能猜到了,这位导师就是祝明发。

那时候,祝明发正带领技术团队攻关曙光,最后整机成型时,通信软件已经有些落后,改进通信软件的任务,就落在了研究生小肖身上。没想到他完成得非常出色。

虽然很年轻,但肖利民展现出了耀眼的技术光芒。跟随着后几代超算的研发,他逐渐成为技术核心骨干。而加入联想之后,肖利民更是直接扛起了联想高性能计算研发团队负责人的职责。

从科研院所到企业,肖利民发现眼前的世界简直“换了人间”。

原来在计算所,做项目只需要满足一个指标:技术的创新性。现在在联想,做项目至少要满足三个目标:1、技术的创新;2、合理的工业设计;3、卖得出去(性价比)。

先说技术。

简单理解,当时超级计算机在国际上有两条路线:MPP和Beowulf。(后者俗称自攒机群)

打个有趣的比方:

MPP就像是一窝蜜蜂。每个蜜蜂都有各自分工,连生理结构都不同,如果离开集体就没办法生存。MPP架构的超算,每台服务器单独拿出来都没办法工作。Beowulf就像是一群人。每个人都是一个完整的单元,离开集体也能生活。Beowulf架构的超算,每台服务器单独拿出来,都是一台小超算。

估计你也能猜到,“蜜蜂型”的MPP超算,资源利用效率会比“人型”的Beowulf高出一大截。况且当时Beowulf架构的论文刚出来,稳定性、软件兼容性都很弱鸡。

于是国内外很多专家都在怀疑:Beowulf做超算,可能是一条死路。

但祝明发不信邪。“未来对计算的需求越来越大,计算的技术一定是越来越通用,不可能越来越专用。”他咬定。

肖利民和他的老师看法出奇一致。于是,那一年整个团队人几乎全部铺在新生的Beowulf集群架构上。

Beowulf集群

再说工程设计。

当时的大规模超算系统,光服务器节点就有个。仅仅通电这一个简单动作,都要仔细设计。因为如果一拉闸,台服务器同时上电,瞬间电流非常大,总闸一定会被烧毁。

过去在计算所,肖利民他们的解决方式是——手动给一台台机柜分批上电。现在你做的可是产品,你再让客户也雇个人,每天专门负责拉闸,这就很可笑了。万一他不懂这背后的原理,再把电拉错了。。。

这事儿必须要在联想的产品里解决。肖利民专门招来了供电专业的博士专家,带队研究电路控制系统。

这还不算,台服务器节点,上面的系统难道要人手动去安装次吗?把工程师累吐血不说,关键是人手动安装,配置总会有些许的不同,这导致每台机器“千机千面”,调度起来容易玩脱。。。

所以,肖利民又专门安排团队,开发了为所有服务器自动安装系统的软件工具。

像这样的工程细节数不胜数。所幸,联想工程化部门做PC的时候之前已经踩过十几年的坑,这些丰富的经验都可以给肖利民参考,此事不在话下。

这是年联想在合肥的联宝工厂

当时应该还没这么先进

再说“有谁买”。

年春节之后。祝明发打听到中科院数学院数学所需要买一台大机器。他赶紧跑去和负责人也是老朋友张林波教授说,我们联想也参与投标,行不行?

张林波教授知道联想公司以前没做过超算,但是眼前这个人,可是多年的老朋友了,他的团队在中科院计算所做出的东西是什么水平,张教授心里非常清楚。

于是联想顺利入围招标。

数学所的经费有限,对于机器的要求是个节点,峰值性能每秒亿次。

面对这第一个大单,彼时的联想内部发生了一个有趣的事情:

本来,新业务成立,按照惯例公司是要拨一笔广告费的。但是祝明发在一次讨论会上提出,高性能计算,做广告怕是效果有限,不如我们把广告费的钱给贴到产品里。他要节点的,我们给他节点,他要亿次,咱们给他弄个一万亿次,搞个大新闻!

改变资金用途,还是个挺严肃的事情。当时这一纸请示已经到了杨元庆。杨元庆听完团队的计划,说:“就这么干!”

那次招标,各大顶尖中国公司都来了,国外的顶尖公司IBM、SUN、SGI也都来了。

各家公司讲标书的过程很逗。

有的公司方案“中规中矩”:按照你的预算,我给你做节点亿次的机器;有的外企方案“高高在上”:节点,亿次这都没问题,但价钱得涨50%;结果联想上台一讲就“跪了”:我给你节点,一万亿次的性能!加量不加价!

旁边几位投标的都惊了,像看疯子一样盯着联想的人。

“你们这么干,不赔钱吗?”对手问。“我们愿意!”联想的人回答。

拿下标之后,压力瞬间到了肖利民的研发团队身上,他们开始没日没夜挑灯夜战。

掰掰手指头也能知道,节点数量翻一倍,性能最多翻到将近亿次,达不到万亿次啊。。。于是团队又换成了当时intel刚出的新一代的CPU,性能到了亿次。最后差一点,只能从软件上优化。

团队甚至把intel的优化专家都从美国请来指导,结果他只把性能往上拱了一点。肖利民见状,赶紧把专家送回美国,还是拉着队伍自己上。就这样拼了命,终于把这台机器的稳定在了实际性能1万亿次,峰值性能2万亿次。

这就是联想第一代超级计算机——深腾。

当时一位研发工程师小姐姐站在深腾前留影

中国人第一次做出每秒1万亿次的超级计算机,史册留名。(当年全球最快超算是NEC的地球模拟器,每秒35.86万亿次运算。)

中科院数学所,稀里糊涂地捡了个大便宜。。。

说得这么热闹,其实从年4月中标,到7月交货,联想高性能计算团队干了这么多活只用了3个月时间。8月,联想在总部东侧大楼召开新闻发布会,宣布自己刚刚造出了中国第一台万亿次计算机,所有记者都热血沸腾,但业界同行却冷眼相对。

“一个做微机的,能做这么高科技的东西?是不是假的啊!”有人嘀咕。

好在有人说公道话。不久,全国专家对项目进行了成果鉴定。无论怎么测,万亿次性能都是实打实。又有业内对手诋毁说,深腾是外国人帮忙造的。

祝明发气得大发雷霆,指着自己团队的一张张面孔质问对方:你说,我们这里哪一个像外国人!

年11月,在全球最权威的超算Top排名中,深腾代表中国人,历史上第一次杀进排行榜,并且占据了第43名的高位。关键在于,深腾是用集群架构做到的这个性能,而其他排名更前的,99%都是采用MPP那种传统专有架构做的。(只有排名24位的海德堡大学超算是采用集群架构,但它是一个研究型计算机,不是商品机。)

那一年,高性能计算并行环境的发明人,超级计算机界公认的泰斗BillCrops来北京参加世界数学大会,祝明发特意拉他过来参观深腾,他看得眼里放光,走之前在留言簿上写下一句话:

Weseethefutureofcluster


转载请注明:http://www.180woai.com/afhzz/1264.html


冀ICP备2021022604号-10

当前时间: