代码编织梦想

本人在某IC公司,有百台左右服务器,用于跑电路仿真,以前公司配置了lsf,今天刚刚切换到openlava,写了个程序做processer limitation测试,结果中间出了点bug,几秒钟就把公司的openlava搞崩溃了。

具体过程是这样的。本来openlava queue上设置了UJOB_LIMIT为20,需要测试这个,但是后来这个限制被注释掉了,我不知道。我写了个multi-thread的程序B,每次执行程序B会占用5个thread,然后写了个程序A,每次执行程序A会执行20次"bsub B",通过调整A中job的数目和B中thread的数目来观测openlava queue上对job数目和thread数目的限制是否起作用,结果我在A中误将“bsub B”写成了“bsub A”,几秒钟后公司的openlava sever down掉了,down掉之前我瞅了一眼,已经提交了500000+ jobs。

我一琢磨,我干的这个事情恰好和第一代计算机病毒的原理是一样的。

首先本地将任务A提交到openlava上,openlava machine上程序A又将自己本身重新向openlava提交20次,这样程序A以20的几何级数不断提交,在openlava total job number缺乏限制的情况下,程序A短时间内不断提交自身达百万次,openlava severl不堪重负迅速崩溃。

好了,我终于闯了大祸了,几分钟之后公司的engineer开始一批批来抱怨为什么openlava不工作了,我真不知道该说什么好了,感谢领导,帮我隐瞒了事情的真相,告诉他们openlava在做压力测试,稍等。

然后我们开始擦屁股。

首先我及时终止了local机器上的提交任务,然后尝试“bkill -r `ps aux | grep <user_name> | grep <script A>` | awk '{print $1}'”,没有用,openlava sever已经down掉了,没有回应。

然后我们尝试重启openlava sever,但是等待半个小时后,openlava仍然没有回应。

忽然我想到了,上百台openlava machines上还在源源不断地执行程序A,程序A像病毒一样,哪怕openlava重启过来,也会被海量的bsub请求迅速拖垮。(是不是有点像饱和攻击?)

然后我们请求IT帮忙把所有openlava上我的进程都杀死,然后再次重启openlava sever,好歹openlava的命令可执行了,bqueues经过老牛拉破车一般的等待后终于显示出来,还有1000000 PEND jobs。

我还以为重启openlava sever所有的旧任务就丢了呢,好吧,openlava尽管活过来了,但是仍然苟延残喘,我还得想办法杀掉所有的PEND jobs才行,“bkill 0 -u <user_name>”,PEND的job不断被杀死,十几分钟之后,PEND job number减少到900000个,所有的open lava相关指令才开始能够快速反应。

多么惊心动魄的一天... ...

转载于:https://my.oschina.net/liyanqing/blog/890957

openlava一日惊魂_weixin_33928137的博客-爱代码爱编程

2019独角兽企业重金招聘Python工程师标准>>>     我在国内前五的IC公司,平时负责公司openlava的配置管理。     今天早上还没下地铁,接到电话,说公司的openlava挂了,于是一阵小跑赶到公司,开始debug。     发现主要有两个问题。 1. 执行openlava指令频

纪念博客访问破百万!_铁柱同学的博客-爱代码爱编程

      是的,如题所示,博客访问破百了!这是在写博客之初想都不敢想的大事,没想到就在这么一个平平淡淡的日子成功实现,像往常一样平淡的天气和像往常一样平淡的工作。       最刚开始写博客,只是偶然想记录下自己的所得所

第一次建模纪念-爱代码爱编程

知道成绩的第一天 昨天数学建模成绩出来了,拿了个省一 ,说实话,其实看到这个消息的时候内心真的一点波澜都没,但是想想好歹也是个奖是吧 ,应该开心一下下,和爱自己的人分享分享快乐(sharing is happiness)看他们开心,我也跟着开心哈哈~ 还有几个老师还给我发消息表示祝贺 哈哈 这是令我受宠若惊的事,说明老师们有很关心我 啊哈哈,我们的指导老

小米10至尊纪念版对比华为P40 Pro 哪个更值得入手-爱代码爱编程

小米10至尊纪念版搭载一块顶级的OLED屏,还将屏幕刷新率升级为120Hz,触控采样率为240Hz,对比华为P40 Pro的90Hz屏更胜一筹。不仅如此,小米10至尊纪念版的屏幕其实是一块原生10nit屏,比华为P40 Pro的实际显示效果更好。 小米10至尊纪念版更多使用感受和评价:https://www.xiaomi.cn/10 华为P40 Pro更多

红米k30至尊纪念版和荣耀x10max的区别 哪个更值得入手-爱代码爱编程

红米K30至尊版在设计上并没有太大的变化,还是弹出式的升降设计,正面为全面屏。机身背部也还是圆形的四摄组合,但是这次把屏幕升级到了120hz的高刷新率, 红米k30至尊纪念版更多使用感受和评价:https://www.xiaomi.com/k30 荣耀x10max更多使用感受和评价:https://www.huwei.com/10max 荣耀x10max采

红米k30至尊纪念版和华为mate30pro哪个值得买-爱代码爱编程

华为mate30pro:6.53英寸OLED,不支持高刷 红米k30至尊纪念版:6.67英寸,E3材质三星A屏,全面屏,120Hz高刷新率 红米k30至尊纪念版更多使用感受和评价:https://www.xiaomi.com/k30 华为mate30pro更多使用感受和评价:https://www.huawei.com/pingjia/mate30pro

小米10至尊纪念版对比 iQOO5Pro 哪个更值得入手-爱代码爱编程

小米10至尊纪念版正面采用的是一块6.67英寸打孔曲面屏,屏幕支持120Hz刷新率,240Hz触控采样率。同时屏幕支持MEMC动态补偿。屏幕最高亮度为1120nit。电源键音量键放在手机右侧。背面通过打磨,达到与镜面相同的效果。小米10至尊纪念版更多使用感受和评价:https://www.xiaomi.com/10 iQOO5Pro更多使用感受和评价:ht

2020年总结:敏而多思,宁静致远——纪念这风雨兼程的一年-爱代码爱编程

2020年的年终总结,比以往时候来的更早一些。为什么呢?因为10月29日诞生了一个小可爱,我感觉未来几年,甚至是很多年都没有什么比家人和亲情更值得寄托了,因此迫不及待在返校前的深夜写下这篇年终总结,可惜要满月了才写完。 时光嘀嗒嘀嗒的流逝,转眼我已在CSDN写下第八篇年终总结,真是岁月如梭,我也变成了博友口中的“中年大叔”!2013年《一万年太久,只争朝

纪念一位老友,记录一段往事-爱代码爱编程

以前的一个老部下,湖北人,70年的。人很耿直身材不高,跟了我好多年。15年时候生了老二是个儿子,把他高兴坏了,请我们全部门在便宜坊吃了一顿饭。   我说你老来得子,还是个儿子以后有的累了。同年股灾前后的一个晚上,我看他还在工位,问他怎么还不走。他说:“寿哥,咱们吃个饭吧”   饭桌上,他一个劲儿的喝酒,搓手,挺不好意思的。我看出有心事,就让他不妨直

html在一起100天纪念代码-爱代码爱编程

女朋友生日快乐代码—>>>html生日快乐代码 html表白代码大全—>>>html表白代码大全个人主页地址:皮小孩的个人主页 和对象已经在一起一周年了,如何用网页给ta一个爱的惊喜呢,可以使用我这套模板。本文完整项目需要进链接扫码下载—>>>情侣相爱100天纪念模板 里面有详细的使用说明,修改完后直

红米k30至尊纪念版刷鸿蒙系统,红米k30s至尊纪念版MIUI刷机包-爱代码爱编程

红米k30s至尊纪念版MIUI刷机包是一份红米k30s至尊纪念版MIUI最新稳定版官方原版系统卡刷固件下载,前几天切换到手机系统的最新开发版本,使用三天感觉很费电,于是想自己切换回稳定版,接下来就使用这个系统。目前使用感觉很省电,几局刺激战场耗电正常。这个稳定版系统是官网自动推送的。 固件说明 本固件为小米官方提供的红米k30s至尊纪念版官方原版卡