“5、4、3、2、1”伴随着央视春晚的经典倒数读秒,除夕钟声如约而至,礼花满天新年新气象。对比此时满眼的热闹祥和,亦庄京东总部大厦以及各地数据中心中,数千名技术专家正寸步不离紧盯数据大屏,等待最后一波红包互动的流量冲击。00:23,红包雨夹杂在新年的欢声笑语中洋洋洒洒,作战室内一片欢呼沸腾,“成了!扛住啦!”为这场完美的“红包盛宴”画上圆满句号。
270分钟春晚全球直播, 7轮口播引领不间断流量洪峰,这次春晚红包互动绝对震撼:全球华人参与京东APP红包累计互动量达691亿次;秒级调度近300万个容器、超1000万核算力资源,以超高弹性成功登顶云计算领域的“珠穆朗玛峰”。京东智能客服言犀累计咨询服务量达5.5亿次。
时间回溯、加速流转,定格在1月5日,那是中央广播电视总台宣布京东成为2022年春晚独家互动合作伙伴的日子,京东为全国人民在虎年春节送出的一份份诚挚佳礼。但对于京东广大的技术人员,1月5日却是春晚红包筹备战正式拉开了序幕。
辞旧迎新的除夕不眠之夜,电视机前红包飞扬,而电视之外的京东则是灯火通明,万人协同好礼相送,想问那些彻夜不眠发红包的人,有何感想?
掌控流量“密码”!的@系统运维工程师陈荣
作为春晚互动筹备组内肩负各业务域名解析调度以及流量分配工作的陈荣,同很多同事一样,是第一次参加春晚这么大而重要的项目。为了能够确保每位用户都能顺利接入京东APP且数据流通有序,大家的备战过程都是压力山大。 “以前确实没有见识过这么大的访问请求量,数量级一上来,如果资源分配不合理,在流量洪峰时绝对是拥挤不堪的。”
俗话说扛住洪峰就要加设备扩资源,但盲目的“头疼医头、脚疼医脚”显然达不到最佳的效果。“我们需要根据每个业务模块的情况进行合理的流量调度,并根据动态变化来不断调整……”
陈荣这样类比:“大家可以想象高速公路,日常情况下车流路况都算良好,但在春运这样级别的海量车况下,那一定会出现大塞车,而我们所做的就是预判路况和车况,指引车流通过不同的道路出城,避免拥堵。”所以为了更好做到资源分配以及敏捷响应,备战团队根据目前所掌握的数据,分析预判了大流量可能出现的环节,并同时做好对应的资源部署与调整;此外还率先预判了流量流转的路径,提前做好把控和引导;绘制了“流量地图”来提前预判地域流量差异,确保“有限的资源用在刀刃上”,将“人算”做到最佳,才能更好扛住“天算”的考验。
“以前的大年三十,我同家人一起看春晚;今年的大年三十,我要“站岗”为全国人民春晚红包互动做保障。对于小家庭有些小遗憾,但特别有成就感,一个字:爽!”陈荣发自内心的说。“春晚这个项目让我们有作战的感觉,真的是成百上千的同事们一起竭尽全力做好这件事儿,那感觉很震撼。你会看到每一个人都在不断查找问题并解决问题,履行自己的责任,特别有凝聚力!”
只要“剧本”不要“杀”的@产品经理郑犇犇
产品经理郑犇犇,在这次项目中担负了一个十分重要的工作,用他的话说“创新性十足,绝对载入史册”的那种,即筹备京东APP的链路备战方案。简单来说就是需要对整条链路进行详尽的梳理:哪个环节遇到怎样的异常该如何处理、哪些地方需要改动到什么程度才能应对挑战……总而言之就是形成一套完备并准确的“剧本”,在各种纷繁复杂的情况下让核心链路的资源得到优先级的保障。
要说“剧本”这个梗,可有意思!这算是京东这次整体备战得出的创新杀手锏,是一种异常演练的预案。郑犇犇这样介绍春晚项目的备战“剧本”: “你玩过剧本杀么?剧本杀的精髓就是不放过任何一种可能性,经过数轮搜证、层层抽丝剥茧,最终还原真相。这次春晚我负责的“剧本”也是要充分考虑各种不确定因素、甚至各种极端情况,从而保障春晚项目的顺利进行,因为搞不清楚什么情况下,可能就有个突发情况影响了了用户体验。”
“准备剧本的过程挺难的!因为是从零开始,很多环节在之前的大规模场景中并不突出,但在这个项目里却变成了‘C位出道’,所以整体的方案前后做了四版,最忙的时候连续几天工作到夜里两三点。虽然最终很多预先准备的预案操作都没有用上,但确保万无一失是必须的、很重要的!” 郑犇犇自豪地表示:“往年的春晚我只是一个观众,而今年我成为了一个“参与者”,很有使命感。”
用春晚红包与父母“异地交互同过年”@系统运维工程师胡柳
“家中父母年纪大了,提出今年除夕不回家过年的时候,他们还是那句话:没关系,家里都挺好,不用惦记。但我知道他们心里十分牵挂我,以往每每在电视上看到关于京东的消息,他们都会跟我谈起。”胡柳谈起今年不能回家过年的时候眼眶还是红了。“但参加这么有纪念意义的活动,想到背后的每一次点击、每一次流畅的用户体验,也有自己贡献的一份力量,就觉得又激动,又紧张,又自豪。我想今年春晚爸妈坐在电视机前一定也能感受到我和他们同过年!”
胡柳是“巾帼不让须眉”的女工程师,在这次春晚互动备战团队中格外亮眼,当然这也与她肩负的工作有关:负责运维相关的保障工作,可以等同于极限挑战。“接到保障任务的第一天,第一轮全链路压测就已经开始了。为了更好支持项目,我们重大的压测就做了七轮之多。每一次,通过京东云全链路监控系统去排查瓶颈点,与业务协同随时发现马上优化解决;尤其是系统调用资源的消耗情况,包括应用负载、数据访问、网络消耗等,都要针对性做到极致优化,试图挑战整个系统能达到的极限。”胡柳总结道。
春晚项目与以往大促的流量模型完全不同,既要参考以往的备战经验,又要摒弃之前的思维定式,不到一个月的备战时间内,业务需求也在不断变化带来的挑战很大,可以说这次是从过去粗放拼凑资源满足复杂需求,过渡到了提升系统架构的高效敏捷能力来应对挑战,尤其是锻造大规模场景极端并发下的能力。
视春晚项目为生日礼物的@内容与创新研发部华晓春
“今年是虎年,也是我的本命年,这样一个特殊的时间点能和团队奋战在春晚红包互动保障的一线,对我来说是有非常意义的生日礼物。”华晓春团队可以说是第一时间触及到用户体验的模块——人证核验和证件OCR(文字识别)。“春晚红包互动过程中肯定会出现很多参与其中的新用户,实名认证、绑定银行卡等人证核验以及证件OCR(文字识别)这两块工作就特别关键,安全又快捷是大家都希望的。”华晓春说。但在流量洪峰的波及下,这块工作的备战也是意外频发。“有一次,扩容刚刚完成,突然又有新的流量加入进来;再次扩容肯定来不及,怎么办?抓紧时间沟通、协调、解决问题……最后经过几轮深入的讨论,可行的降级方案产生了。”
华晓春解释春晚项目的难点:春晚红包互动对京东云来说是第一次,它的业务逻辑是全新的,和京东618、京东11.11不同,注定有新的系统要开发上线,并支持高并发量。这些新的系统在高并发情况下,资源使用情况并没有历史数据参考,资源很难预测,资源调度相当于摸着石头过河。据悉,京东的备战团队早早就预想并制定了分级标准来完成资源的动态调整与更新,这样一来就可确保在互动过程中高优先级的应用系统尽量多得到资源使用机会,做到“更少资源办大事儿”。
“其实技术人都想通过经历大项目的挑战来磨炼自己,我也是!春晚这个机会真的是期待已久,如今到了,特别兴奋。想着第一次独立支持春晚红包互动这么个大项目,一定要打个漂亮仗!” 华晓春分享了他和儿子的关于春晚的小故事“我儿子刚上小学,我也会跟他沟通,我说今年爸爸不能在家陪你一块儿过年,因为爸爸有一个非常难得的机会去为春晚项目做一个重点支持。他可能不一定明白我说的具体工作,但他知道这件事很重要。有一天我们压测到很晚,早上才回到家,他那天正好起得比较早,他看到我,给了我一个拥抱。”
不管是细微之处见工夫的华晓春,还是与父母异地过春节的女工程师胡柳,都是京东技术人员的一个代表。京东第一次春晚亮相,有超3000名技术人员参与了该项目的技术攻关与保障工作,仅仅除夕当天就有将近2000人参与一线值守的技术保障,共计超万名技术人员共同协同作战。2022年春晚互动活动,不仅是近年来最大观众参与量的春晚项目,更是最具挑战性的技术领域“珠穆朗玛峰”。在史上最短的19天备战时间里,京东技术人员终于打赢了有史以来最具挑战、也是最漂亮的一仗!