员工园地

公司超算团队赴香港浸会大学访学交流

发布日期:2018-09-06 发表者:陈治国 浏览次数:




8月19日至2018年8月25日,公司派出ASC18参赛队员(计科1501周恒、计科1504陈凯、计科1504张港、生信1601赵超、计科1702方兆林)一行5人前往香港浸会大学进行为期7天的访学交流。


在ASC世界老员工超级计算机竞赛中,香港浸会大学代表队可谓是传统强队,在以往的ASC超算竞赛中曾获得优异成绩: ASC18二十强(第16名)、ASC17八强(第8名)、ASC16十六强和ASC16最受欢迎团队奖。在刚刚过去不久的ASC18竞赛中,公司代表队与香港浸会大学代表队互帮互助,结下了深厚友谊。为加强两校交流合作,进一步提升太阳集团成超算队员的综合水平,香港浸会大学褚晓文教授特邀公司超算团队赴港学习交流。


8月20日,队员们来到香港浸会大学,刘成健博士和施少怀博士热情接待了队员,并带领大家参观了香港浸会大学计算机系。香港浸会大学的计算机系比较小,只有两层楼,但“麻雀虽小,五脏俱全”,员工机房、实验室机房、教师办公室、实验室都有。总共设有4个实验室,计算智能实验室,数据库与信息管理实验室,计算机网络实验室以及模式识别与机器学习实验室。随后,刘博士和施博士还带领队员参观了香港浸会大学校园,参观同时,也为队员介绍了香港当地的风土人情以及香港浸会大学校园生活。下午,施博士向队员介绍所在实验室研究情况,实验室目前有3名博士研究生,主要研究领域为深度学习框架的性能优化。施博士说,目前深度学习框架优化的方向有优化器优化即Optimization问题,常见的优化器有SGD、Adam等,不同优化器有不同优化算法,其收敛效果是不一样的,此外深度学习框架底层的通信问题也是限制大规模并行的一个问题,即多几多卡的扩展性差。


随后施博士向队员介绍了实验室团队和腾讯机智团队最新研究成果——在ImageNet数据集上使用4分钟训练好AlexNet。目前机器学习领域的模型训练存在许多问题:数据量大、计算模型复杂、参数量大、超参数可调范围大,这些问题给训练速度带来巨大挑战。为了利用大规模集群来加速训练,不断提高batch size大小,但也造成精度下降。为解决这些问题,其团队和腾讯机智团队引入了层次自适应速率缩放(LARS)算法,不同的层使用不同学习率。但直接应用LARS算法在半精度上会造成精度丢失,为此又提出混合精度训练方法以解决该问题,即半精度训练,单精度LARS优化。此外他们还对模型和参数做了改进,比如只对Weights进行正则化。队员们对褚教授团队和腾讯机智团队取得的成果表示祝贺,并对某些技术细节展开探讨。


听了施博士的介绍,队员们对其取得的成果非常的感叹。队长周恒表示,虽然作为本科生的我对其中的研究细节还不是很懂,但这其中的科研探索精神值得学习。我们平时敲代码,不仅要实现功能,还要思考能不能写得更好?以更短的时间运行完毕?此外,遇到问题,应该怀着一颗探索的心,去寻找到底什么原因导致了这个问题,找到问题根源后,对症下药,解决问题。并且还要保持着一颗永不服输的精神,去钻研问题,因为解决问题的道路往往不会一帆风顺。


接下来,施博士给队员们进行简单培训,主要针对2个方向,第一是PyTorch深度学习入门,第二是CUDA并行编程。这对于队员们来说非常有用,弥补了学校相关课程的缺失。队员们根据自己的兴趣爱好,选择自己喜欢的课程学习,遇到不懂的问题,队员们踊跃讨论,现场气氛活跃。


队员们表示,这次赴香港浸会大学交流活动,使得公司超算俱乐部队员能有机会和香港浸会大学的员工进行交流学习,拓展了大家的视野,增强对超算研究领域的热情,使队员们大力提升了发现问题和解决问题的能力,进一步提高公司超算俱乐部队员的科研能力。