【中国经济网】华东理工团队成功卫冕“百度大数据”竞赛

13.11.2015  11:04

中国经济网上海 11 10 日讯(记者李治国) 华东理工大学计算机系“自然语言处理与大数据挖掘”研究室应邀参加了百度与西安交通大学联合主办的大数据竞赛颁奖典礼。本次赛事吸引了全国数十所一流大学的近900位选手组队参赛。经过5个月的激烈比拼,最终,来自华东理工大学计算机系“自然语言处理与大数据挖掘”研究室的方之家、李一斌、王祺和赵亮四位同学,在王昊奋老师的指导下,凭借对训练集的细致观察,清晰的代码逻辑以及合理、高效的模型算法,自去年荣获第一名后,力压群雄,成功卫冕,获得本次大赛的第一名。

本次大数据竞赛中,百度提供了同行业竞赛中最大数据集,10亿量级原始数据不仅是对选手们能力的挑战,同时也对他们提出了更高要求。本次竞赛题目用大数据作为依托,以“根据任意给定的人物(实体),自动构建该实体的关系网络”为考题,要求选手在涉及到50个核心人物相关信息和网页数据集合中建立一套数据分析模型,编织每个人之间的关系图谱。

学校助力,提供硬件与软件双重支持

此次竞赛的成功卫冕,相比于其他学校,来自华理“自然语言处理与大数据挖掘”研究室的团队具有硬件设备和软件支持上的双重优势。比赛的主题是“大数据和知识图谱”,在此之前,团队所在的实验室专注于此领域的研究已经超过5年的时间,对领域的现状把握以及进展有着较为深入的了解,同时在这方面已经积累了很多相关算法和经验。指导教师王昊奋,在国内外的“知识图谱”领域享有盛誉,特别在语义技术和图数据管理方面有着较为深厚的造诣,曾带领团队在该领域多次斩获国内外奖项。团队负责人方之家同学曾作为新人参加去年的比赛,取得第一名优异成绩的同时,得到了充分的锻炼,将相关的经验传授给今年新参赛的同学。“以老带新”的优良传统,也是比赛成绩可以保证的原因之一。

学校特别是学院为团队的科研提供了肥沃的土壤。研究室里配有用于大数据分析和处理的大规模服务器集群,保证团队可以利用强大的计算资源来完成高效的并行算法设计和执行,提供了很大的便利,为团队在竞赛起始阶段,利用哈希算法对训练文本进行压缩的环节上,节省了大量时间。同时,学院里切换校园网络时间的延缓,也为团队顺利完成竞赛提供了很大的便利与支持。

细节决定成败,兴趣是最好的老师

团队共有四个人,其中两人研一,两人大四。从最初的数据训练到数据测试,再到最后的作品评选、排名,比赛历时近五个月的时间。在这段时间里,团队四个人在默契协作的同时,也彼此学习,相互成长着:研一的两位同学知识积累相对多一些,会在技术上多出一些力;两位大四的同学思路灵活,提出很多新的想法。在得出实验现象、数据的基础上,王昊奋老师会给予团队理论上的支持。参赛期间,每周一次的例会时间,是数据分析、查缺补漏的过程。此外,实验室其他团队无私的帮助以及提供相关领域论文的支持,也为他们节约了很大的学习成本。

四位同学的普遍特点是:代码能力强,自学能力强,且对数据挖掘有浓厚兴趣,肯吃苦。王昊奋老师说,“他们以编程为乐趣,代码质量和细节处理的也比较好。当然仅仅有这一点是不够的,由于本科课程并没有教授太多关于数据挖掘以及比赛相关的知识,所以这些内容需要同学们现学现用,大家往往需要在2-3天内就迅速学会一个新的算法,从原理到实现,并去做相关的算法效果实验,这对同学们提出了很高的要求,尤其是很多资料还都是英语的。所以自学能力结合吃苦耐劳的精神也是成功的关键。”同时,兴趣是最好的老师,团队中的四位成员私下里很乐于自己钻研,围着老师问问题。

王昊奋对于团队所作出的努力,给予了很大的肯定,“相比其他团队,我们对数据的分析更加细致,从预处理的去重过滤,特征提取,到学习算法的设计,参数调优等,都以比较严格的流程来完成,并从中发现了不少有研究价值的点,并逐一解决。所以说,细节决定了成败,有太多看似很小的点对最后的结果影响还是很大的。”方之家同学补充到,“赛后我们仔细分析了其他团队的算法,觉得自己的优势是对数据的敏感度很高。构建图谱的时候我们想的很细致,如何筛选图谱网络中的实体,以及每个实体位于图谱的哪一层都经过了大量的实验分析。这与我们团队默契的协作是分不开的。

校企联合,为理论知识提供练兵场所

近年来,一些企业与高校之间学科性赛事的举办,在为企业提供了大量人才和新的发展机遇的同时,也让广大高校学子受益。王昊奋老师认为,“高校是授予学生知识的场所。作为以理工科见长的学校,华理对学生解决实际复杂问题的能力一起非常看重。这些学科类竞赛提供了一个练兵的场所,可以在很大程度上激发同学们学习计算机专业技能的兴趣。”企业组织的比赛,在为获奖者提供丰厚奖金的同时,实习的offer和工作机会,对毕业生的就业也起到了很大的促进作用。

竞赛使得学生在书本上学到的理论知识有了实践的用武之地。“课本上的理论知识经典而又浅显,帮助我们构建了一个学习的框架。在瞬息万变的信息化时代,知识的换代更新速度是很快的,参加这样一些比赛,会让我们去接触很多领域内新的知识,同时又提供更多实践的机会。”方之家同学如是说。

在颁奖典礼上,百度副总裁朱光表示,“这次大赛获得一等奖团队的算法已经可以媲美我们技术专家的算法,百度要把这样优秀的算法运用到真正的技术产品中去。”竞赛评委、百度知识图谱产品数据建设负责人牛正雨对本届大赛第一名获奖团队也给予了高度的评价:“他们的数据分析系统对训练集观察细致,代码逻辑清晰,设计合理。”同时,他还从技术层面做出了解读“第一名团队算法利用哈希算法对原始语料进行了压缩,并且扩充了知识库中的事实三元组,尝试对无关系实体进行过滤,以及采用半监督方法预测实体级别的关系三元组,取得了比较好的效果。

提及团队未来的发展规划,王昊奋老师指出,“我们将继续努力,在知识图谱方面做大做深,成为国际领先的科研实验室,将已有的成果逐步完善形成具有自主知识产权的平台化产品,并最终开放给大家使用。同时也将继续吸引和指导学生参加高水平的专业比赛,在产学研转换和学生培养方面多做努力。



    原文来源: 中国经济网   |  发表时间:2015-11-10   |  作者:李治国
    原文链接: http://edu.ce.cn/xw/201511/10/t20151110_3074044.shtml