产学研携手推动智能交互发展
产学研携手推动智能交互发展
把一张表格的信息转化为机器语言、从股票周涨幅表预测某只股票未来的走势……10月12日,由追一科技主办、南京大学计算机软件新技术国家重点实验室协办的“首届中文NL2SQL挑战赛”总决赛答辩暨颁奖典礼在南京大学举行。各支团队提交的参赛成果,赢得了评委和观众的一致好评。
NL2SQL(自然语言转结构化查询语句)作为新兴的研究领域,在国外由SalesForce耶鲁大学等发布了WikiSQL和Spider数据集,但在国内市场,目前还处于起步阶段。
首届中文NL2SQL挑战赛筹备8个月,初、复赛鏖战3个月,共有千支队伍角逐。最终来自国防科技大学的选手团队夺得冠军,国双科技选手团队获得亚军,观安信息与妙盈科技选手联合团队获得季军,来自华南理工大学与佛罗里达大学的选手队伍和浙江大学的团队获得优胜奖。
“直接用自然语言访问关系型数据库一直是业界梦想。”复旦大学教授肖仰华表示,此次大赛的成果,将加速NL2SQL的研究和应用。
中文数据集成绩比肩国外水平
据悉,此次NL2SQL挑战赛是国内首次举办。主办方在大赛期间发布了业内首个大规模的中文数据集,包括4870张表格数据、近50000条标注数据以及相应的SQL语句。
“希望通过产学研等多方联动,为大家提供一个平台,共同推动NL2SQL的研究和应用。” 追一科技联合创始人兼CTO刘云峰表示。
大赛评委来自学术和产业界,包括肖仰华、刘云峰,以及中国移动研究院首席科学家冯俊兰、新加坡南洋理工大学副教授毛可智、南京大学教授俞扬等。专家们为大赛提供了专业建议和资源支持。
“此次挑战赛参与规模、选手表现远超预期,显示出NL2SQL在学术和产业应用上的潜力,数据库的交互创新,正在受到越来越多关注。”刘云峰希望更多院校、企业界同仁携手,共同推动中文NLP研究与应用突破。
经过不断努力与探索,参赛团队在短期内就达到与英文数据集上相当水平的分数,并持续刷新记录。比赛初期,准确率尚为60%多,至8月份初赛结束时,榜上头部参赛团队的准确率已经达到89%,接近WikiSQL成绩。复赛结束时,准确率达到92%,并且,最终晋级决赛的5支队伍,准确率均在90%以上。
彰显国内青年科研实力
近年来,中国科研人员在语言智能方面的研究快速增长。刘云峰介绍,在人工智能相关的国际顶会上,中国学者投递的论文数量增长迅猛。例如在ACL(自然语言处理领域顶级国际会议)上,2018年中国学者投递论文1544篇,到了2019年,中国学者投递论文数量猛增至2906篇。在CVPR(国际计算机视觉与模式识别会议)上,2018年中国学者投递论文数量为3300篇,2019年增至7144篇。
而本次大赛,也体现了国内在自然语言处理方面的研究正如火如荼。据了解,本次1457支参赛队伍中,院校和企业参与者各占“半壁江山”。
其中,学生及科研人员占比48%,企业技术员工占比52%。学生参赛队伍来自众多知名院校,如北京大学、清华大学、复旦大学、上海交通大学、南京大学、浙江大学、中国科学技术大学、哈尔滨工业大学、西安交通大学等。
虽然本次比赛的数据内容是中文形式,但也吸引了美国、英国、新加坡、日本、澳大利亚、加拿大等海外顶级院校参与,包括卡内基梅隆、墨尔本大学、新加坡国立大学、南安普顿大学、新南威尔士大学、布里斯托大学、昆士兰大学等。
作为新兴NLP研究任务,NL2SQL在专业难度上,也对选手提出较高要求。据了解,本次参赛选手中,硕士及以上学历占比57%,其中,博士学历占比6%;而专业分布上,计算机科学专业背景的选手则属于参赛主力。
推动技术行业应用
在如火如荼的比赛背后,NL2SQL应用潜力也受到了越来越多的瞩目。
来自中国移动、平安集团、搜狗、达闼科技、中兴通讯、网宿科技、国双科技、捷通华声等众多企业的技术人员,也成为参赛队伍的重要力量。