中国自然语言处理专家周明:机器阅读理解助力中国人工智能弯道超车
“机器阅读理解比赛前几名都是我们中国人的研发团队……相信中国在人工智能这个领域会弯道超车,达到世界顶尖水平。”微软亚洲研究院副院长、国际计算语言学协会(ACL)候任主席、中国中文信息技术专委会主任周明日前在接受新华社记者专访时说。
今年1月,在机器阅读理解领域优异赛事、由美国斯坦福大学发起的SQuAD挑战赛上,位列前几名的团队包括微软亚洲研究院、阿里巴巴、科大讯飞和哈工大联合实验室,他们各自提交的系统模型先后超越了人类解答的分数。计算机文本理解能力在这个测试上首次超越人类,成为自然语言处理领域一个重要里程碑。
在中国自然语言处理领域,中文自然语言评测也如火如荼,且难度和题量都更大。3月1日,由中国中文信息学会和中国计算机学会联合主办、百度公司承办和资助的2018机器阅读理解技术竞赛将正式启动。
通常,机器阅读理解的定义是让机器阅读文本,然后回答和阅读内容相关的问题。在周明看来,自然语言理解是人工智能“皇冠上的明珠”,而机器阅读理解是自然语言处理中最关键的部分。
目前,自然语言处理技术在神经机器翻译、智能搜索、智能客服、聊天机器人甚至文艺写作等方面都有广泛应用。周明说,随着大数据、深度学习和运算能力的提高,机器阅读理解水平近两年突飞猛进,尤其是在阅读理解评测上达到了人类任务的标准水平。同时,自然语言理解的突破,也将从技术上反哺图像识别和语音识别等领域。
周明用金字塔形状来描绘人工智能技术和应用的不同层次。他说,现在整个人工智能体系主要是感知智能和认知智能,最底层是感知智能,自然语言更多的是属于认知智能,越往上越难,比如再往上的创造智能。“今后,随着自然语言处理技术更强的突破,将带动认知智能突破,从而推动整个人工智能的突破和发展。”
不过,周明也指出,机器阅读理解超越人类,并不能表明机器的能力就超越了人类。机器拟合数据的能力足够强,但在推理、知识图谱以及人类通用知识和常识方面,机器的能力仍然是非常脆弱的,目前仍未解决。周明认为强人工智能远未到来,但这并不妨碍局部人工智能或者垂直领域的人工智能将会逐步接近甚至是达到与人类相仿水平。
目前在自然语言处理领域,中美两国遥遥领先。周明列举了一个指标说,在该领域优异国际会议——ACL大会上,中国过去5年的论文投稿录取数仅比排在第一位的美国相差20篇左右。
美国白宫2016年的《国家人工智能研究与发展策略规划》报告中也提到,2014年和2015年中国在人工智能研究的一个分支——深度学习领域发表的论文数量超过了美国,居于领跑者位置。
根据中国政府去年印发的《新一代人工智能发展规划》战略目标,中国人工智能总体技术和应用到2020年将与世界先进水平同步,到2030年达到世界领先水平。周明说,中国在自然语言处理这个领域的发展恰好同人工智能的规划基本上是合拍的,即“到2020年中国自然语言技术全面达到世界先进水平,希望到2030年引领全世界”。
谈到中国在人工智能领域的整体发展,周明认为中国有多方面的优势。首先,中国有一个清晰的蓝图,政府有明确的纲要,从政策到投资,都鼓励人工智能的发展。
其二,中国拥有世界上最庞大的网民群体,无论是电子商务、搜索,还是办公、语音等等,有强烈的用户需求。
其三,目前的工业和产品都是数据驱动的,那就意味着谁掌握数据,谁掌握场景,基本就掌握了主动权。现在中国讲究数字化转型,各行各业的需求都要数字化,数字化再往上是智能化。比如交通、医疗、教育、司法、金融等,都有大量数据,这些领域只要把数据做好,然后加入人工智能的一些能力,就将会较高提升整个社会生产力。
其四,中国过去几十年的积累,基础设施都比较齐备,包括人工智能的人才储备,而且将会有越来越多的投资促进公司和高校研发力量不断增强人才培养。
不过,周明指出,中国人工智能领域的拔尖人才,尤其是能够提出领先理念的领军人物相比美国少很多。“我们一开始可能是追随者,但到了一定程度后,我们应该有自信心来引领世界人工智能,包括自然语言理解的潮流。”