3月21日下午,由科研处主办,文理基础学院承办的“滨海讲坛”第三讲“自然语言处理发展趋势分析”在第三报告厅成功举行。本次讲坛由文理基础学院计算机教研室庞海杰老师主讲,来自全校共400余名计算机相关专业学生参加了此次讲座。
自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。庞老师以百度翻译、微软小冰、讯飞翻译机等日常应用作为切入点,深入浅出地为同学们讲解了什么是自然语言处理,为什么要研究自然语言处理,自然语言处理的应用领域,自然语言处理的关键技术及自然语言处理发展趋势。
自然语言处理包括自然语言理解(NLU)和自然语言生成(NLG)两个部分,其中自然语言理解(NLU)的技术难点是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性(ambiguity),自然语言理解中的中心问题必须消除歧义,即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示,歧义现象的广泛存在使得消除它们需要大量的知识和推理,这就是复杂性之所在。而自然语言生成(NLG)是研究使计算机具有人一样的表达和写作的功能。其工作过程与自然语言分析相反,是从抽象的概念层次开始,通过选择并执行一定的语义和语法规则来生成文本。
对于自然语言处理发展趋势,庞老师指出,根据目前自然语言处理的发展现状,未来几年,自然语言技术还将沿着致力于实现智能化、人性化的搜索推荐、语音交互、语义理解的道路继续前行。但随着大数据技术的不断发展,大规模语料样本数据以惊人的数量不断积累以及自然语言处理在深度学习方面的不断深化,目前业界已经开始使用上万小时的样本进行模型训练。预计不久,自然语言处理技术发展将很快进入10万小时数据样本训练阶段,这样才能覆盖千差万别的用户口音差异、多领域歧义语料数据以及复杂的语法规则。再考虑环境变化的影响,未来训练语料量可能会突破100万小时。未来,基于统计学的语义分析方法研究将会继续深化,会随着大规模语料样本数据的不断积累以及大数据挖掘技术、深度模型算法的不断发展呈现质的飞跃。同时,随着训练数据量的迅速增加,如何实现大规模LSTM(长短时记忆模型)建模和CTC(连接时序分类)的有效训练,会成为一个核心的技术难题。未来语音识别领域的深度学习将进入数百GPU并行训练的状态,理论创新和算法技术创新都将围绕大数据展开。语音识别技术的研发方法,相对于现在必将发生深刻的变革。此外,CTC建模技术进一步降低了语音识别应用的解码成本,随着适合深度模型计算的专业硬件的大量涌现,语音识别云服务的成本将大量降低,从而推动语言处理与语音交互技术的更大范围的普及。(来源:文理基础学院)