WWW 2020:百度入选论文解析,涵盖信息抽取、对抗生成等领域
近日,国际顶级综合学术会议WWW 2020 (The Web Conference 2020) 在中国台湾如期举办。本次会议,百度研究院共有6篇论文入选,位居国内科技企业前列。而且其中大部分论文的全部作者均来自百度,展现出百度公司超高的科研水准和领先的技术实力。
创办于1994年,WWW会议由国际万维网会议委员会(IW3C2)和主办地地方团队合作组织,每年召开一次,今年是第29届。WWW会议被中国计算机学会(CCF)推荐为A类国际学术会议,每次都会吸引大批学者、研究人员、技术专家、政策制定者等人的广泛关注和参与。自2018年开始,WWW会议有了另外一个别名——“The Web Science (互联网科学)”,旨在为世界提供一个主要的论坛,以讨论和辩论Web的发展,其相关技术的标准化以及这些技术对社会和文化的影响,成为互联网领域最受关注的顶级学术会议之一。
下面将详细解读一下此次百度入选论文中的4篇,向行业分享研究成果:
论文1:Extracting Knowledge from Web Text with Monte Carlo Tree Search
每一天,互联网都会产生海量的非结构化文本数据,这些文本数据(比如新闻、博客等)包含了大量的非结构化的信息。对于人类而言,这些非结构化的信息是易于理解的,但是计算机很难直接利用这些非结构化的文本数据进行运算和逻辑处理。因此,从大量的非结构化信息中提取出结构化的知识,为后续自动化的信息处理、知识计算等任务构筑了有力的基石。
在本篇论文中,百度把信息抽取任务通过蒙特卡洛过程建模,提出了基于蒙特卡洛树搜索的开放领域信息抽取方法。在基于蒙特卡洛树搜索的强化学习架构中,信息抽取模型探索了大量的、可能的结构化知识,通过奖励函数的评价,反哺给信息抽取模型,从而在训练过程和推理过程中显著的提升了信息抽取模型的效果。在目前最大的人工标注中文结构化知识抽取数据集SAOKE中,模型取得了最好的效果。
论文2:Improved Touch-screen Inputting Using Sequence-level Prediction Generation
近年来,各种移动触屏设备不断的深入普及,在触屏软键盘上的输入效率则深深影响着人们的交流速度和用户体验。本篇论文对“触屏输入结果预测”的问题进行了形式化总结,阐述了依据“用户所输”和“用户所见”来预测“用户所想”的一般框架。同时,论文给出了在保证用户隐私的前提下,以输入效率为优化目标的特化问题描述。此外,论文描述了两种评价方法,以适应不同的用户输入习惯假设。实现方面,目前已有的输入效率提升方法包含输入纠错(包括字符替换、调序、删除、插入)、单词补全和候选打分排序等多个子步骤。本文提出了从“输入坐标序列”到“期望字符串”端到端的训练方法,并利用柱状搜索进行解码,实现了多个候选的一次性生成与排序。较分步骤的人工规则方法,这一方法有效提升了准确率,同时降低了特征构建成本,达到降本增效的成果。
论文3:Efficient Online Multi-Task Learning via Adaptive Kernel Selection
因为无法在线性不可分的数据上应用,传统的多任务学习限制任务间结构为线性相关。为了解决这一难题,百度提出在线多任务核方法来解决分类任务,这个方法所在的再生核希尔伯特空间能够提供更准确的分类函数。特别的是,此方法为每一个子任务维持一个局部-全局高斯分布模型,以此指导参数更新的方向和规模。然而,在计算上优化这一方法会相当昂贵。大多数多任务方法需要获取整个数据来训练算法,这就限制了其在大规模数据流场景的应用。
为此,百度提出了一个随机采样的方法来为模型进行可适应素描。此方法不需要所有的数据标签,它会通过相似任务对标签预测的自信度,来决定是否需要数据的标签。理论上证明,与学习所有标签的方法比,此方法在采样样本上学习能够得到相似的结果。实验上,此方法能够提高准确性,同时减少了计算复杂度和标签成本。
论文4:Estimate the Implicit Likelihood of Gas with Application to Anomaly Detection
本篇论文提出了一种计算对抗生成网络(GAN)隐含似然值(implicit likelihood value)的方法,并应用于异常检测。不同于基于极大似然估计的方法,训练良好的GAN可以学习和生成尖锐的图像局部信息。但是,GAN 是一种隐含模型,很难直接估计给定数据点的似然值。这是由于直接通过GAN获取给定数据点(Data Sample)的隐藏变量(Latent Variable)比较困难,再者,对抗学习到的生成网络(Generator)的雅可比矩阵(Jacobian Matrix)通常不是满秩的, 无法直接用变量变换的形式来通过隐藏变量(Latent Variable)计算数据点的似然值。
为克服上述困难,本篇论文提出通过对抗生成模型增加推理网络(Inference Network)和方差网络(Variance Network)。基于RBF核的方差网络,可以把生成网络的输出拓展到整个生成空间,并且可以学习数据点的局部不确定性。对于给定的数据点,可以用学习到的推理网络直接获取数据点的隐藏变量。此外,通过方差网络和推理网络的结合,可以避免雅可比矩阵的奇异值的问题。本篇论文提出的模型在MNIST,CIFAR10,Imagenet32获得优于其他基于神经网络的成模型的似然估计,在MNIST 和 CIFAR10等数据集上有不错的异常检测的表现。
以上介绍的4篇论文是百度研究院众多出色研究成果的一小部分。百度研究院由百度CTO王海峰博士兼任院长,已经取得了一系列前瞻的研究成果和技术落地应用。后续还将持续向行业介绍更多来自百度研究院的学术论文成果。