
1.3 自然语言处理的基本方法
1.3.1 理性主义方法
理性主义(rationalist)方法认为,人的很大一部分语言知识是与生俱来的,由遗传决定。持这种观点的代表人物是美国语言学家乔姆斯基(Noam Chomsky),他的内在语言官能(innate language faculty)理论被广泛接受。乔姆斯基认为,很难知道小孩在接收到极为有限的信息量的情况下,在如此小的年龄如何获取如此之多的复杂语言理解能力。因此,理性主义的方法试图通过假定人的语言能力是与生俱来的、固有的一种本能来回避习得和理解困难的问题。
在具体的自然语言问题研究中,理性主义方法主张建立符号处理系统,由人工来整理和编写初始的语言知识表示体系(通常为规则),构造相应的推理程序。系统根据规则和程序,将自然语言理解为符号结构,该结构的意义可以从结构中的符号的意义推导出来。按照这种思路,在自然语言处理系统中,一般首先由词法分析器按照人编写的词法规则对输入句子的单词进行词法分析。然后,语法分析器根据人设计的语法规则对输入句子进行语法结构分析。最后再根据一套变换规则将语法结构映射到语义符号,如逻辑表达式、语义网络、中间语言等。
1.3.2 经验主义方法
经验主义(empiricist)方法认为人脑并不是从一开始就具备具体的处理原则和对具体语言成分的处理方法,而是假定孩子的大脑一开始具有处理联想(association)、模式识别(pattern recognition)和通用化(generalization)处理能力。这些能力能够使孩子充分利用感官输入来掌握具体的自然语言结构。在系统实现方法上,经验主义方法主张通过建立特定的数学模型来学习复杂的、广泛的语言结构,然后利用统计学、模式识别和机器学习等方法来训练模型的参数,以扩大语言使用的规模。因此,经验主义的自然语言处理方法是建立在统计方法基础之上的,故而,又被称为统计自然语言处理(statistical natural language processing)方法。
在统计自然语言处理方法中,一般需要收集一些文本作为统计模型建立的基础,这些文本被称为语料(corpus)。经过筛选、加工和标注等处理的大批量语料所构成的数据库叫作语料库(corpus base)。由于统计方法通常以大规模语料库为基础,因此,又称为基于语料(corpus-based)的自然语言处理方法。
实际上,理性主义和经验主义试图刻画的是两种不同的东西。生成语言学理论试图刻画的是人类思维(I-language,内在语言)的模式或方法。对于这种方法而言,某种语言的真实文本数据(E-language,外在语言)只提供间接的证据,这种证据可以由以这种语言为母语的人来提供。而经验主义方法则直接关心如何刻画这些真实的语言本身(E-language)。理性主义的提出者美国语言学家乔姆斯基把语言的能力(linguistic competence)和语言的表现(linguistic performance)区分开来。他认为,语言的能力反映的是语言结构知识,这种知识是说话人头脑中固有的,而语言的表现则受到外界环境诸多因素的影响,如记忆的限制、对环境噪声的抗干扰能力等。
1.3.3 对比分析
在自然语言处理发展的过程中,始终充满了基于规则的理性主义方法和基于统计的经验主义方法之间的矛盾,这种矛盾时起时伏,此起彼伏,见表1.1。自然语言处理也就在这样的矛盾中逐渐成熟起来。
自然语言处理既有深层次的现象,也有浅层次的现象;既有远距离的依存关系,也有近距离的依存关系;自然语言处理中既要使用演绎法,也要使用归纳法。因此,自然语言处理的研究应把理性主义和经验主义结合起来。把基于规则的方法和基于统计的方法结合起来。过于强调一种方法,反对另一种方法,都是片面的,都不利于自然语言处理的发展。
表1.1 经验主义与理性主义
