3.2 协同模型_计量语言学研究进展-QQ阅读男生中文都市网

上QQ阅读APP看书，第一时间看更新

3.2 协同模型

3.2.1 词汇层面的协同模型

词汇系统受到很多属性的影响，有些是核心属性，直接作用于系统，如：

多义度：一个词所承载的意义数量；

多文度：一个词所能使用的语境数量，即篇际出现次数；

频率：一个词的绝对频次；

词长：一个词的音节数量。

其他属性只通过序参数产生作用，而非直接影响系统，因此我们只考虑上述4个核心属性。图3.1为简化后的结构图，其中长方形代表系统变量，箭头表示作用方向，正负号表示该作用是增益或制约，实线表示其两端的属性值具有直接关系，虚线表示间接关系。

图3.1 简化的词汇协同模型

3.2.2 形式化

图3.1中任意两个直接关联的属性，其数值关系可用如下的微分方程（Köhler,1986）表示：

其意义是，因变量y的相对变化速率与自变量x的相对变化速率成比例（Altmann &Köhler,1995），解该方程得：

此即为幂律方程形式。由此，我们给出如下具体假设：

3.2.3 验证方法

间接关系的测定是独立于直接关系的，因此我们用各属性之间的间接关系进行模型的验证。方法是衡量理论预测结果与实证测定结果之间的偏离程度。

首先，计算理论方程参数。从直接关系的方程推导出间接关系的理论方程。例如，我们用假设（1）当中的方程PL=aLb代换到假设（2）PT=aPLb的方程中，得：

令at=2, bt=b1b2，

PTt=atLbt

由此，理论模型方程可表示为：

Yt=atXbt

然后，测定实证方程参数。通过拟合实证数据取得实证方程：

Ye=aeXbe

最后，用T检验验证理论参数at,bt与实证参数ae,be之间是否存在显著性差异。

3.2.4 汉语数据

本研究采用汉语数据对词汇协同模型进行验证。数据分别从1998年1月的《人民日报》标注语料库和《现代汉语词典》（第5版）中提取。其中《人民日报》语料库是经过分词、标注的熟语料，包含3147篇文章，我们从中选取500篇，制作词表，提取多文度和频率。其中包含数字、字母的词不予收录，只计汉字词。《现代汉语词典》用于提取多义度和词长，上述词表中未收入该词典的词，因无法确定多义度，也不予收录。经上述处理，词表合计词例253100个、词形15565个。