![计量语言学研究进展](https://wfqqreader-1252317822.image.myqcloud.com/cover/798/27185798/b_27185798.jpg)
3.2 协同模型
3.2.1 词汇层面的协同模型
词汇系统受到很多属性的影响,有些是核心属性,直接作用于系统,如:
多义度:一个词所承载的意义数量;
多文度:一个词所能使用的语境数量,即篇际出现次数;
频率:一个词的绝对频次;
词长:一个词的音节数量。
其他属性只通过序参数产生作用,而非直接影响系统,因此我们只考虑上述4个核心属性。图3.1为简化后的结构图,其中长方形代表系统变量,箭头表示作用方向,正负号表示该作用是增益或制约,实线表示其两端的属性值具有直接关系,虚线表示间接关系。
![](https://epubservercos.yuewen.com/5A6F05/15532511905926206/epubprivate/OEBPS/Images/figure_0085_0001.jpg?sign=1739271618-dtgclzdx3kR8egzLgMNTLTisSKteRaOi-0-e656caf818d67a503bf5b84edfc60bab)
图3.1 简化的词汇协同模型
3.2.2 形式化
图3.1中任意两个直接关联的属性,其数值关系可用如下的微分方程(Köhler,1986)表示:
![](https://epubservercos.yuewen.com/5A6F05/15532511905926206/epubprivate/OEBPS/Images/figure_0085_0002.jpg?sign=1739271618-E7JDSf8damiMVVUgfonTQgOi7RjqiPry-0-07a738cc44a04466306b58a1d920d757)
其意义是,因变量y的相对变化速率与自变量x的相对变化速率成比例(Altmann &Köhler,1995),解该方程得:
![](https://epubservercos.yuewen.com/5A6F05/15532511905926206/epubprivate/OEBPS/Images/figure_0000_0001.jpg?sign=1739271618-RluxfcpqQSP4LIgm0luvGsv4E597Fd7m-0-ed3f22a08278c2583d1dc4cb2bafeea2)
此即为幂律方程形式。由此,我们给出如下具体假设:
![](https://epubservercos.yuewen.com/5A6F05/15532511905926206/epubprivate/OEBPS/Images/figure_0000_0002.jpg?sign=1739271618-9LEDNJziELOuaNhnmCgyQinatPq0CqAo-0-a2d9364db78faf6ab1e0a52627e51f9a)
3.2.3 验证方法
间接关系的测定是独立于直接关系的,因此我们用各属性之间的间接关系进行模型的验证。方法是衡量理论预测结果与实证测定结果之间的偏离程度。
首先,计算理论方程参数。从直接关系的方程推导出间接关系的理论方程。例如,我们用假设(1)当中的方程PL=aLb代换到假设(2)PT=aPLb的方程中,得:
![](https://epubservercos.yuewen.com/5A6F05/15532511905926206/epubprivate/OEBPS/Images/figure_0086_0001.jpg?sign=1739271618-tg7EgkvN25BKBYrHnoNuUFvLaRMGtu4F-0-66cce7e13f7ee3479fe976bcbf615105)
令at=2, bt=b1b2,
PTt=atLbt
由此,理论模型方程可表示为:
Yt=atXbt
然后,测定实证方程参数。通过拟合实证数据取得实证方程:
Ye=aeXbe
最后,用T检验验证理论参数at,bt与实证参数ae,be之间是否存在显著性差异。
3.2.4 汉语数据
本研究采用汉语数据对词汇协同模型进行验证。数据分别从1998年1月的《人民日报》标注语料库和《现代汉语词典》(第5版)中提取。其中《人民日报》语料库是经过分词、标注的熟语料,包含3147篇文章,我们从中选取500篇,制作词表,提取多文度和频率。其中包含数字、字母的词不予收录,只计汉字词。《现代汉语词典》用于提取多义度和词长,上述词表中未收入该词典的词,因无法确定多义度,也不予收录。经上述处理,词表合计词例253100个、词形15565个。