x*y*z*{*|*}*~* * `!* *q 5 *xSU* )CpQ PYN* * @*** {> < + * pV-=r* x{aJ ...

almondpitterpatterΤεχνίτη Νοημοσύνη και Ρομποτική

23 Φεβ 2014 (πριν από 7 χρόνια και 6 μήνες)

1.164 εμφανίσεις

语料库是怎样练成的
?

桂诗春

1.
语料库的设计


语料库的类别


通用性语料库


专门用途语料库
(
口语语料库、母语习得语料库、
为词典收集例句的语料库、学习者语料库,医
学语料库、语言学语料库,等等)


根据不同类型的语料库而决定不同的抽样
方案(
sampling plans


1.
Brown
语料库的抽样方案


11.6 Brown
语料库抽样方案













篇数

百分比(
%


I
.信息性文体

374

75


A.

报纸:报道

44

8.8


B.

报纸:社论

27

5.4


C.

报纸:评论

17

3.4


D.

宗教

17

3.4


E.

技能与嗜好

36

7.2


F.

民间传说

48

9.6


G.

纯文学,传记、回忆录

75

15


H


杂类(政府文献、基金、工业报
告、学校目录、公司内部报告)

30

6.0


J


学术性文章

80

16.0

II
.想象性文体

126

25


K


一般小说


29

5.8


L


疑案与侦探小说

24

4.8


M


科幻小说

6

1.2


N


冒险与西部小说

29

5.8


F


爱情故事

29

5.8


R


幽默

9

1.8

1.
ECOL
语料库的抽样方案



T = Theoretical, General,
Historical,Comparative
Linguistics Grammar,
Morphology, Phonology, etc.


L= Neurolinguistics, Natural
Language Processing,
Computer
-
aided Technology,
Statistics,Biolinguistics,
etc.


St= Stylistics,Discourse
Analysis,Textlinguistics,
Translation,etc.


So=Sociolinguistics,Culture &
Language,etc


A=Applied Linguistics, Second
Language Acquisition, Testing,
Methodology,etc.

编号

内容

篇数

COL1

A(Applied Linguistics)

100

COL2

Cg(Cognitive Linguistics)

38

COL3

Co(Corpus Linguistics)

36

COL4

L(Natural Language
Processing)

70

COL5

P(Psycholinguistics)

36

COL6

Pr(Pragmatics)

38

COL7

Se(Semantics)

36

COL8

So(Sociolinguistics)

38

COL9

St(Stylistics)

38

COL10

T(Theoretical Linguistics)

70

总计



500

.

1.
文本的资源和准备


书籍(专著、教科书、百科全书、手册)、
杂志文章、
USENET
,等等。


要求将资料转换成纯文本格式。


注意转行符。一般可以通过
.doc
来转换。


扫描文件要用
OCR
软件识别,并作编辑。


检查分类的准确性。

Tree Diagram for Variables
Single Linkage
Euclidean distances
500
1000
1500
2000
2500
3000
3500
Linkage Distance
St
Pr
P
L
T
Se
Co
So
Cg
AL
使用
Wordstat(Peladeau 2005)
软件对
500
篇样本的分类
作验证,结果是总准确率为
71%
,其中
Cg

St

Pr
最好,
分别为
100%

95%

92%

Co

Al
分别为
83%

81%

最低为
P
,只有
36%



2.
如何使用通用性软件来分析语料




Wordsmith


Antconc


编制词表(
Wordlist



词目索引(
Concordance



找寻搭配词(
Collocates



找寻关键词(
Keywords
),主要是超用词(
overused
words
)和少用词(
underused words



Range & Frequency


编制词表


找寻常用词


Claws


做语法赋码(
POS tagging



3.
基本步骤



基本统计


编制词频分布表,简单的叫
Word List
,专业的

Rank List
。目的是了解常用词的覆盖面,看
其分布是否属于对数正态。


编制几个语料库的基本数据对照表。目的是了
解语料库的一些差异。


1
10
100
1000
0
10
20
30
40
50
60
70
80
90
100
Log-normal Distribution of ECOL
Rank Order (log)
收集了
5088721
个词的
American Heritage Intermediate
Corpus
的对数正态分布


3 ECOL
和其他
4
个参照语料库的比较
[1]

编号

1

2

3

4

5



ECOL.TXT

FLOB.TXT

SOCIAL.TXT

NATURAL.TXT

APPLIED.TXT

词次
(tokens)

1,099,140

1,237,437

9,497,284

3,842,872

7,568,668

词型
(types)

29,451

45,089

75,612

65,883

89,773


/
次比
(
对数
)

73.98

76.39

69.92

73.18

72


/
次比
(
标准
)

40.63

45.73

40.19

40.59

42.38

平均词长

5.04

4.35

4.82

4.84

4.82

句子

35,934

52,675

*33,680

*12,495

*15,239

句长

30.33

23.49

*272.22

*296.43

*428.44

句长标准差

21.69

16.62

851.84

660.67

1,186.55

1
-
字母词
(%)

3.77

3.31

4.09

4.73

4.2

2
-
字母词
(%)

18.68

17.7

18.08

17.44

17.08

3
-
字母词
(%)

16.58

30.49

18.46

18.13

18.61

4
-
字母词
(%)

13.87

13.11

15.09

14.86

15.44

5
-
字母词
(%)

9.43

8.99

10.15

10.32

10.38

6
-
字母词
(%)

7.07

6.98

7.7

7.63

7.9

7
-
字母词
(%)

8.06

6.49

7.87

7.97

8.19

8
-
字母词
(%)

7.44

4.68

6.16

6.32

6.34

9
-
字母词
(%)

5.38

3.42

4.77

4.83

4.61

10
-
字母词
(%)

4.03

2.24

3.45

3.33

3.17

11
-
字母词
(%)

2.74

1.31

2.09

2.11

1.98

12
-
字母词
(%)

1.34

0.69

1.09

1.12

1.06

13
-
字母词
(%)

0.91

0.37

0.61

0.7

0.6

14(+)
-
字母词
(%)

0.4

0.14

0.25

0.27

0.25

一次词

11,274

17,958

24,994

23,569

31,786

一次词
(%)

38.28

39.83

33.06

35.77

35.41



[1]

这是用
Wordsmith
计算出来的,由于各种计算词频的软件在处理连字号时略有不同,故得出的词次和词型有点差异。例如用
Nation

Frequency

Range
统计,
ECOL
的词次和词型分别为
1070371

32425


图2 各个语料库的词长分布
0
5
10
15
20
25
30
35
1
2
3
4
5
6
7
8
9
10
11
12
13
14
词的字母数
百分比
ECOL
FLOB
SOCIAL
NATURAL
APPLIED
常用的覆盖面


我们把几个语料库的常用词,从
1000

10000
的覆盖面加以比较,可以看到,
ECOL
在于
Flob
和其他几个
BNC
的专业性语
料库之间,说明
ECOL
属于专业性语体,但
又没有那么专业,所以略为靠近通用性语
料库。这是因为语言学讨论的是语言。

图3 几个语料库的常用词覆盖面比较
60
70
80
90
100
110
1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
常用词
百分比
Col
Flob
Social
Natural
Applied
罕用词的比较研究


罕用词(一次词,
hepax legomena
)也可进行比较。原来
的几个语料库的词次不一样,比较的应该是它们的相对的
百分比。
Flob
的一次词的比例最高,
ECOL
次之,这也许是
专业性语料库的一个特征。
ECOL

Flob
和其他专业性语料
库之间,也许是因为语言学的对象是语言,常会引用一些
日常生活的话语,专业性不如其他语料库强。

这些一次词
中,(
1
)有不少是一般语料中的常用词,如
abrupt

ascend

award

captive

intercept

cushion

tobacco

等;(
2
)有一些作者针对特定场合和需要而自己派生的词,

non
合成的词(如
non
-
random

non
-
selected

non
-
problematic
等)有
233
个,由
over
合成的词(如
over
-
educated

over
-
informative

over
-
inclusion
等)有
55
个,
还有
archaic
-
sounding

babble
-
fricatives

thisology

thatology

thereby
-
backgrounding

think
-
alouds

topichood
、那样的临时编造的词(
nonce words
)。(
3

有不少专用名词,特别是人名。



罕用词的比较研究

1
2
3
4
5
6
7
>7
Socio
Natural
Applied
Col
Flob
0
5
10
15
20
25
30
35
40
0
5
10
15
20
25
30
35
40
关键性研究


关键性(
Keyness
)来自关键词(
Keywords
)。


关键性研究主要是对比两个语料库,找出超用词

Overused Words
)和少用词(
Underused
Words
),以研究两个语料库在用词,乃至语体
上的差别。
ECOL
的超用词有
1851
个,少用词有
896
个。


两个语料库的词次不一样,所以比较的不是词次,
而是它们所占的百分比。在百分比的差异有显著
意义时才判定一个词是超用,还是少用。


Wordsmith

Antconc
都可以计算关键性指标。

WordSmith Tools
--

2007
-
10
-
31 19:19:57























N

WORD

FREQ.

COL.TXT %

FREQ.

FLOB.TXT %

KEYNESS

P

1

LANGUAGE

7,861

0.72

237

0.02

10,045.60

0

2

OF

48,331

4.4

34,147

2.76

4,583.80

0

3

IS

19,896

1.81

10,294

0.83

4,408.00

0

4

LINGUISTIC

1,878

0.17

32



2,549.80

0

5

ARE

9,253

0.84

4,462

0.36

2,338.90

0

6

IN

27,832

2.53

20,881

1.69

2,032.40

0

7

WORDS

2,219

0.2

257

0.02

2,024.90

0

8

THAT

16,016

1.46

10,489

0.85

1,930.90

0

9

OR

7,665

0.7

3,701

0.3

1,930.90

0

10

LEARNING

1,395

0.13

47



1,750.50

0

11

MEANING

1,513

0.14

103



1,647.60

0

12

SPEECH

1,464

0.13

111



1,547.40

0

13

LANGUAGES

1,193

0.11

32



1,544.30

0

14

WORD

1,782

0.16

241

0.02

1,517.80

0

15

WE

5,559

0.51

2,703

0.22

1,380.20

0


5
和各个语料库相比的
ECOL
超用词
(%)

所在词族

应用科学

自然科学

社会科学

Flob

第一

23.619744

27.238335

19.9132635

33.17126

第二

14.332724

14.796133

13.1550416

18.53052

第三

6.0329068

6.1790668

5.92699675

6.699082

不在名单

56.014625

51.786465

61.0046982

41.59914

超用词型数

2735

3707

3473

1851

整个语料库的词型数

89822

65884

87967

32425

超用词型的
%

3.044911

5.6265558

3.94807144

5.708558

覆盖的词次

600703

571,779

518304

740106

整个语料库的词次

7,575,851

3,842,778

13,488,888

1070371

覆盖词次的
%

7.9291818

14.879314

3.84245165

69.14481

0%
20%
40%
60%
80%
100%
Flob
社会科学
自然科学
应用科学
语料库
图5 ECOL和几个语料库相比的情况
不在名单
第3个1000词
第2个1000词
第1个1000词

了解有哪些词族是某个语料库经常使用的。
例如
ECOL
虽然有
1951
个超用词,但是只有
205
个词组是生成能力最强的,它们覆盖了
179,405
个词次,是全部超用词的
24%
。这
些词组有些和语言学有关,有些和一般的
议论文有关。其中有些词在语言学中有其
特殊的内涵。

和语言学有关的词族



和议论文有关的词族





CODE

165

VERB

468

VARY

108

RELATE

88

CODED

27

VERBAL

314

VARIABILITY

46

RELATED

533

CODES

58

VERBS

377

VARIABLE

151

RELATES

51

CODING

44

NONVERBAL

32

VARIABLES

150

RELATING

65

ENCODE

47

ADVERB

23

VARIANCE

73

RELATION

443

ENCODED

50

ADVERBIAL

26

VARIANCES

20

RELATIONAL

39

ENCODING

108

ADVERBIALS

17

VARIANT

39

RELATIONS

382

DECODING

38

ADVERBS

51

VARIANTS

51

RELATIONSHIP

456



537



1308

VARIATION

227

RELATIONSHIPS

211

TEST

1,050

COGNITION

248

VARIETIES

99

RELATIVE

239

TESTED

100

COGNITIVE

853

VARIETY

310

RELATIVELY

244

TESTERS

17

METACOGNITION

16

VARIOUS

451

RELATIVISM

30

TESTING

313

METACOGNITIVE

27

VARYING

58

RELATIVITY

29

TESTS

487

RECOGNITION

193

INVARIANCE

16

UNRELATED

29

ATTESTED

28

RECOGNIZE

120

1799

2839

POSTTEST

24

RECOGNIZED

124





PRETEST

18

1581







2,037













关键词有助于了解语料库的语体


有些超用词还提供了分析语体特征的线索,例如
of
和其他
的几个语料库相比都是超用,但
of
不是单独存在的,在很
多场合,都是连接两个名词(
NN1

NN2
),
Sinclair
指出,
在这些名词词组里,其主要的意义在后面的名词(
NN2

例如


The notion of machine intelligence


The position of France


An object of embarrassment


Various kinds of economic sanctions


我们不妨把
NN1
称为
classifying nouns
,并且把它们和其
他几个语料库的相同的名词(例如
part

s
)、
kind

s
)、
form

s
)、
set

s
)、
type

s
)、
term

s
)等
43
个词比
较,发现语料库的用词明显地多于其他语料库。



各个语料库的分类词比较
0
200
400
600
800
1
6
11
16
21
26
31
36
41
常用分类词
频数
Col(n)
Flob(n)
Socio(n)
Applied(n)
Nature(n)
语料库的分布


但是语料库中的词项不能只看频率,还必须看它
在几个语料库中的分布,要用
Merge
来进行:


2

次技术性词汇举隅











ECOL

Flob

Socio

Nature

Applied

D(
分布值
)

分支学科


归类

metaphors

139

2

60

5

18

0.6583

10

次技术词


lexis

83

0

65

0

4

0.5927

6

次技术词


ostensive

23

1

2

2

0

0.2857

3

技术词汇

markedness

84

0

8

0

0

0.1839

3

技术词汇








D


U


SFI


st
2


st
3


st
4


st
5


st6


DEBT


32


0.096


9.43


49.75


0


0


0


1


31


MEMO
RABLE


32


0.23


11.95


50.8


2


1


0


29


0


FLAG


32


0.366


15.4


51.9


27


1


0


2


2


TROUBLE
S


32


0.93


29.4


54.7


2


5


7


6


12



4
词频排列表

50,000
词中出现一次


SFI=50

100,000
词中出现一次


词目索引和搭配词


使用
Wordsmith

Antoconc
都可以做到,主
要是按照个人写作论文需要。


词目索引提供的是例句和用法的频率,不
一定是判断对与错。搭配词是中国学生写
作的难点。


所提到的软件可以到下列地址下载:


http://www.clal.org.cn/personal/scgui/dow
nload/
桂诗春月月谈