查看原文
其他

申小龙:自建语料库不香吗?——谈学术的自由随意与严谨周密

申小龙 文化语言学新视野
2024-09-10


中文系16级小张同学来信:
 
“这周您上课分享同学们的问题时提到了一个关于中国诗歌与外国诗歌对比的问题,并由此展开,谈论了汉语本身的许多特点。恰好这周我看到了一个关于机器作诗的微信朋友圈。于是我找了几篇由这个作诗软件写的诗词,以及同一主题的古代名诗,和我爱好作词的朋友写的词,作了一下对比。”
 
小张同学在语言与文化课上讲述了她的比较心得,有同学问她:“在机器人写的诗歌中,你为什么选这几首而不是那几首?你应该说明理由。
 
小张同学感到困惑。她对我说:“我该如何说明我选择的这几首诗就是机器作诗中最好的是通过问卷的方式让大家来评判,还是我自己设立几条‘好诗’的标准?我想了很久也没有想出一个好的论证方法,所以想向老师请教:一般在学术论文里面,应该如何充分说明自己选取这些例子的原因?”
 
小张和同学们提出的这个问题,是一个非常重要的问题。提出这个问题本身,就说明同学们打开学术的姿势端正。

 
我们谈三个问题。
 
一、自由随意的学术
 
材料的选择划分两种学术。一种是自由随意的学术,其中又分为不专业的学术论文,和学术短文。
 
1. 不专业的学术论文
 
这是学位论文中经常出现的现象,哪怕是博士论文,也会出现随意选材料,因而缺乏学术性的问题。例如一篇博士论文研究现代汉语某个语义范畴,作者把报刊新闻报道、政论和文学作品这几种不同的文体不加区别地放在一起讨论。这样就有一个问题:
 
为什么只讨论这三种文体?是故意的吗?理由是什么?是随意的吗?学位论文怎能随意?
 
如果不限文体,现代汉语语料还远不止报刊新闻报道、政论和文学作品。因此本文的研究应该在一开始就限定文体,并说明排他的理由。更进一步,还须将文体语料的搜集范围放在一个有限时空的特定语料库中。

 
2. 学术短文
 
短文的概念比较宽泛。学术短文可以偏学术性,也可以偏思辨性,还可以偏文学性。它们的共同特点是不需要详实的材料考证。它们是学术漫谈,重在心得,不需要周密论证。
 
学术短文中的观点,有三种不同的“时态”:
 
1)完成时的观点——说人话
 
学术短文中许多观点,其实作者都有扎实的材料研究基础,只不过这些实证不适合在短文中展示。而在短文中,这些观点以生动朴实和简洁的形象出现,引发读者顿悟,给读者“目击道存”之感,这就是学术短文的魅力。
 
直面“说人话”的学术短文,不啻读者和作者间的灵魂相遇。

2)进行时的观点——说感悟
 
学术短文中也有许多观点是作者正在形成中的思想。作者愿意通过短文这种“不正式”的方式贡献出来,抛砖引玉,启发读者的思考和争辩。
 
3)将来时的观点——说想象
 
学术短文中还有许多观点是作者兴之所至的灵感,天马行空的想象。这种诗化的学术思想深刻展示了作者的灵性和不羁。
 
无论哪一种情况,学术短文都独具魅力,脍炙人口。
 
语言与文化课的课堂讨论也是短文式的,讲究发散思维,点到为止。同学们可以发现,在课堂上吸引你关注和思考的,都是说人话,说感悟,说想象的观点。

 
当然,除了完成时的观点,自由随意的学术是不可证伪的。
 
不可证伪这个词,对于不专业的论文,是一个贬义词;对于学术短文,则是一个中性词,如果不说它是褒义词的话。
 
同学们可能会说,学术研究不是严肃的吗,怎么可以“自由随意”?

其实,任何思想创新的火花,都是在“自由随意”的状态中出现的。
 
二、严谨周密的学术
 
学术都应该严谨周密,只是短文和论文展示的角度不同,对待材料的态度不同。

 
1. 材料的穷尽性与排他性
 
论文的材料选择具有穷尽性和排他性。
 
穷尽性是指特定范围内的材料没有遗漏;
 
排他性是指材料具有唯一的(或有代表性的)理论意义。
 
例如调查研究家乡方言,穷尽性是有了,可是排他性呢?不能说“这是我的家乡方言(所以我要调查)啊”。排他性是指唯一的、至少是有代表性的理论意义。
 
有一篇论文研究某个数量名结构的句法功能,根据量词分类,从能进入这个结构的个体量词中选6个,集合量词中选6个,部分量词中选取3个,容载量词中选3个,共计 18 个量词 320 条语料。研究工作做得很好,但学术性不强——作者为什么这样选?
 
第一:为什么是6个?
 
第二:为什么是这6个?
 
也就是说,材料不具有排他性。

 
2. 材料的唯一性
 
小张同学对机器作诗的材料选择,如果意图是选最好的机器诗作,这就是“唯一性”的理论意义。
 
但这个唯一性很难实现,除非有一次公平权威的机器诗作评选。
 
当然也可以通过问卷调查的方法来选优,但这个方法有点low,因为你选择的调查对象往往不是排他性的。写出来的论文,读者的直感就是缺乏学术性。
 
除非小张研究的是复旦大学的机器诗作,但是问题又来了:为什么是复旦大学?即唯一的理论意义在哪里?
 
除非你是研究复旦大学诗歌创作史的,那么我们要问:这个研究的普遍意义在哪里?

也就是复旦大学的诗歌创作史有什么特殊性值得你去研究?你不能仅仅说因为我是复旦人啊,这样的理由,文学性满格,学术性不足。
 
总而言之,要让你选择的材料具有真正的排他性。

 
3. 材料的代表性
 
当然退而求其次,材料也可以选有代表性的,比如以一本出版了的机器诗作为材料。但这个代表性是需要反复说明的。如果是人民文学出版社出版的诗作,其代表性就可以少费口舌。
 
代表性再弱一些,可以选特定时空的材料,即一个时段内一个代表性的空间(如某论坛)的所有材料。
 
我曾指导我的母校杨浦中学学生的一个研究性课题,观察当代汉语外来词的状况。用的方法是以当年1-3月份的《青年报》全部文字为语料。这样的研究代表性较弱,适合初级水平的学术研究,但这样的研究是可以证伪的,即具有穷尽性。

 
三、专书穷尽研究和自建语料库
 
我们研究汉语史,过去都是选例式的研究,这明显过时了。现在提倡专书穷尽性研究。这个专书,一般都是各历史时期有代表性的书,所以能够同时满足穷尽性和排他性。
 
我的博士论文要新建汉语功能句型系统,题目是《<左传>句型研究》。为什么选《左传》?因为它是最有代表性的上古汉语材料。而专书穷尽性考据,强化了它的代表性。
 
博士论文出版的时候,题目换成《中国句型文化》,这样的题目也显然和《左传》的代表性有关。
 
在所有的语言材料实证研究中,专域的穷尽性材料考证是最为严谨的。

为什么这样说呢?

 
1.语法理论难过专书穷尽性语料关
 
在我的印象中,没有一个汉语语法理论经受过类似《<左传>句型研究》这样专书穷尽性语料的实证。
 
汉语句型系统的研究,很少有意识地通过专书穷尽性的语料分析建立句型系统。换句话说,现有的句型理论,尚未接受过专书穷尽性语言材料的系统的验证。
 
这一缺憾隐隐暗示我们:依靠现有的西方句型理论,要在汉语专书文本中一句不漏地穷尽性分析所有的句子,建立起句型系统,而不捉襟见肘,很难。
 
中文的句型系统研究,不应建立在先入为主的西方形式框架基础上,而应充分尊重汉语运用的实际,从穷尽性文本分析的系统数据中建构中文自己的句法范畴,筑造具有本民族语言特色的句型系统。《中国句型文化》就是一个尝试。

只有真正从实际出发的语法理论,才不怵本族语言专书穷尽性语料分析的检验。

 
2. 自建的语料库更香
 
现有的汉语语料库,无论是古代汉语、近代汉语还是现代汉语,都是原始语言材料的平面展示。它便于搜索字词和结构代表字,但对句子类型的搜索,无从下手。
 
因为汉语句子类型不是一个有标志的形式单位。无论是对句段表意功能的认定,还是对句子功能格局的判断,乃至对句界的判断,都需要对原始语言材料进行深度分析,设立形式标记。

因此,建立汉语功能句型语料库的过程,实际上是一个专书穷尽性句型描写的过程。
 
这样的语料库的建库技术,一个关键性难题是自然语料有序集合的功能审核。
自然语料库是机器可以阅读的自然语言材料的有序集合。汉语功能句型语料库的建设,其“有序”与一般语料库建设的“有序”有很大的不同。它要集合的语言材料,不是自然状态的语言材料,而是经过功能标点和标注的语言材料。
 
由于我们要处理的古代汉语和近代汉语文本原是没有标点,尤其是没有句号的,而我们要处理的现代汉语文本使用了欧式标点符号,其中句号的使用由于中西句子观的冲突和中文句子功能认定的相对的主体性,存在很大的自由度。因此语料库集合的语言材料无法全部直接反映汉语的功能断句,需要逐句地进行功能审核,并对审核后的句子进行分层次的类型标注。
 
我常对研究生说,你可以“偷懒”使用互联网上的各种语料库,包括各种语言工具书,但这样的“材料”是不是来得太容易了?它一下降低了你的材料研究的差异性,标志着你的研究水准的平面化。

 
近期我的一位韩国博士生研究韩语汉字词的汉韩比较。她把韩语的汉字词词典和汉语词典的收词作为语料,我直接说这样不行。你要有第一手材料。现在她挑选了汉译韩国长篇小说中最著名的几部,直接从小说中找出所有的汉字词,建立语料库,进行分类比较。这样较之词典现成语料的比较,会有许多新的发现:
 
一是语料不再是平面化的词典材料,而有了真实文本的历史维度,可以研究韩国小说中汉字词从近代到当代的发展变化。
 
二是可以研究汉韩汉字词比较中各种类型在一个具体断代层面的百分比,并梳理百分比增减的历史曲线
 
三是会发现现有汉字词词典未收的汉字词,并全面补正汉字词词典的释义和例证。
 
这样的博士论文充满了创造性。
 
这么多“自力更生”的好处,自建语料库不香吗?

 
3. 自建语料库并不是材料保险箱
 
这一点是我在为某高校学报评审一篇论文时意识到的。
 
这篇论文的作者为研究汉语某个语法结构,自建了一个语料库。从小说、剧本、新闻报道、杂志、政府工作报告、国务院白皮书、法律文本、教科书、诗歌中搜集语料,在材料的考证和理论的阐述上都做得较好。
 
但作者没有意识到,他建立的这个语料库貌似林林总总脚踏实地,却有很大的主观性。读者怎么知道你在搜集材料的工作中没有“猫腻”呢?也就是说,作者的材料搜集既没有穷尽性,又没有排他性。这样的材料搜集,在考证上不可重复,不可证伪,很容易被质疑。
 
可见,自建语料库并不天然具有学术性。作者搜集材料,应该在一个可以客观验证的范围内,穷尽性地进行。

而这样做的前提,又是“为什么在这个范围?”,即需要排他性。

 
现在可以做一个小结了。
 
学术研究中理论的思考不必囿于材料,相反,正是理论赋予材料“意义之光”。

而一旦要将理论建立在材料实证的基础上,材料就必须具有穷尽性和排他性。
 
此后,同学们再看学术论文的时候,可以观察一下它的材料。一些“光鲜亮丽”的材料分析,它背后的实证逻辑,是不是捉襟见肘?
 
就好像小张同学优选的机器人诗作:
 
雨遍莓苔烟雨细,
细算人生,归作征人骑。
思妇无眠花鸭戏,绛人甲子人深意。
 
寄语词人人万里,
寒雨溪桥,只雨人间美。
解组归来知有几,梅开山上人高寄。
 
看上去很美?
 
“美”的背后,是凌乱。







修改于
继续滑动看下一个
文化语言学新视野
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存