查看原文
其他

语言技术|方言语料库简介

甘于恩 语言资源快讯 2020-01-18

由于微信公众号平台推出新功能,“语言资源快讯”左边显示的名称并非原作者,而是公众号管理者,原作者将于文末显示,感谢各位读者的谅解!


方言语料库提供方言语音语料及其转写文本、标注信息。语音可以来自文本朗读的言语、有构思的流畅言语或自然话语,比如广播影视材料、童谣、既定话题的对话、单方叙述、电话录音等。



用处不小


方言语料库的作用主要体现在:

1. 保存语言实态。

方言话语保留着许多较古老的语言要素和文化内容, 会随着社会迅速的发展变化而在较短的时间内流失,特别是近几十年来,汉语方言在词汇、功能、使用人群方面已经发生了较大变化。方言语料库可以记录某阶段汉语方言的真实面貌,保存、保护方言语音资料以及具有社会历史价值的语言文化遗产,能够成为民间传统文化的典藏库。

2. 推进我国语言科学的发展。

方言语料库集文本、语音和声学参数三种形式,能够为语言研究提供大量的语料和技术参数,便于进行检索、统计,为语音现象的大规模研究带来便利,使研究成果更为客观、可靠,可用于实验语音学研究、汉语教学与研究、语言资源数字化、语言工程等方面的研究。用有声数据库训练机器,可以帮助机器识别各地方言,提高语言信息化的水平。语言信息化的成果, 又可以用于语音识别、语音合成、人机语音交换的多种领域,促进生产和生活的信息化

(方言语料库的一些相关研究。图源:知网截图)

怎么建库

    方言语料库的建设大致可分为3大步:

1.语料的收集

包括选择语料收集点、选择发音人、确定发音素材和采录。发音素材可以是朗读文本,利用《方言调查字表》、结合该方言声、韵、调的特点设计文本语料;也可以收集自然口语语料,通过实地捕捉、主题对话、问路、媒体节目等方法采录自然话语。

2.语料的整理和加工

包括核音、转写和标注。对录音语料应进行整理、反复核音。转写一般有三类文本:一是音频的普通话对译,二是音频的国际音标注音,三是转写汉字文本的普通话拼音注音。标注的丰富程度和精细程度取决于对研究所需的分析深度,例如每个词的分割、词性、时态、语态,对话中的话轮、中断、背景声、停顿、韵律、语气、情感,每句话的句法结构等等。标注得越丰富、越精细,对数据的挖掘就越深越广。基本标注应包括词类、时间戳、话轮记号;附标注可以涉及语音、词汇、语法、语义、语用等各层面的特征。

3.数据库及其管理系统的建立

方言语料库的数据库可包含四大数据模块:一是发音人的背景属性模块,包括发音人的姓名、性别、族别、年龄、长期居住地、受教育程度、职业等;二是原始语音语料模块;三是与语音语料所对应的文本模块;四是对语音语料进行深加工后的语音标注数据和语音的声学分析数据模块。

(音视频转写标注软件ELAN的操作界面。图源:The Language Archive)


做起来很费劲

建设方言语料库主要难在话语采录和标注上,难度远远超过纯文本语料库。采录自然语料时,发音人知道有人现场录音,可能有意识地在发音、节奏、用词、语气、情感等方面背离或隐藏自己的语言表达习惯和言语行为习惯,因此采录中要采用各种方法确保话语的自然性。

语料的充分性要求语料必须达到一定的量级,生语料的录音时长不低于13 个小时。没有一定的录音时长,就不能获得所要求的有效词次。这也是为什么目前采录语料多数采用人工预先设定主题的原因,这样可以在减少绝对录音时长的情况下获得更密集的有效词次,但也在一定程度上牺牲了语料的自然性。

处理音频语料方面,语音自动切分或标注工具尚未成熟,语料的剪辑、文本注音转写、音频单位切分、特征标注等工作依然需要大量人力


开放能用的很少很少


公开的方言语料库很少,免费、目前能使用的更是屈指可数,如北京语言大学所建的“北京口语语料库”、香港大学完成的“香港粤语口语语料库”、香港教育大学构建的以香港五六十年代的粤语长片为基础的语料库等。小编多次尝试后发现“香港二十世纪中期粤语语料库”这个有在线检索功能的语料库用起来最为顺畅,其中有十四套电影对白可供检索,附有汉字转写、切词和校对,每个词语配有粤拼。该语料库共计约二十万字,提供不同条件(如词汇、拼音、电影、影星等)的检索。



(“香港二十世纪中期粤语语料库”主页。图源:网络截图)

以上仅仅是方言语料库的简要介绍,一方面省略了很多细致的内容,如采录过程中还应注意的语速、音量、录音环境等很多语言或非语言因素,以及声学分析、建库、标注软件等辅助工具尚未提及;另一方面可能存在不够准确之处,感兴趣的你请查看更多相关资料吧。总而言之,构建方言语料库是一项复杂的工作,需要付出大量人力物力。


参考文献

[1] 陈章太.语言研究的一项重要的基础工程——评《现代汉语方言音库》[J].语言文字应用,2000(03):104-109.

[2] 范俊军.汉语方言自然口语语料库建设的几个基本问题[J].学术研究,2013(02):153-158.

[3] 费旭岚.新疆汉语方言语音语料库的建设[J].新疆大学学报(哲学人文社会科学版),2008(04):154-156.

[4] 李斌. 用ELAN自建汉语方言多媒体语料库及其应用研究[D].湖南师范大学,2013.

[5] 李宇明.论中国语言资源有声数据库的建设[J].中国语文,2010(04):356-363+384.

[6] 杨鸿武,梁青青,郭威彤,李锦珑,陈龙.一个面向言语工程的兰州方言语料库[J].西北师范大学学报(自然科学版),2009,45(06):54-59.

本期编辑|阿晴

责任编辑|老甘

投稿邮箱|jnufyzx@163.com

往期回顾

语言技术 | 范俊军、彭志峰:《多媒体语料转写标注教程》前言

地理语言学 | 李菲:语言地图绘制

深圳粤语语料库与相关研究

长按关注

保护母语方言

你我共同努力

做语言资源保护公众号不容易,每天更新公众号、提供新语料尤其不容易。希望各位通过打赏来支持我们的事业,谢谢!↓↓↓

    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存