查看原文
其他

藏文产生及发展——字母、读音、拼写、编码、信息化 (干货!) | 讲座回顾

语标 语标 2021-03-18

    藏族是中国的55个少数民族之一,是青藏高原的原住民,他们使用自己的文字——藏文(བོད་ཡིག)。


    今天,小编和大家一起回顾的讲座是由中国社会科学院民族学与人类学研究所民族语言应用研究室龙从军老师2018年6月5日在北京语言大学主讲的“藏文产生及发展——字母、读音、拼写、编码、信息化”。


    本次回顾的主要内容包括:

1.藏语分布和藏文起源  2.藏文字符  3.藏文书写与拼读  4.藏文音节结构  5.藏文文法特点  6.藏文规范化和信息化


一、藏语分布和藏文起源

01

藏语分布

    在中国,藏语主要分布在西藏自治区青海四川甘孜藏族自治州阿坝藏族羌族自治州甘肃甘南藏族自治州云南迪庆藏族自治州等地区。


(图片来源于中国语言地图集)


02

藏文起源

    关于藏文的起源,有三种不同的观点。


    第一种观点:在七世纪上半叶,藏王松赞干布派大学者吞米桑布扎赴印度学习梵文,回国后仿效梵文创制了古藏文。


    第二种观点:认为藏文源于象雄文,是由象雄文转变而来。象雄文在公元四、五世纪就有了,距今已有两千多年的历史。


    第三种观点:藏文来源于其他文字。


二、藏文字符


01

字符分类


02

具体内容


1.辅音字母


辅音符号Unicode编码总表:




2.元音字符


    藏文中元音不是字母,而是附加的符号。从书写上看,藏文有4个元音字符,对应于i、u、e、o。其中,i、e、o标在字母上方,u标在字母下方。元音a不标,当藏文辅音字母不带元音字符时,默认含有a。

(虚线小圆圈代表辅音字母,显示出元音字符的书写位置)


元音符号Unicode编码总表:

(注:在文本书写中不出现的元音字符a有对应编码。另有两个在文本中出现的符号没有编码。)


3.变音附加符号

   

    在翻译经典的过程中,会出现有的音在梵文(或其他民族语)中有但藏语中没有的情况。这时就需要使用变音附加符号。


4.数字符号


    数字也是书写符号中的重要体系。藏文中有3套数字书写体系:一套是藏语的阿拉伯数字,其中还包含一套半数字符(如在表示数字1的符号上打一个斜勾,就表示0.5;在表示数字0的符号上打一个斜勾,则表示9.5),这套半数字符主要用于货币表示(如1毛钱-5分钱);一套是藏文大写数字;最后一套是现代藏语中比较常见的,即直接使用阿拉伯数字


5.标点符号


6.篇章起始符


(上图为《西藏日报》网页版截图)
7.吟诵示意、会意符


吟诵示意符号:࿂、࿄、࿀、࿁、࿃
吟诵会意符号:
࿅、࿇、࿈


8.敬重强调符



9.占星历算法


历算符号与占星符号:༕、༖、༗、◌༘、༙


10.装饰修饰符


吉祥装饰符号:万字符(卐、卍)、◌࿆、双鱼符、三鱼符四鱼符࿌ 

筹码符号:


    以上所有字符均已收入藏语Unicode国际编码表中,目前该表共收入字符211个。1997年发布第1版时是196个。


    对上述字符感兴趣的盆友,请关注《藏文字符研究》!书中对各个字符的来龙去脉有详细讲解。值得一提的是,这本书已被译为英文在国外正式出版,真是棒棒哒!!


三、藏文书写与拼读


    

      藏文是拼音文字,有着自己固定的语法,它们在发音、构句、书写等方面与汉字截然不同。


01

书写

    书写藏文的传统用笔是一种用毛竹削制的竹笔,藏语称“纽古”。


    




    下图中标识出的红色水平线被称为基线,书写字母时要在基线处对齐,基线下方长短不一,基线上方是元音字符。在做藏文识别时,基线非常重要,一旦将基线识别准确,便可判断出位于基线上方的肯定是元音符号。

    如图所示,藏文的字,左右宽最多为四个字丁,上下最多为四层。这种非线性的立体结构,为藏文信息处理中造成了不小的麻烦。    在书写时,整体规则是从左到右,从上到下。上图中文字的书写顺序为:1. 前加字符  2. 上加字符  3. 中间的基础字符(基字)  4. 下加字符  5. 元音字符  6. 后加字符  7. 再后加字符。         藏文中共有5个前加字符、3个上加字符、4个下加字符和10个后加字符。

02

拼读

        藏文字符与国际音标对应如下:

     藏文有30个表示辅音的字母和4个表示元音的符号。按照传统藏文拼读法, 辅音和元音拼合时, 是先读辅音字母的名称, 再读元音符号的名, 然后读拼出的音节音。即:辅音 + 元音 --> 音节音。

     如有后加字,还要在基字和元音拼出的音节上再和后加字拼读。即:基字 + 元音 --> 音节音 + 后加字 --> 音节音。    

拼读示例:

    更多藏文拼读规则,参见《藏文拼音教材》。    藏文拼读规则不难,通过短期强化训练即可掌握,但藏文存在较普遍的词内变调,藏语语音识别难度大,进展较慢。


四、藏文音节结构


    如上节所述,辅音字母依其在音节中的位置和作用分为基字”  “上加字”  “下加字” “前加字 “ 后加字“再后加字,再加上元音,即构成一个音节。以下为长度最宽、高度最高的音节(不算梵文音译音节):


藏文传统音节结构的8类构成情况如下:


    一般来说,藏文中只有1个基字。但随着各种语言文化的交流交融,后来又出现了一些新的音节结构,即同时有2个基字的音节结构:


五、藏文文法特点

1. 字词



2. 短语



3. 句子

4. 标点


5. 音节黏写



六、藏文规范化和信息化

  

01

历史上的厘定

    据藏文史籍记载,藏文在历史上曾进行过三次较大规模的厘定规范。


    第一次厘定:在墀松德赞和墀德松赞时期(8世纪中叶—9世纪初叶),主要根据当时译语的发展和规范需要,编写了规范译语的翻译工具辞书《梵藏词典》。这是藏文辞书史上的第一个里程碑。


    第二次厘定:在吐蕃赞普墀祖德赞时期(9世纪中叶),主要是统一译名,规定译例,校订旧译经典,新译显密经典,进一步对藏文进行规范。


    第三次厘定:11世纪初叶,修订文字,厘定新译语。 


02

目前已有的相关规范标准

    

03

编码历程

    1997年,藏文编码国际标准字符集方案形成。


    1998年,我国正式发布了藏文小字符集国家标准(《信息技术信息交换用藏文编码字符集基本集》(GB16959-1997)。《基本集》占用192个码位,提供了168个编码字符,空缺24个码位。


  1999年,Unicode 3.0 (193个),增补了25 个字符:ཪ、 ྖ、ྮ、ྯ、ྰ、ྸ、ྺ、ྻ、ྼ、྾ 、 ྿ 、 ࿀ 、 ࿁ 、 ࿂ 、 ࿃ 、 ࿄ 、 ࿅ 、 ࿆ 、 ࿇、 ࿈、 ࿉、 ࿊、 ࿋、 ࿌、 ࿏ 


    2005年 ,Unicode 4.1(195个)增加了两个字符,信函起始符,晚辈用༉、平辈用༊。


   2008年,Unicode5.1 (201个)增加了6 个字符编码,kka(0F6B),反写( 0F6C ),双音节点 (0FD2),单云头符:( 0FD3),单云腰符:(0FD4),黑白子符: (0FCE)。


    2010年, Unicode6.0(211个)又增加了10个字符。


目前,藏文编码中同型异码的问题仍待解决。

04

语音识别


此外,藏文OCR文本识别准确率已达90%以上。


05

词法分析和句法语义分析




藏文句法语义分析难度较大,目前做了1万句左右。


06

机器翻译

藏文的机器翻译系统,目前主要有如下四种


(中国民族语文翻译中心)


(中国科学院软件研究所)


(西藏大学、厦门大学)


(东北大学)


本期责编:郭萌萌、刘柳

往期回顾

中国少数民族语言信息化现状如何?| 赵小兵教授访谈

为什么要有多语种、多方言的“绕岛巡航”宣传片?“精准发力”离不开“语言助力”!

语标陪你走过的2018 | 年度菁华好文总推送

语言智能与社会发展论坛之2018宣言:语言智能与外语教育协同发展

诗情画意里:李宇明教授2018诗作自选集《戊戌浅唱》

这么美的文字不能不认识!(干货 ! )彝文专家讲彝文 | 讲座回顾

讲座回顾 | (干货!) 蒙古语和中国蒙古族语言生活现状

(干货!)你好,傣文发展小史了解一下 | 讲座回顾 

讲座回顾 | (干货!)里程碑式的“中国语言文字使用情况调查”

讲座回顾 |(干货!)完整讲述汉语拼音的三生三世需要几步?

中式英语,你中招了吗?莫方,潘文国老师带你“避雷”!|《语言规划学研究》


语标,你的语言风向标

点击识别二维码,关注我们~




    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存