查看原文
其他

“数字人文的学术评价体系:定义与规范建构”研讨会发言汇编(下篇)

王涛 陈静 等 DH数字人文 2022-07-17

数字人文与评价






王涛 陈静 等 

吴雪映/整理

------------------------------------

上接““数字人文的学术评价体系:定义与规范建构”研讨会发言汇编(上篇)”


胡恒(中国人民大学清史研究所):


数字人文研究与现行学术评价机制嫁接的可能路径(线上)



数字人文近些年在国内外日益成为一股强劲的学术潮流,吸引越来越多学科的进入与学者们的注意,日渐显示出其旺盛的生命力。但这一新兴方向繁荣发展背后,一系列迥异于传统论著型的数字人文成果无法被纳入现行学术评价机制,成为困扰数字人文研究者的重大难题。越来越多的学者从促进数字人文健康发展的角度,尝试性地发出为数字人文建立独特学术评价机制的呼吁。不仅中国,即使是在数字人文发展较早的英美诸国,也都存在类似的困扰。爱尔兰都柏林三一学院的Poul Holm教授等人在对世界各地数字人文发展调研的基础上,着重将“学术界的奖励机制并未纳入数位出版”单独予以论述,并不无忧虑地写道:“许多想要追寻学术生涯的未来DH研究者,可能会看到他们自己被迫要在两个世界中竞争——人文学的数位世界和传统世界——同时要担负在两个世界中都没能出类拔萃的风险。”纽约州立大学布法罗分校的数字人文研究社群专门设立了关于数字人文学术评价的页面,既收集了来自数字人文研究者的声音,也涵盖了来自学术评价部门包括研究机构和雇佣机构的观点。欧美建立了多元化的学术评价机制、存在运行良好的学术共同体及一系列指导数字人文评价指南的地方,数字人文的评价尚且存有争议,对于中国缺乏可靠的同行评价,更多依赖于量化指标的学术评价机制来说,对数字人文进行客观准确且可操作、可持续的学术评价显然更具难度。


然而在我看来,就目前而言,单独建立数字人文学术评价机制还为时过早。


第一,数字人文属于计算机科学与传统人文学科相结合的“交叉学科”,但并不具有唯一性。近些年交叉学科如雨后春笋般出现,这反映出经历数百年现代学科分化之后的新一轮逆转,学科融合的趋势大大增强。2020年8月,国务院学位委员会新增交叉学科为我国第14个学科门类正是一个标志性事件,美国早在2000年前后就在学科专业目录(Classification of Instructional Programs)中设置了交叉学科。如为数字人文特设一套评价机制,则类推起来,其他学科亦可同样强调各自学科特性而产生N种评价机制。学术评价机制之所以成立,恰恰就在于它要为多元、分散和差异化的学科体系找寻到相对能够为多数学科、学人所接受的评价标准,尽管会对不同学科、不同成果的特殊性予以考量,但普适性仍是最重要的考量要素。


第二,数字人文的内涵非常宽泛。如Brett Bobley所说,“它是一个围绕着技术与人文学术诸多不同活动的伞状概念”,就目前国内数字人文业已参与的学科而言,已涉及到历史、文学、哲学、艺术学、图书馆学、计算机等领域,且其外延正处于剧烈变动时期,充满了不确定性。以数字人文研究学者来源之多元、学科领域跨度之大、话题与方法差异之明显,谁来评价,谁能够评价,都将是一个极其棘手的问题。


第三,从利用数字及定量方法较为成熟的临近学科的经验来看,数字当然对学科发展有所改变,但对各学科关切的基本问题和提问方式恐怕改变还不是太大。项洁教授在清华大学《数字人文》创刊会上提到:“当数字化和定制工具成为‘直升机’,数位学者可以轻松鸟瞰文献全貌后,真正的发现却依然要依赖于学者自己的经验和对问题的深入把握。”事实上,回到各自学科,与笼统、宽泛的“数字人文界”相比,这才可能是真正意义上的“同行”,也才具备学术评价的知识储备。既然要回到各自学科,这就意味着传统的学术评价机制并非完全不能容纳数字人文的评价问题。


在这三个大前提下,目前为数字人文建立单独学术评价机制的条件并不成熟,并且数字人文是否有必要建立单独评价机制,不仅取决于学理本身,也取决于本学科从业人员的规模及业已取得的学术成绩是否足以支撑,从这一角度而言,目前尚不够成熟。因此,就当下数字人文发展而言,如何策略性地、建设性地寻找数字人文发展与现行学术评价机制的衔接,更好地扮演一个“建设者”“融入者”而不是“革命者”的角色,也许是一种更为稳健的策略。学术评价机制亦非一成不变,随着数字人文研究成果的增多和学术影响的扩大,学术评价机制亦会随之调整,只有深度参与和融入,才有逐渐改善的希望,使之朝向有利于数字人文的方向发展。


谈论所谓数字人文发展受到现有学术评价机制的约束,这固然是问题的一面,但问题的另一面在于数字人文真的与现有学术评价机制格格不入,以至要推倒重来吗?现有学术评价机制提供的空间是否已被充分利用了?在我看来,并不尽然,数字人文研究仍然大有可为。


一、发展研究导向型数字人文项目。我们始终要承认单单依靠新技术并不能与新贡献划上等号,数字人文项目的价值与意义绝不在于追求技术的新颖别致。到目前为止,就我熟悉的史学而言,我认为数字人文设问的方式多数依然来自传统史学研究。2020年4月24日《中国社会科学报》所刊出的《理性看待跨学科研究热潮》一文,在援引《泰晤士报高等教育副刊》对学者的采访中提到:“很多跨学科研究项目看上去很热闹,很容易受到关注,并得到短期资助,但是,如果这些研究不能有所产出,这股热潮终将散去。”当下数字人文引发极大关注,甚至显得“虚火旺盛”之时,这些提醒弥足珍贵。俗云“基础不牢,地动山摇”,在各学科围绕教学与研究资源竞争时,数字人文的发展不能只在概念、理论和方法上打转,而应该在启动数字人文项目之初优先考虑研究性产出问题,要有实实在在的研究成果和数字人文项目,只有这样,数字人文才能在学术界站稳脚跟,也才能在此基础上“拆东墙补西墙”,匀出资源做一些为传统学术评价机制尚无法容纳的“情怀式”的数字人文项目。如何将数字人文项目与现有学术研究无缝对接,既蕴含数字人文的新意,也能适应传统学术研究与发表的需求,就变得非常关键。我非常赞同南京大学梁晨教授在《江海学刊》上发表的《量化数据库:“数字人文”推动历史研究之关键》一文所提出的,将量化数据库的建设与研究作为当下数字人文建设的重点所在。


二、着力建设高质量的数字人文基础设施。这是许多研究者所公认的目前国内数字人文领域的薄弱环节。一个新的学科在兴起之初,理论方法及学科界定的讨论自然有其必要,但过度沉溺于此,显然偏离了方向,应当将主要精力放在基础设施建设上,如此方能行稳致远。目前存在的主要问题是:(1)好的数字人文项目不多;(2)可公开共享的数字人文资源有限,多数被列入基金支持或宣传报道的数字人文项目往往雷声大雨点小,“只听楼梯响,不见人下来”,既不能公开共享,数据质量亦无法检验,这样即使做出一些数字人文研究成果,也无法验证,不符合科学性的要求;(3)不少数字人文项目无法满足各相关学科对数据质量的要求。总体来说,我们对数据库等数字人文项目错误的容忍度偏高。


三、跨学科研究当中,尊重彼此学科最基础的方法论变得很重要。数字人文的优势在于它与人文比更数字,与数字比更人文,但有一个前提:任何研究都需尊重所涉学科最基础的方法论。我们有些遗憾地看到现有一些数字人文研究成果完全忽略人文学科最基础的知识背景与方法论。如果一项研究利用了新的技术手段,但并不尊重所涉学科的基础理论,得出令人惊愕的结论,那么它对数字人文的健康发展所带来的恶劣影响是巨大的。


四、拓展数字人文研究发表平台。一方面,要创办数字人文研究的期刊方阵,并争取进入核心期刊目录,以尊重和融入现有学术评价机制的模式在一定程度上解决数字人文研究评价问题。目前中国人民大学创办了《数字人文研究》期刊,清华大学与中华书局合办了《数字人文》辑刊,华中师范大学创办了《大数据与中国历史研究》辑刊等,但还不够。另一方面,还可以设立若干数字人文民间基金和奖项,开展数字人文学界与产业界的跨领域合作等。


五、改善数字人文的教学。近些年,随着国家对本科、研究生教学的日渐重视,教学评价在学术评价体系中占据了越来越高的比重,最近教育部又在推进“新文科”建设,这对数字人文来说,正是一个良好的发展契机。据目前所知,南京大学、北京大学、清华大学、中国人民大学、天津大学等都开设了与数字人文相关的课程,且已取得显著成效,有的还获得了一些奖励,应该继续推广。


当然,上述想法主要还是基于当下学术发展大环境而对数字人文健康发展所做的策略性、战术性考量。不同分支领域的数字人文的评价问题也许并不相同,我所谈的主要是基于历史学特别是中国史方向的数字人文评价问题。我相信,学术在发展,一个多元的基于学术贡献的学术评价新体系终将建立,而数字人文的评价问题也将迎刃而解。



申斌(广东省社会科学院历史与孙中山研究所):


荒原野草与“权法”:数字人文学术评价逻辑的一点浅见(线上)






数字人文的成果形式是全新的,但是数字人文成果由人产生,其学术评价由人进行,评价的后果也由人承担,而人性不是全新的。所以在具体讨论数字人文的学术评价之前,我想回顾一下学术评价的形成逻辑,这有助于我们厘清今天究竟是在什么意义上讨论数字人文的学术评价。


从本质上来说,学术评价的根本意义,在于帮助人类筛选出有价值的研究成果,进行知识积累,以让人生活得更美好。真正有价值的学术成果决不会被永远埋没,不但后来的学者会在追求真理的研究之路上去追随它,而且也必将被运用于现实。学术研究和社会现实的长期发展,会自然筛选出有价值的研究成果。因此,最可靠、最合理的评价者其实是时间。反过来说,就是当下的(共时的)学术评价会存在误差,甚至出现误差的几率很高。无论理科还是文科,无论社会科学还是人文学科,无论古今中外,根据当下认识对很久以前的研究成果进行重评的事例太多了。今天认为好的,四十年后可能就被认为一点价值也没有甚至是误导性的;今天无人留意的甚至被认为差的,四五十年后可能被奉为经典。


但同时代的学术评价是一直存在的,因为这是自然的和必然的。在人文学研究职业化之前,以及已经职业化但从业人数较少的时候,学术评价不是由“研究的行政管理部门”或者“研究者学术共同体”有意识进行的,而是在学者们通过阅读论著、研究写作、授课、公开和私下交流,自然而然地形成、表述出来的。这种对人的综合学术水平及某方面研究造诣的评价,表现为非正式的“口碑”。在当时,这种口碑在很大程度上是具有公信力,可以服众的。目前被广泛认可和采用的“同行评议”制度就是这种非正式口碑的制度化产物,只不过增加了一些“匿名”的形式以防蔽。


但是,同行评议制度的有效性是有适用限度的。就范围来说,需要限定于小领域内部,因为当代学术研究高度分化,评价所需的知识非常专门;就功能来说,同行评议首先是用来维护学术规范,排除掉“不合格”的研究,其次才是遴选出优秀成果。当成果分属相距较远的领域时,同行评议其实很难从真正学理意义上对其分出高下。


随着学术研究职业化、职业研究者从业人数激增,以及政府对科研投资规模的扩大,基于形式或量化指标的评价出现了。它的诞生不单是管理者的需要,也是科研职业化后的内在要求。量化指标评价依据引文率、权威期刊、核心期刊等几乎不涉及专业研究内容的标准,所以非常适合于行政管理,可以让管理者花最小成本、以最客观的方式来进行跨领域的学术研究投入产出比较评判,这是其外在动因。而学术研究职业化,意味着从业者要靠做研究获取报酬维持生活。于是,不同领域的研究者需要彼此竞争以获得科研经费资助。这时小领域同行评价就失去公信力了。学术共同体也需要寻找一个可以平衡各方利益,可以服众、有公信力的评价办法(其主要功能在于遴选优秀,而非把合格关)。至少看起来更客观的各种量化指标承担了这一角色。今天我们常常批评科研管理部门唯量化指标是从,但千万不要忘记其实这背后也有来自学者内部的需求。量化指标评价虽然存在弊端,但仍是现实中最能服众的一种评价方式。


纯粹学问意义上的学术评价是自然形成的,一直都在进行。我们大概没人否认CHGIS、CBDB、MARKUS、清代粮价资料库、中国基本古籍库、《四库全书》全文电子版在中国史学发展上的重大价值,对它们不足的批评也一直都有。从长远看,我们不需要担心没有评价标准会导致混乱,不利于数字人文发展。时间会自然地把浑水摸鱼的东西淘汰掉,冲洗得毫不留痕迹,大浪淘沙最后留下具有长远学术意义的真金。


所以我们这里讨论的,其实是需不需要一套能被学术行政管理部门认可的评价指标体系。之所以今天各方都很急切地想讨论这个问题,是因为方面研究者甚至是科研机构在数字人文上投了不少精力、时间、金钱,却因为没有被管理部门认可的指标体系而难以获得相应的认可与回报(薪酬、职称、评奖、人才帽子、基地牌子等),从而不但影响了自己继续投入的热情,也制约了科研经费的获取与科研人才的吸引,进而不利于数字人文项目及整个方向的发展。另一方面,科研管理部门也开始投入了不少资金建设数据库,但绝大多数数据库建成、项目结项后就成了僵尸数据库,既没有向社会开放,也没有人员和经费去做后期维护、更新,更不必说追踪完善了。从学术知识积累、普及、传播角度看,经费颇有打了水漂的感觉。所以管理部门也希望有个指标体系以便于评价这种新型学术成果,并且探索一种新的资金支持方式,促进数字人文形式的成果积累和完善。


明确了我们需要什么样的评价体系和为什么需要之后,可能有些问题讨论起来就更清楚了。我有以下四点意见。


首先,对于数字人文这样的新兴领域而言,“荒原野草”才是目前最好的状态。有太多的制度诱导,反而可能限制了数字人文潜在的无限可能性。没有利益诱导的时候,可能浑水摸鱼的人还少一些,完全从纯学术兴趣出发的人更多些。真正意义上的学术创新,往往是几个人出于好玩的心态做出来的。凡是可以被体系化、计划化、规范管理的,都只能是对有着充分确定性的科学原理的工程性应用。就我所知,比如厦门大学郑振满老师的莆田历史人文地理信息系统,就是花了长达二十多年时间完成的,其间没有直接的支持。目前大陆史学界做数字人文最投入的学者如王涛、潘威等都在此过程中,靠着数字人文产品以外的、传统的论文等成果(当然与数字人文有密切关系)获得了职业生涯上的成功。所以数字人文在管理部门那里没有被认可的评价体系,虽然会给数字人文发展带来很多麻烦(最主要的是对大型数字人文项目缺乏可持续的经费支持),但从长远看并不会真正阻碍数字人文的发展。


其次,目前开始思考建设一套能被学术行政管理部门认可的评价指标体系也是有意义的,只是作为从事数字人文的研究者,一定要很清楚这是一个为了让数字人文在现有科研体制下活得好一点的“权法”,不能太当真,以为能设计出一套能很好地评价数字人文工作及产品价值的标准体系。评价标准的设计思路一定不能是“如何评出最好的数字人文成果”,而是如何“否定掉那些肯定不合格的数字人文成果”。换句话说,这个评价体系是划底线用的,不是设定“优等生”标杆用的。因为数字人文是新兴领域,我们实在不知道未来哪些研究成果会有多大价值,所以需要尽可能地保持多元开放态度。而一旦设定出一套“优等生”认定标准,那么是在无形中通过利益诱导扼杀其他潜在的可能发展趋向。


再次,关于具体措施,现阶段探索一套完全独立的全新评价标准恐怕是不现实也不必要的,扩充既有的不同科研成果评价体系,把数字人文成果分类纳入相近的成果评价体系更为可行。比如数字期刊、数字博客,可以在期刊、文章评价中给它们一点空间;可视化网站可以参照博物馆、展览等评价;数据库、程序其实提供的是一个研究平台和科研工具,可以参考理科实验室和试验技术方法的评价,等等。对于需要持续的资金、人力支持的大型数字人文项目,则可以参照类似国家实验室的管理办法,根据其数据、功能的扩展,用户使用情况和体验,定期动态考评。


最后,关于评价中的回归学科与跨学科的矛盾,从宏观看,这是个时代过渡性问题。目前的数字人文还只是数字技术在传统人文研究中的应用,除传媒研究外,多数还是把前数字时代各种各样的非数字的信息人为数字化以后,再开发各类平台、工具进行研究。在这种状态下,其实我们要评价的数字人文成果,绝大多数还是可以、甚至必须放回各自的学科脉络才能评价的。可是再过三四十年,人文社会科学首要研究对象是数字化生存的人和人的数字活动,处理的主要是原生数字信息,恐怕那时整个人文学科、社会科学的定义可能都会有很大改变。我们今天大概无法预见这将是怎样的改变,那时所有学科可能都数字人文化了,也可能都消融成为全新的数字时代的人文学;或许未来人文学依赖的主要会是像BAT这些公司的技术和平台,研究资助者也可能更多元。所以,对未来保持开放,可能也是以“权法”看待评价标准的题中之义。


李江(南京大学信息管理学院):


科学学视角的学术评价





我题目中的“科学学”是一个术语,Science of Science,是一个新兴的研究方向。我跟大家分享五个问题。第一个问题,学术评价指标的使用准则。下图来源于1978年我们这个领域的一个专业期刊Scientometrics第一期的一篇文章,作者是Francis Narin。在过去几十年里,我们一直认为这张图是使用学术评价指标的准则和指南。


图里指标的分布,右侧轴是客观程度,上边的轴是接近于被评价对象真实状态的程度。我们评价的目的是揭示被评价对象的真实状态。指标的分布,最右侧的是加权发文量,被引次数,高被引论文,一直到左上角那边的是非结构化的访谈或者叫同行评议。越靠右侧的是越客观的,都是定量指标。而越靠上方是越主观的,同时它是越接近于被评价对象的真实状态,比定量的指标更接近于我们想要的东西,但是这有个前提,这是一个规范的同行评议。有人会问,这两者一看就不能兼得。我们有没有可能用中庸的思想去选一个折中的方案,选择兼顾客观和接近于被评价对象真实状态的两个指标的方案,比如右上方的这些指标可不可以?这从来不是学术评价追求的目标。

第二个问题,同行评议。1665年,英国皇家学会创办了一个期刊叫做《哲学汇刊》。我们通常认为这是科学领域的第一本学术期刊。这个期刊创刊的时候建立了一套来稿登记、同行评议发布和荐稿的制度,这是所有学术期刊现在沿用的一套制度。最初的同行评议制度跟我们现在看到的不一样,一直到一百多年后,大概在1770年代才开始有了规范的同行评议。我们对同行评议的认知通常来自于自己的经历,如果我们的项目和论文在送给同行去审的时候遭遇了不公,我们对于同行评议是持有偏见的,会有各种各样的情绪,导致我们错误地认为同行评议不是一种合理的学术评价机制。但事实上同行评议是最接近于被评价对象真实状态的。但是从这个图上来看,同行评议就一定是最好的指标了吗?它不是完美的。


第一个缺陷,从文献上来看,前人的研究表达了这样的观点,同行评议能识别出差的,但识别不出好的,同行评议经常拒绝开创性贡献。举个例子,阿克洛夫的一篇文章《柠檬市场理论》初期投稿时频频被拒,到第三次投稿的时候,审稿人居然有点调侃地说,如果这个观点是对的,那么经济学就要改写。然而阿克洛夫2001年获得了诺贝尔经济学奖。


同行评议第二个不完美的地方,在于不靠谱的同行评议让三分之一的基金评审处于随机分配的状态。John Ioannidis提出,项目不要申报,改为按人分配经费。按人分配有三种。第一,人均分配,经费预算总额由所有符合资格的人平均分配。第二,随机分配,跟北京汽车摇号一样。第三,按人以往的研究业绩分配。这三个方案都不是按项目申报的。这很不靠谱吗?不一定,我做了一个测算,自科基金项目的“中奖率”大概是20%,按照4年连续申报,不规定两年申报不了要取消一年的资格,那平均报4年也能中一次,中一个项目能管4年,所以这个概率其实也差不多,还可以完美地回避一些非常关键的一直被诟病的问题,如性别歧视、年龄问题、关系问题等,甚至还能极大减轻同行评议的评审负担,所以确实有机构在这么干。


同行评议也遇到了一些危机。如今的发表论文数量在大幅增长,三十年前发表的国际论文大概一年几千篇,现在一年是二十万篇。但中国的审稿人有多少?这么多稿子来了,可是审稿人没有大量增加,同行评议的危机就在于少数审稿人承担了极大的审稿任务,导致审稿质量下降。所以尽管我们认为同行评议是最接近被评价对象真实状态的评价方案,可是它依然有很多不完美的地方。


第三个问题,定量评价指标。刚才在Francis的图里定量评价指标都在靠右侧,非常客观。可是离被评价对象的真实状态比较遥远,但是它受欢迎的一个很重要原因是,在一个关系社会里我们通常会倾向于用一个相对客观的能够说服更多人的方案来做学术评价。所以在过去30年,我们做了大量的定量评价。经济学里面有一个定律,叫古德哈特定律,是一项社会指标或者经济指标,一旦成为一个用以指引宏观政策制定的既定目标,那么该指标就会丧失它原本具有的信息价值,这个指标就是GDP。我们所有的指标跟GDP现在的处境是一模一样的。我们可以找到一个指标来替代期刊影响因子吗?替代不了,它只是不一样,谁也替代不了谁。


2012年,有一个《旧金山宣言》,它的内容比较多,其总的建议是禁止使用基于期刊的定量指标,如以期刊影响因子作为评价单篇论文质量的替代指标,来衡量科学家个人的研究贡献,以及在人员聘用晋升或资助决策中直接使用。截止到现在,有2,035个机构在上面签名,放弃使用期刊影响因子,还有一万多个个人签名。第二,《莱顿宣言》提出了学术评价的十个准则,最重要的一个是量化的评估应该支持而非取代专家评审。第三个宣言是2019年下半年欧洲的一些国家发起的一个倡议,叫做《关于学术交流语言多样化的赫尔辛基倡议》。它最重要的一个观点是在科研评价与基金资助中,要促进语言多样性,保护当地语言。


第四个问题是面向真实世界的影响力评价。我们前面看到所有的指标,像publications,citations,journal impact factors,这些都是面向学术界的,这些评价的投票人都来自学术界。所以评价应该面向真实世界,它不仅应该包括学术影响力,还包括社会影响力、经济影响力、政策影响力。随后Gunnar Sivertsen及其团队开始做面向真实世界的学术影响力评价的研究。


第五个问题,关于数字人文的学术评价,这似乎应该是重点。但遗憾的是,我觉得我不懂数字人文,我也不应该对数字人文的学术评价指手画脚,所以我把这一块留白了,希望大家如果有问题的话一起讨论。


裴雷(南京大学信息管理学院):


数据引证与评价:方法、工具与挑战





我是图书情报专业的,学术训练就是从学术交流开始的,我们学的是米哈伊洛夫的学术交流模型。在图书情报的学科视野中,学术评价是学术交流系统里面的一种正式的反馈环节,最终是为了促进学术交流。今天我想跟大家交流三个方面的问题。


第一是关于数据成果如何进入学术评价体系。我们也谈了一些可行的路径,最直接或最有效的就是引证体系。如果数据成果能够被引证、传播和发现,那么这样的成果事实上能够进入到学术评价体系,虽然不一定能从价值层面对成果进行准确评价,但无疑提供了一类数据成果学术评价的可操作的方式。


第二是图书情报领域在数据引证实践过程中的一些观察和思考。我们为什么要去推动数据引证?最朴素的动机是为了更有效地推动数据重用。数据重用和数据引证是一种可行的成果后评价机制。与之对应,同行评议或者期刊评审是前评价机制,即在发布之前怎么评价它的价值。引证提供了一种简单、不完备、客观度很高,但是不一定接近真实的价值评价的工具体系。


那么,为什么要管理数据?为什么要做数据链接?为什么要做数据的发现?为什么要去重用数据?因为数据本身的价值,它的再利用或者说是被转化利用,能产生新的学术成果。我们做数字人文,不是为了做一个人文项目自己玩的,而是让更多人做出更多的成果。其实抱怨更来自自然科学领域,因为自然科学领域有大量做数据的人,比如陈刚老师做GIS,地理里面有大量的数据,这些数据工作的成果如何去认定?所以在Nature上也有一篇文章讲到,我们都在重视谁有闪亮的观点发现,却忽视了真正在做数据的这些人的努力,数据的价值非常高,但是没有得到充分重视。



第三个就是缺乏数据引证的标准形式。现在图书情报学者也在做数据引证研究、软件引证研究或者叫工具引证研究。他们做了很多基础性的工作,但是这些工作要么由于使用者没有引证意识,要么没有引证规范,不会引用,被忽视了,这是我们面临的一个现实问题。有些论文作者也会去做标记,但标记不规范。


总结起来,有这样几种标记的方法。我们做一个静态网页去标记这个数据是出自哪一篇文章或哪一本书,所标记的引文出处作为一条属性信息就代表了一个数据结果。还有一种方案叫OECD方案,它会对数据赋一个唯一的DOI号,这种DOI号事实上是一种数据出版,可以定位到一个数据集产品。此外,还有用URL的、用网址的、用嵌入式的,以及最难做的动态数据的引证。而数字人文项目很多是交互性的动态项目,不一定能够准确引证到数据。因为数据引证的根本目的,一方面是评价数据的结果,另一方面是要指引使用者能够再次发现这个数据集。如果只给一个DOI号很难达到数据重现或重新发现目的,所以这是一个现实的技术性难题。也有一些行业协会在推动自身的数据引证结构,还有一些数据机构也在做,比如很多数据存储机构会在数据存储过程中生成数据集的句柄,这个句柄具有指向作用,可以形成一种引证结果。我们也在做这种工作,在此基础上也做出了一些基础性的工作,就是有大量的数据集句柄,它构成了一种数据出版平台,或者是一种数据的索引工具,这就是从数据的索引问题到数据索引工具的一个变化。


这里要给大家介绍几个比较有代表性的,比如英国的Digital Curation Center对所生成的数据形成大量的引证链接的一种标识符,DANS也做数据存档的引证标识。此外还有期刊,现在全球共有1,370多种数据期刊,它们不仅要求提供论文成果,而且需要提供论文数据集。这些论文数据集会形成大量再传播机制,这都是一些有意义的探索。一些大型数据出版集团也做了一些引证工具,比如汤姆森路透的DCI(Data Citation Index)。在数据引证这个环节,通过这样的处理,虽然不完备,但是已经基本实现了数据的发现和一定层面的评价功能。而且数据科学和学术出版领域的学者会有一些相应的评价分析方法介入,可以形成一种新的知识再发现和再挖掘。


怎样推动数据引证真正进入学术交流体系,不论是世界论文索引标准里,还是中国的论文索引标准里,一定要有数据引证标准格式和标准规范的出现。对此我们呼吁了很久,但是数据集的引证标准规范还没有出来。我们也去做了一些跟踪,比如谷歌数据检索,在技术层面是可以实现唯一标识符的,但是这种唯一标识符如果不符合学术交流的标准规范的话,其实也是一个无效的加工和学术传播体系,现在的学术期刊很有可能觉得引证不规范就会把它拒掉,这是一个问题。


第三,引证也存在一些难点。第一是在技术层面上,比如动态数据、交互性数据的引证和发现问题。第二是引证标准还不能够完全作为一种事实性标准,存在于现有的学术交流系统里。所以这造成了研究成果没有被评价或被重视,比如在数据引证上还有一个共同作者的问题——首发作者、汇聚作者、可视化作者等。将来如果出现引证目录特别长,需求文件格式都没法做的情况,应该怎么去标识各个作者的价值?我们一个学生在做一个叫数据出版的创业项目,想用区块链的方式确定学者的数据首发权,这对于引证来讲应该是很好的一个基础。


如果要做数据引证,至少有三个层面的问题需要去研究。第一是数据引证如何做到规范化。第二是要有大量的实证,经实际研究证明这种评价体系是有效评价。研究者在数据使用过程中最担心的是数据的真实性和来源的权威性问题,如果有一套引证体系能够解决此类问题,对数据的再复用就非常有价值。第三是数据引证行为问题研究。


总之,目前迫切需要解决的问题,第一是标准;第二是共识,行业跟行业之间差异大。武汉大学的王晓光老师统计过人文社科重大项目,大多都是文献整理和数据整理,但是成果在哪里?数据整理不开放不服务,它就没有价值的延续和评价。怎样去利用真实的学术价值,究竟是发布发表还是被大家再利用,这是我们需要去推动的。未来需要做三件事情:一是数据引证结构进入国家学术标准,这是最基础的。二是需要一整套让数据流转的数据发现和利用的体系。三是需要大家有一定的共识来共建数据标准,有了数据标准,就可以进行开放科学,用众包的形式和集成的方式做项目,那未来的数字人文的价值可能会更加容易得到大家的传播和接受。


潘威(云南大学历史地理研究所):


数字人文与历史地理信息化结合的探索与困惑(线上)





历史地理信息化已经发展了二十年左右,但是在很多方面,特别是西部地区的研究没有任何改变。我自己做的是一些实际的工作,我的探索和困惑也和我们团队的工作相关。第一个问题就是DH和HGIS如何产生价值。第二是我们团队在探索两者融合中进行了哪些尝试。第三是我们现在的工作中一些想不明白的地方。


首先,无论历史学还是处在相对边缘位置的历史地理学这样一个小领域,学科的边界正在淡化,特别是数字人文浪潮起来以后,创新产生在边缘,这些年能够让大家记住的漂亮研究都是交叉的产物。


第二,历史地理信息化的四个组成部分实际上都需要和DH进行深度融合。比如CBDB中的社交网络和CHGIS的地名数据其实已经初步实现了整合,开创了一些范例,后续的发展很值得期待。能够看到实体地理空间和抽象的社交网络空间,两者的融合比对,让我们重新认识历史上发生的事件。在我自己的研究中,第一,它提取史料中的时空信息更为便捷。历史气候史料,将中国的气候变化过程和整个东亚、整个世界半球范围进行对话,特别是基于文献的历史气候的工作路径和第四纪地质、全球气候变化这些领域用的数据进行对话,就必须扩大史料数据的来源范围,提升数据质量。如何更有效地从大量的史料中提取数据,技术的知识体系就变得非常重要,特别是这种方法要便捷准确,光靠人工的办法来做肯定不行。第二,它使得定位历史地理现象更为高效,有更多的时间进行线上的分析。实际上历史自然地理研究一直到2010年左右,相对于20世纪七八十年代的工作好像进展不大,我们的工作更多就是用软件把过程复原出来,分析做得还很不够。第三,建立更为广泛的环境和各要素之间的关系。以往很多自然地理学者的工作是对曲线,单纯的对曲线就能够反映气候社会的关系吗?我觉得这肯定是不够的,如果两者能够结合的话,对于这个问题的认识,可以分区域、分要素来看,这样能够更好地实现对人际关系的认识。第四,建立跨学科的学术共同体,拓展历史自然地理研究成果的受众范围。我们团队的探索路径是什么?第一,我们现在的工作就是以GIS技术为核心,融合数据库和多种波谱分析手段。我举两个例子,比如说我们的近三百年东亚台风研究尝试用一些DH方法,分析中日韩越这几个国家古代文献中的台风信息,接下来在GIS层面上去重建运动路径,最后做了一个历史台风数据管理系统。第二,就是黄河方面的研究,黄河的有关材料量很大,中文材料就很多,近些年我们又发掘出了很多外文史料,包括英文、日文、法文的一些关于黄河的调查记录、老旧地图和水利图等以往用得很少的材料,在这些材料中,我们十分需要DH技术和HGIS技术的结合。台风研究和黄河变迁研究都有一个空间上的问题,都必须把它放到具体的时空环境下才能去谈它的变迁,才能分析变迁的原因和影响。


我们进行了史料本身的文本结构分析,还做了一些网络分析,不同时段会呈现出不同结构。我们再将这些分析结果用GIS平台展现,这能够辅助理解清代治河档案的特征,也便于在庞杂的史料体系中找到我们最感兴趣、最值得去研究的问题。


但是GIS也存在问题。第一,历史文献当中的地理位置记载实际上是不清楚的,即便有了GIS,也有大量的问题没有解决,需要借助GIS与现在的地理建构空间关系。第二,历史图像和文字材料的处理,特别是两者的结合,需要DH和HGIS两者结合的手段。第三,一部分历史文献中的记录是零碎的、局部的,并不是一种系统的变化,我们今天是用水文学知识、地貌学知识,靠过去的那套黄河记录体系,肯定是对不上的。如果我们要去做一个整体情况时空过程,就特别需要GIS手段辅助,如果是史料把握就特别需要DH手段,然后把两者有机结合起来。


在这个工作中,我们有几点困惑。第一,我们本来认为使用了DH技术,资料管理和使用将更为便利,能够将研究人员从繁琐的资料查找工作中解放出来,但是实践证明,借助DH和GIS等信息化手段的过程中,我们并没有缩短单篇论文的时间成本。由于要对文本进行大量的矢量化的前期处理,工作时间和强度其实明显在延长。同时单篇论文经费成本在不断提高,从2010年的1,500元左右,到现在上涨到7,500元,对经费的依赖特别大,我们就要不停地申报课题,最后会发现原本要做的那个东西究竟在哪里?


第二,在人水关系的长时段演变这个问题上,通过营造历史场景,使研究者能够重新认识史料记载,发现史料背后的故事。我们回顾团队十多年的研究成果,比如我们正在努力构建数字历史和平台,尝试将很多元素整合,但是我们已经得到的认识和理解,好像都不是必须通过这些技术手段才能获得。


第三,在历史地理学视野下讨论环境人文互动关系的深入研究,特别是制度社会工程环境之间多维关系的机制好像没有发挥什么作用。比如现在历史气候学界一个最好的关于气候与社会关系的研究大概就是方修琦老师的模型。可是即便是这个模型实际上也有很多问题,因为在这个体系中,似乎认为气候变化就必然会导致一个什么结果。可是实际上只要我们去做一些实质性的研究,就会发现气候传导到社会中,路径是多样的,其实是有很多的制动阀或者转向阀在发挥作用,可是究竟在什么位置,目前来看仍旧不清楚,那么究竟该怎么做?我们也不清楚,这个工作方案拿不出来。


第四,现在广泛认可的成果都有几个特点,如名校牵头、大型跨学科团队运作、著名学者助推。对于西部地区的工作者来说,我们的团队规模没有影响力,我们的学校平台没有那么高,相对于东部地区来说我们有天然的劣势。在这样的情况下,中小团队怎么跟上这个潮流?广大的一般院校,不是特别有名的大学该怎么办?如果我们不注意中小规模团队和个人信息化工作的培养,这一大部分的力量是不是就要被排斥在DH浪潮之外?


第五,我们真的需要一套数据规范吗?当然规范的数据是有意义的,对有效的学术交流还有数据体系的形成是非常重要的,但是目前来看规范和规则会不会影响小方向、小团队的一些探索性工作?如何平衡规范和个人创新探索之间的关系?


何捷(天津大学建筑学院):


文本空间映射(mapping)的知识组织及其学术潜力




建筑学城乡规划风景园林专业里面的一些工作,其实有好多问题,可以给大家的讨论作一个例子。另外中间也隐含了一个问题,就是空间问题在数字人文里究竟怎么去认识。那天看到《风景园林》杂志上四川大学的同行发表了一篇文章,我们团队也在做类似的东西。它的题目没有数字人文,但是关键词里赫然写着数字人文,也算是比较少见的方向的工作。这一年内我审阅了很多篇发表在核心期刊《中国园林》《风景园林》的与数字人文相关的论文,无一例外都有比较多的问题,下面这两个是比较典型的。我自己做这个工作其实很难,它好像变成一个很火热的途径了,究竟是真的火热,还是大家觉得这是一个套路,是一个投机的方式,可以跟大家讨论一下。


那篇论文我看不太懂,我就用笨办法自己做了一下,发现问题更多了,这里面有算法的一些问题,还包括古今意义的不明,包括远读和精读的关系。我们想不出来他这个东西是怎么做出来的,假如数字人文是可重复、可追溯、可验证的,这个事就很好解决。我们用很多方法去试验它的数据集都不成功,实验也没法去重现,因为唐诗还是一个比较复杂的事,涉及词汇共现问题、情感分析问题,把这些情感和词汇map到关中空间里面有好多问题,没法实现。现在大家喜欢用诗词古文或者其他文学作品来讨论地方景观认知的问题,这在理论上是可以的,但究竟怎么做还是一个比较大的问题。


我们也在尝试。我们正在试着处理诗歌的数据集文本,有关关中的诗歌,原来的文章里分了几大类,我把写景的单独挑出来,最后得出结论:关中就是长安,但凡写到关中的,基本上还是在写长安。我们也把这些共现的问题重新考量,看地点与地点之间共现关系,以不同的视角去看,我们现在也没有完全理清楚这个逻辑,从数据本体到分析逻辑、方法论,用现代文本的做法去做唐诗文本是完全不搭界的。另外就是context的问题,像长安即关中这个问题,我们一开始觉得可以不谈长安,但是长安是跑不了的一个事实。我二十多年前做汉长安的一些历史研究,对这个东西比较熟悉,因为在长期的权力发展过程中,关中的景物变成一个很有象征性意义的东西。它不是真的写景,好多意象都是权力的象征。


我们一直在讨论空间的问题,但空间究竟是什么?空间是不是只是一个地理的问题?空间和地方的关联性,怎么去认识象征问题?我们充分体验到了复杂性,以前觉得指代是比较明确的事情,但后来发现空间地方性更强的时候,mapping本身可能就不是直接对应的关系。空间尤其是这种地方问题是不是真的可以mapping到一个实体上,这在理论上可能需要进一步讨论,也是空间人文需要去考虑的。我们也做了一些其他项目,比如上海钱庄,就是mapping不了的。空间的网络,mapping里的属性,家族对钱庄的掌握,以及家族里面拥有人和经理人的关系,在空间上是不是真的存在?可能map不是真实的,也可能是一些关联的、意象的或者结构性的。其实可以通过数字方法建立DH知识体系,这可能从另外一个角度更好地发展了数字人文的内涵。


陈刚(南京大学地理与海洋科学学院):


时空GIS基础框架建设的基本概念及规范化问题思考




我围绕目前自己开展的工作,谈一下历史地理信息系统建设的时空数据框架及其规范问题。随着信息技术飞速发展,“数字人文”理念不断深入,促发中国历史地理学及信息化研究领域取得长足进步;其一,涌现出新型研究成果,产生了一批具有重要学术影响力、普惠学林的历史GIS基础数据库及信息系统;其二,推动了学科发展,产生新的学科增长点,壮大了学科研究队伍;其三,在大数据时代,历史地理学领域开始革新研究方法与研究理念,开始产生新思考和新探索,并促进了跨学科合作与国际学术交流。数字人文本身是一个跨领域的松散学术联盟,比如我们南京大学几位从事数字人文研究的老师,虽然来自不同学科,但我们有共同点,即认为数字技术可以帮助大家在各自研究领域提出新问题、开展新研究与产出新成果。


同时,以GIS为工具的数字人文研究得到学界关注,这与近年来在人文社科领域,以空间为维度或导向的学术研究的大量涌现密不可分。在历史学领域,Knowles(2000)率先阐述了历史学研究中“空间转向”(Spatial Turn)的意义与历史地理信息系统的应用,包弼德(Peter K. Bol)指出历史学已进入“空间转向”时期,空间成为理解历史过往之现代思考的核心词汇。台湾“中研院”王汎森院士(2014)也说:“在GIS工具的帮助下,历史研究者可以从空间的角度去思考问题。”


近年来,台湾“中研院”范毅军研究员提出倡议,藉由历史地理信息系统(Historical GIS,简称HGIS)建设和推进数字人文领域的广泛合作,研建虚拟时空框架,进而发展空间人文,“重回历史现场”的学术倡议与构想,进而提出“Geo-Humanities(Spatial Humanities)=HGIS+Digital Humanities”的基本看法。


我赞同范先生的意见,并认为空间人文研究的核心是发展新一代的历史地理信息系统,集成多源时空数据,构建时空GIS基础框架(平台)。2018年,由包弼德教授主持,在上海哈佛中心举办“International Conference on Cyberinfrastructure for Historical China Studies”,其目的就是倡导学界为中国研究构建统一的数字基础设施,提供一个可共享可交互的数据平台,包括数据库、数据工具和研究理念等。


事实上,目前在历史GIS领域产生了很多数据库成果,但是这些数据成果可能存在以下问题:大多缺乏统一规划,缺乏统一的数据设计,数据冗余大、数据错漏多、数据更新与维护难,数据交换与共享困难、形成“信息孤岛”,多数数据库随着软硬件环境变化,难以进一步升级与维护,以及存在重复建设等问题;一些数据库的生命周期短,开放度不够、利用率不高,特别是随着项目任务结束,缺乏后期维护与升级,成为无人问津的死库。因此,构建基于统一时空基准的历史地理基础信息平台(时空GIS基础框架),成为新时期历史地理信息化建设的重要问题。


在这一方面,我们不仅看到了复旦大学中国历史地理研究中心的努力,也看到了台湾“中研院”、哈佛大学等研究机构所取得的重要成就。随着互联网及云计算技术的成熟,基于时空GIS基础框架理念研制新一代HGIS已成为重要发展方向。SinicaView是台湾“中研院”研发的新一代HGIS,基于统一时空架构的4DGIS平台,构建了兼具社会服务与跨领域学术研究应用的综合型历史地理信息服务平台。哈佛大学地理分析中心建立的数字化合作研究平台——WorldMap,基于亚马逊云环境,运用开源和开放存取模式,便利了学者们在互联网上使用基础地理信息服务,进行历史地理信息的可视化查询、数据存取、合作共享和在线制图。


在我看来,新一代HGIS的核心是时空GIS基础框架(STGI)。STGI是多源、多媒体历史地理数据的软硬件集成环境/平台,同时也包括数据获取、加工、分析、交换及Web服务所涉及的标准、技术、设施、机制等的总称。这个框架由几大部分组成,第一个是数据库,第二个是数据目录和交换体系,第三个是在此系统构建的公共服务体系,以及服务于整个信息共享服务及应用的标准体系。总结STGI的特征,包括统一时空基准、统一时空数据模型、统一数据分类与编码、统一元数据与交换标准、统一Web信息服务、统一用户环境和统一工具集。说起来好像比较轻松,但实际上是一件比较复杂的系统性工程。它的意义在于弥补数字鸿沟,消除信息孤岛,促进学术公平,提升研究水平和推进跨界融合。题外话,我认为跨界是非常难的事情,对学者而言,风险很大,这就妨碍了数字人文的健康发展。在我看来,数学人文发展,需要融入各个学科,特别是融入到各学科的方法论、学术评价体系里面,而不是构建一个独立的数字人文学科或体系。


当然,构建时空GIS基础框架也存在着一定挑战,我以历史GIS研究为例来说明。首先,历史地理信息往往是包括“人、事、时、地、物”五要素的时空整合信息,具有时空模型复杂、历史地理要素空间定位难、时空精度差、信息不确定性强、数据多源异构等多方面问题。其次,历史地理数据主要来自古文献及古地图的考证、解读、定量与定位,数据的可获得性、完整性、可靠性、歧义性、时段性等与现代地理数据存在很大差异,从而对历史地理信息的时空定位提出新的难题,历史地理数据的不确定性与时空尺度问题、古今地理数据的时空配准与整合应用等已经成为历史地理信息化研究的基础科学问题。


今天报告的第二部分,简单汇报一下我们过去的实际工作。我们团队长期关注南京历史地理研究,特别是六朝建康历史地理信息化研究,现在展示的“六朝建康历史地理信息系统”,在2014年就大体研制完成。它的研究意义在于把南京六朝时期的城市空间用GIS技术复原或再现出来。众所周知,建康是一座消失在历史烟尘中的美丽古都,留存至今的大体只有有限的历史文献及考古挖掘材料,这样的研究存在困难与挑战。我们团队最早是从历史文献与考古资料入手,从《建康实录》数字化开始,同时收集与整理了大量历史文献、近现代以来的南京城市六朝考古发掘与研究文献300多篇(部)。在此基础上,结合正史、地方史志及其他学术文献等的比勘分析,借助野外踏勘及ArcGIS制图技术,与南京大学历史学院张学锋教授合作,在现代城市电子地图基础上编绘六朝建康城市复原图,作为六朝建康历史地理研究的基础工作底图。同时,考证与定位六朝考古遗址(墓葬、石窟、石刻等遗存)约250余处,按不同时代及遗址类型进行分类表示,绘制了六朝建康城市考古遗址专题地图,进而研制专题数据库与六朝建康历史地理信息化展示平台,相关成果获得学界一定好评。此外,我们还利用无人机、GPS等设备,对南京周边六朝石刻进行野外数据采集与三维重建,构建了六朝陵墓石刻三维展示系统。近几年来,我们实验性地开展了六朝人物GIS建设,这是在CBDB项目的影响下开始的,是基于统一时空GIS基础框架来研制的,并以《高僧传》文本为基础,做了文本数字采集、时空数据模型设计、数据建库与GIS可视化等,当然这是一个探索性工作,还有待在学界的批评与指导下开展深入研究。


高剑波(北京师范大学地理科学学部):


数字人文的计算及可能带来的影响




准确定义数字人文其实很困难。我个人的理解是,任何信息在计算机里面都是数字,人文进入计算机中就变成了数字人文。我觉得计算本身以及计算结果在数字人文的评价体系里应该有很重要的位置。假如是纯粹的学者个人研究,不在意如何评价,他可以做任何事情。但是作为学术圈子还是要有所选择,所以评价体系需要考虑这个领域到底可以干点什么事情。


首先是数据。我个人对做数据库很敬佩,但并不是任何一个数据库都有价值,所以还需好好考察。另外一个功能就是教化大众,在美国好的大学会有口号,说它要影响整个城市,但在中国,北大、清华、南大好像不把它当作是最主要的任务——我们要影响社会。但是我觉得数字人文还是需要把提升大众的人文艺术修养和素质作为主要功能。第三是影响其他领域和产业链。第四是能够帮助解决重大实际问题。数据库到底应怎么评价,一个很好的例子就是CBDB。它刚出来的时候是我的博士后研究里面的数据,通过绘制唐代各个时期的网络图,去看它里面的关系,比如说红色的是Kinship随时间变化,蓝色的中央网络大小随时间变化,王朝繁荣时期中下层往往可以上升到中央网络,所以那个时期政治文化名人辈出。到后期王朝衰败就融不进去了。


这些都表示这个数据库挺好,但是它到底是不是够好,或者说有没有改进余地?其实这个数据库是严重缺失很多信息的。这几乎是数字人文里最好的数据库,还有这么大的缺陷,其他数据库到底会怎么样?所以我觉得假如要评价一个数据库的质量,还是要看能不能做计算。要是一算,发现没什么东西,就要打很多折扣。但是不光是评价,怎样改进才是更重要的。

这是用一个清华大学的国际关系数据库(中国与大国关系数据库)外事互访数据构造的。通过这个数据库可以发现中美关系的变化,一直上升,直到2016年突然下降,但是要是用全球的国际新闻数据库会发现其实美国金融危机以后两国关系就已经变坏了。2018年以后贸易战关系应该是变差,但是清华数据库显示的趋势(黑色曲线部分)反而上升。说明这一清华数据库其实并不能用来反应双边关系走向。他们花了很多时间心血,但还是不行,甚至连趋势都反了。


另外一个是艺术性的问题。比如之前提到的树状家族谱系项目成果,获得了计算机领域顶会艺术类论文最佳论文奖,但不能把它当作是对历史的精确描述,因为它的精确性是基于数据库的好坏,数据库本身就有很大缺失,文章用技术展示的不能被当做是历史表述。


前一段时间Lazer等人在Science上发表了一篇文章《计算社会科学的困境和挑战——五点建议》,提到计算社会科学的最大困境就是海量论文虽已发表,但尚未能上升至科学的高度,而只是用了数据和方法。他们强调可以从五个方面提升,包括加强协作、完善新型数据基础设施、注重伦理、法律与社会影响、重组大学组织结构、解决实际问题。第五点更重要,应该强调帮助解决重大实际问题,影响产业界,帮助创造新理论。混沌和分形理论是复杂性科学的两大基石。假如数字人文想要产生重大影响,还得好好想想怎么样产生重大理论。



我建议,年轻老师研究历史的时候,最好能够跟研究现实融合起来,光研究历史很难产生重大的现实影响。但是你要是研究现实,没有历史理论则不厚重,所以要把它们结合起来。第二个就是尽可能多利用计算,有新问题以后去找其他领域合作,很容易创造新东西、新方法。但是必须找到愿意听你好好描述问题的人,才能有效合作。


我认为最要紧的是产生重大影响,没有重大影响的话,怎么评价都没有意义。


严程(清华大学人文学院):


数字人文背景下的古典文献新秩序




我的题目在众多题目当中比较特别,数字人文是一个很新的内容,我来讨论它和古典文献之间的关系,也是为了唤起关注。


我想先讲一个故事。我读古典文献专业时,非常崇拜的一位老师要评教授,我想这么厉害的老师肯定没有问题,结果他没评成。这位老师整理的很多古籍不算成果,因为文科处的老师说他不是第一作者,第一作者是古籍的原作者,整理者是第二作者,所以不算成果。学文献的人都知道这个说法很可笑。原作者早已作古,没法去领成果奖。整理者花了很多功夫,然而在这个评价体系中它是失效的,对于传统文献学界坐十年冷板凳的倡议来说,这是背道而驰的。


今天会上这么多老师呼吁数据公开、算法公开,把数据库和底层数据公开,就像把自己整理的文献拿出来和大家共享,但是对我而言整理文献连成果都不算,出版还得自己掏钱,还不一定能申请上资助的情况下,我把它拿出来共享,写了一篇文章之后,它就变成了公共资源,那么对于学者的劳动来说,这是不是有问题的?所以它在研究中带来了一些新问题。古典文献学传统的成果评价就是有问题和困境的。目前困境得到了一定程度上的解决,比如最近有对冷门绝学的鼓励,用一些资金项目和政策引导,来使这些传统的学者看到一点希望。


数字领域也有很多新的问题。1956年达特茅斯会议之后,大家都在思考机器如何能像人一样学习,像人一样产出研究成果,像人一样创作。清华大学孙茂松老师团队开发的九歌作诗系统,输入“数字人文”四个字,让它做一首诗,最后一句是“文场扰扰是何方”。我们就有一个问题,这首诗写得很好,我把它发表了,那么这首诗的知识产权和署名权是九歌还是孙茂松老师,抑或孙茂松老师团队?九歌其实是学习了过去30万首古典诗词,然后才能够作这些诗,那么它是不是集体创作?这是一个疑问。放到我们学者身上,学者的知识产权是需要被尊重的。机器的知识产权问题也涉及到人、团队集体劳动的产权认定的问题。另外在协作的成本上,多学科共建的成果在不同学科当中,有的是SCI,有的是CSSCI,有的是A刊。或者我们最后也没作出一篇论文来,什么都没发出来,我们做了一个数据库,这个数据库可不可以用来评教授,可以给谁评教授?谁算第一作者,谁算第二作者?这听起来很功利,今天大家做数字人文的人都是有很多情怀热忱在支撑,但是在座的有这么多青年学者、未来学者和同学们希望沿着这条路走下去,我们的前辈指出一个方向,我们努力做,为大家趟出一条路,然后后面的同学们终于可以用它做毕业论文、学位论文了,可以被承认了。如果这样的话,就是一个很好的尝试。


我们就来看看评价有没有可能性。我站在古典文献和自己做过的数字人文研究仅有的一点交叉的基础上,提出一点看法。我刚才说的整理不算成果,也引起了很大争议。其实古典文献的笺、注、疏等工作一向都被认为非常重要。如果能够被重新肯定,其实是传统的复苏,是非常有意义的回溯。放到数字人文里面,连笺、注、疏等工作都可以被认定了,那么数据库整理、文献数据化、基础设施建设,是不是也可以被认定?另外交叉学科领域中,统计学、计算机学方面有很多专利、算法工具、数据成果,都可以作为参与贡献认定。


另外,很多老师提到同行评议不好,但是我想外行评议肯定更不好。有一些已经成熟的工具平台的数据库已经相当成熟,很多商业机构都拿它卖钱了,那么学者能不能够拿它出成果?现在理工科都讲学科转化,我们文科是不是有转化问题?是不是可以把它转化成申请项目的基础、职称或者评价的基础。


关于基于问题和成果的领域内对话,即哪个学科的问题,交给哪个学科去讨论。我的一篇拙作研究清代女性作家之间的人物交流网络,讨论清代人物之间的交流,这是一个非常传统的问题。虽然我使用了数字的方法,但解决的是传统学科的问题,我就进入传统学科的评价体系,将其发表在传统学科的期刊,接受传统学者的评议。


另外还想提一点,刚才几位老师提到清华大学和中华书局合办的《数字人文》,在座的大部分老师都是我们期刊共同的哺育者,是编委或重要的编辑力量、支持者和审稿人。我们找相关的学术委员来评审,交叉学科则找两三位委员,共同看同一个问题。2020年是《数字人文》的创刊年,现在第四期也编完了。其实这里面所有人面临的问题和我们今天讨论的一样,没有评价机制,也没有很好的薪酬机制,都在义务劳动,但大家仍然怀着一腔热情在工作和帮助我们。所以我们尽所能找有资格的审稿人,即使发表不了也能够给作者一个交代,告诉作者如何做相关的研究,给年轻作者以支持。我们有一个“未来学者”专栏,都是学生投稿,我们也很愿意给他们反馈,即使不能在期刊发表,但至少可以得到激励。


我的核心的观点是,评价的基础是我们做的这些事在新材料、新视角和新方法方面,对学界和学术研究,甚至对将来的学科发展,包括新文科,是不是有价值。如果我们获得评价,可以证明我们是有价值的,当然没有评价是不是就没有价值,它可能是超前的未来的价值,但我还是认为如果要尊重学术劳动和这份热情,很重要的是评价和认可。它可能是多方面的,一方面首先有一群先行者可能最初没有获得评价,但是今天成为业内人士之后,我们是有权同行评价或者给予支持的。另外方法和工具比如数据库已经非常成熟了,为什么学者不能拿它作为一个成果?最后我想说的是,学术评价是对学者的尊重,学术工作应该以好奇心为导向,不是以评价为导向。


邱伟云(山东大学历史文化学院):


语、图像、规模——论数字人文研究成果的书写范式转移




我今天的标题是术语、图像和规模,会说到遇到的一些问题或困难。我最早做数字人文研究是在2010年。在项洁老师主持的数位典藏与数位人文研讨会上,我发表了以清季外交史料为例做关键词的研究,当时我接受到的评议是:强调统计数字的新写作风格,使得历史人物与故事消失。有评议人认为,我的报告与王汎森的演讲形成强烈对比,开发历史研究新领域需要抛弃悠久传统的历史叙事写作风格吗?现在这个问题有逐步消减的趋势。我最近有一篇文章,得到的评议友善了很多:作者常年在数字人文领域生根结果,不只长于使用资料库检索,而且活用数字资讯工具进行截取计算,从而进行推论。


对于新的研究方式,在文哲研究领域已经比十年前更为宽容,这是一件非常开心的事情。我的博士论文原本是想用数字方法做平等概念研究,但是那时我的导师说,你用数字方法做平等观念研究,出来找不到教职,所以我就用观念史的研究方法探讨平等观念。2013年写完博论,2015年出版。我在2013年有篇文章用数字方法研究平等观念,但是这篇文章2018年才发表,因为评价相对友善了,所以我觉得数字人文的环境是在变好的。


我归结为三个变化。第一是同行的形成。在十年前可能没有所谓的DH学者,所以我们的评审可能是历史学家或者是计算机学家,但是到2020年,已经有DH学者出现,有同行产生。第二是环境的友好。我记得项洁老师讲过一个故事,他2009年在台湾大学办第一届数位典藏与数位人文研讨会的时候,常常去跟中文系的老师聊天,中文系的老师不太理他,说我不要这个东西。但现在很多中文学界或历史学界的老师会主动去问项洁老师我们能怎么合作,环境在变友好。第三是可期的未来。现在有了数字人文刊物,很多期刊都有数字人文专栏出现。过去我们当学生的时候,找不到C刊或者重要期刊发表数字人文的论文,但现在有了,未来学者们都可以在这个领域放心地生根了,因为有园地可以让你们发展。


纸本形态是印刷时代的学术规范,未来的数字时代,其形态必须是一种电子媒体,但是在进入电子媒体评价成果前的一个过渡点,我们要如何让纸本期刊的评价体系稍微弹性一点,稍微能够接受数字人文一点,即需探索过渡时期的一些可以调整的方式。


第一个是在过去的文本探勘的研究中,常常遇到术语概念的问题。计算机学者审论文,会问概念史是什么意思,语言转向什么意思。让我们解释,我们就会加很多注脚。其次是计算机学术语。人文学者要我们解释什么叫文本勘查,什么叫数据驱动,什么叫做数字化、数据化或者智能化,我们又必须要对人文学者的审查委员进行解释。统计学的术语,什么叫转折点分析、集群分析,我们也必须要对人文学者或者计算机学者解释。所以在这样的交叉领域下,尤其在过渡阶段,当各领域学者还没有形成一种共同语言的时候,我们要对这些进行解释。但是如果概念变成了数字人文或者是人文研究学界、计算机学界和统计学界能够共分共享的时候,我们就会省略刚才的术语问题。


第二个问题是图像阐释。图像阐释问题很重要,人文学者对于视图能力,长期以来都缺乏培养。葛兆光先生曾经讲过,我们应该更为看重图像领域,图像研究有四个重点:色彩、构图、布局位置、变形。图像学也被用于数字人文研究中的图像可视化。葛兆光先生举例说,图像色彩背后有它的寓意,图像变形也有意义。从这里可以看到数据可视化的重要性,我们要培养识读图像的素养。之前我有一篇论文,插图本来是彩图,每一个颜色代表一个集群,但是编辑部老师说他们没有资源彩色印刷,所以把这张图变成了黑白,整个分群结构就没办法在图像显现。


我在香港中文大学《新亚学报》发表了一篇文章,其中有两张插图,编辑部的老师说页数太多,第一个图可不可以删掉,只放第二个图,因为第二个图是精简的,跟研究主题相关。但是我跟老师解释第一个图也不能删,因为它是一个层层定性、层层精简的过程,要让读者看到总体数据图像。图像在数字人文成果中产生的问题让我们意识到数字人文中的图像数据可视化非常重要。


第三个是规模大小问题,牵扯到阐述详略和图表多寡。这里我想提到两个小问题:第一,如果是一个小题目、一个略微阐释或一个应用少量图表的研究能不能成为一个好的数字人文。第二,如果是大题目,阐释详细,图表很多,是否能够为印刷期刊的成果评价系统所喜。数字人文最主要特色就是共读方法,它是结合宏观远读跟微观精读,再从宏观脉络中把握问题,又能让学者发挥学养,深刻探究问题,并解释宏观脉络背后意义规律的一种综合方法。


所以在这样的以共读方法为特征的研究范式下,它很难是一个小规模的论文。我们除了需要对数字方法跟数据进行阐释之外,还需要对人文概念进行阐释,这就会使整个数字人文的研究非常繁复,所以在这个情况下,我要归结到最后一个问题,就是数字人文的成果有两行,我们到底要尊重同行的评议,还是编辑部的意见。同行评议会认为你的研究只有图表,人文层次不够好,编辑部的意见说,我们期刊最多字数就是三万,这个五万字论文是否能够精简到三万字左右?在这样的大命题跟一个必须详细阐述的研究范式下,我们如何调和同行评议认为人文解释、统计解释、计算解释不够,同时纸本期刊希望精简页数或精简图像的意见?


在印刷时代纸本期刊的过渡时期,要解决术语问题、图像规模问题,但当我们到了数字时代电子媒体时期,代表性的例子是2015年斯坦福大学图书馆出版《荒漠生辉》,把整本著作做电子媒体呈现,包含跟主题相关的语音、视频、照片文字,以及GIS都在互动式的媒体里呈现。但是就像斯坦福大学图书馆馆长杨继东先生所说,互动式的著作在经费用完之后就没了,每一本都花了非常多钱。于是我们要去思考,当没有办法立即建立一种新型数字人文成果评价体制的时候,需要扩充既有评价体系而不断创新体系思考,对此我们现在可以进行讨论,或者希望期刊界进行弹性接纳,这样才能帮助数字人文发展。


赵薇(中国社会科学院文学研究所):


计算文学研究——评价还是批评?谁来评价,何时评价?(线上)




数字人文内部的差异太大,无法一概而论,所以我只能说说我熟悉的——和文学研究有关的“计算文学研究”,这样一种被归纳出来的研究形态,或者说称谓。我想以笪章难(Nan Z. Da)对李友仁(Paul Vierthaler)一篇研究性论文的质疑为例,来讨论笪章难《以计算的方法反对计算文学研究》,这样一个由貌似领域“内部”的专家提供的颇具迷惑性的批评文本所引发的争议和其实质所在。


在今年《数字人文》第二期李友仁的翻译文章中,作者使用一种非常常见的数据分类办法,即层次聚类的方法,看它能不能把三种文学类型:所谓“明清小说”“野史”和“正史”分开,进而借助于多维度尺度测量(MDS)和主成分分析(PCA),看有可能是什么因素区分了它们。在笪章难看来,这个研究的问题似乎出在了它的数据预处理阶段,即由于作者将每本书做了万字数据块的切分,他的PCA上每个点代表一个万字数据块,而非整本书,所以在比较最常见的1,000个词时,作者已做出极为相似的数据点,使得来自每种体裁的点彼此非常接近。这段指责看上去不仅逻辑连贯而且十分厉害,但是仔细分辨,每一句话都相当模糊,无法确指。比如“极为相似的数据点”,谁和谁相似?后面她贴了两幅对比图,意为凸显:如果用全本的话,就没有那么多数据了吧,这无异于指责研究者故意制造数据。然而,是这样吗?首先这两幅图都来自于李友仁的文章,也就是说,李友仁并不惮于公开全本数据降维后的PCA,相反,正是靠这幅图,他其实强调了小说和正史的区分更加分明了。李友仁文本的预处理方式并非是为了莫须有的“同质化”数据,而是标准化数据的一个必要步骤。


在进行聚类之前,需要在全部文本水平上选择高频特征,考察它们在各个文本片段中的频率,以此来构造向量空间索引,再通过测量文本向量间的距离,进行降维投射分析,这已经是数据检索和文本相似性研究的通行做法。笪章难挑战这一点是没有太大意义的。因为在这个过程中,无论使用全本还是“万字片段”,第一步都是文本的向量化。由于各个作品体量相差悬殊,为了保证词频计算的科学性,在测欧式距离之前要先做等值切割(即确定window大小),然后才能把各片段所包含的、全部文本范围中的高频特征词的分值计算出来,从而在多维空间里为文本片段定位。这里,批评者并没有给予详细解释,而是轻率地使用了“均质化”这个似是而非的说法,但无论是采用万字片段还是每本全书,最后的结果都是分开了,也就是说,还是有一个分布的大体趋势摆在那里的。那么,切割文本的确是恰好弥补了可视化的数据稀疏问题,但这不能成为批评者的口实。这种放大文体信号的做法在文体测量学中并不始于作者。关键问题是这么做究竟为了什么,不能就此把手段等同于目的,这是十分tricky的地方。


事实上,笪章难要想推翻对李友仁数据这种解释的“科学”方法,是提出更站得住脚的解释,并给予计算和分析上的佐证,但是她无法提供数据例证,更无法提出比作者更有利的对主成分的解释。她只能用文学研究的“定见”来帮助自己:“野史和正史的差异在于内容而非正式语言的使用,而和小说的接近则是因为它们同样来自于道听途说。”李友仁的结论意味深长:“历史修辞的结构性影响,仍然是通过语言的正式性(语域)来施加的。”可见研究的重点并不在于不同标签下的文本可以被分开,更在于他们被什么分开,为何沿不同的主成分轴落下。细查plot loading后发现,恰恰是切割后的片段,显示了白话/文言向度分布上的细微差异。这当然是一种阐释,是作者破解算法黑箱的努力。


也许此二人根本分歧还在于,笪章难不认为N元语法的出现频率(或者此类文本表示模型)可以表征这些区分因素,李友仁则不仅相信,还认为在古代汉语中,单字同样是重要的语法和语义单位,这里面体现的其实是对词语和文类、风格之间关系理解的根本分歧;另一方面则是对古代汉语的认识偏差(尽管受限于技术进展,基于一元语法的分词方法仍待商榷。但即便如此,李友仁有自己的认识,参见其与郭英德先生访谈的注释)。遗憾的是,笪章难没能正面出击,而是揪住所谓“均质化”一点,这背后当然是一种批判策略。可以说她基本上还是从自身领域的经验来横加批评的,这种否定自然是在彰显一种等级秩序。


增大语料单位、放大文类信号的做法由来已久,我们也在对民国时期的报刊语料做文类区分和识别,此前也试过相近的方法,虽然没有使用一元语法,没有切分,使用的是余弦相似度,但并不妨碍我们得出近似的结论。也许,正是由于和他有着近似目的,我们更容易理解为什么要这样做,也很清楚做法出自何处。事实上从斯坦福实验室的量化形式主义,到Matthew Jockers,再到李友仁,人们一直在探索,这里面当然有探索风格、文体、文类理论的意图,然而只有自己做起来,才会知晓其来路,才有可能理解“尝试”的意义和价值。不熟悉这个线索,就无法放在一个类似于“学科史”的脉络里来进行纵深的考察和评估。


最后,我认为有必要逐步建立起真正的同行评价。同行评价的意义究竟是什么?什么样的人才能称为“同行”?笪章难是李友仁的同行吗?应该不是。她看上去是懂技术的文学专家,但不是懂技术的传统学科“权威”就能随意评价数字人文的研究,评价的人也应是实践者,且必须有相关实践经验。实际上,她才是非常厉害的“特洛伊木马”,她的反应正代表了大众对此类研究的一种“常识性”反弹,而公众对这样一个有问题的批评文本的反应,除了再次体现了人文阐释领域对实证研究和统计表征十分有限的认识度,说到底还是由于真正意义上“同行评价”的缺位所致。那么,我们应该理睬她吗?是的,而且必须。但是,时候未到。苏真(Richard Jean So)在《数字人文》创刊会的发言中提到,数字人文在北美已经过了激烈争论阶段,更多的人选择不回应,不争论,不炒作,埋头做事,让成果说话,当越来越多的里程碑式的作品出来了,无谓的争论会失去意义。


在数字人文每一个次分支领域,现阶段真正在踏踏实实做的人太少了。而数字人文又是一个探索性极强的领域。探索的意思是,它可能是试错性报告,像斯坦福小册子的很多研究一样,可能一时间未必能产生什么成熟成果,更不要说“重磅成果”。对于大量认真探索的研究,请“评价体系”和急于评判的人网开一面,给予其必要的时间和耐心。同时,另一方面,对于一些通认的学术规范上的问题,我们又必须严谨起来。在《数字人文》辑刊的编辑过程中,对真正体现了跨学科努力的文章,我们都是非常珍视的,但是也不难看到,越是有创新的、大跨度的研究,越容易面临一些疑问,这些疑问不仅来自编辑,更来自由多学科组成的外审专家们。而归纳起来,最多的疑问可能来自所谓测量效度方面,这也是笪章难很多批评的出发点。但问题是,效度的缺失与否,是可以通过效度检验来评估的,而不是一句话就能够断是非的。总之,我的核心观点是,在这个时刻,逐步建立起真正意义上的同行评议是非常重要的。


陈静(南京大学艺术学院):


数字时代的学术共同体,存在吗?




我的汇报分两部分,第一部分简单说一下在评价中遇到的一些问题。多年来我的研究方向多与数据有关,不少人会好奇你在做什么,我觉得在研究的问题上,应该允许有不同的专业角度介入。所以我想举一个例子,就是我们最近在做的一个事情——中国传统色彩的研究。


我们在做中国传统色彩知识研究的时候发现了一个问题,色彩研究涉及到很多内容,比如文献研究的部分,我们做了明清文献中关于色彩名词的梳理,也用到了数据分析的方法,但是它同时又是一个基于文物和传统手工艺的实验研究。


我们希望把所有跟色彩有关的知识做成一个数据库,有知识图谱,这涉及图情还有非遗理论,还涉及到系统搭建、交互,包括要做一些文本处理和质量控制,我们自己还开发了一个小程序,专门去做人工和计算机算法的准确性评估。同时还在和化学系的老师合作做植物染材的化学分析,但是化学分析同时还要做以前文物残片染料的分析,所以又跟文保复原的老师合作。另外我们要做一些数字化的转化,做数据采集,所以我们又跟摄影和图像学的老师合作,包括国标文件的规则制定,有了图片以后要做色彩管理,进行色彩测量,我们又跟可视化和色彩管理的老师合作。这个项目又要用实际的染材染出来,我们又染了一个月的颜色,还要跟服饰和工艺的老师合作,然后要做图像分析怎么办?里面的纹样怎么办?所以一个项目八个领域,跟不同的团队合作。


但我不知道得出的结果放在哪个学科,如果要发论文,我要把结果拆成八份去发。但如果我想综合性地去评价研究价值,谁来做评价?数字人文是一个大帐篷,不同的学科放在一个帐篷下面,我们怎么来定义它,谁都只能看到它局部的时候,我们怎么从宏观和整体性上来评价。我个人碰到这个问题,而且最大的问题就是直接影响到了我的成果发表和职称评定,我也不知道怎么办,求教大家。


第二部分,我就各位发言内容,汇报一下总体感受。今天我受益良多,做了一个笔记,想跟大家讨论一下。第一个内容其实我们在讨论的是一个生产的问题,中间牵扯到共享的术语、学术的同行、共享的学术边界,这是一整个模块的问题。第二个内容是学术发表、讨论和渠道。数字人文研究需要有固定的渠道,或者临时的场合,像我们这种以会议为形式聚合的一个临时的场合。第三个内容就是有学术成果、期刊、教学公共服务的平台,包括数据库。朱剑老师也明确提出来,学术成果不同于学术批评,学术批评在一定程度上是缺席的,学术评价也不等同于学术批评,我们有评价标准,有评价机制,还有一套体制。


总结来说,第一个就是大家最关心的成果问题——成果形式,成果影响力,什么算成果。第二个就是同行是否存在,学术共同体是否存在。接着是同行评议怎么办。我们现在没有同行评议,是因为期刊权力取代了同行评议的存在,导致评价的独立性不存在。我今天感受最大的一点是评价的反馈机制。理想的评价有助于学术发表和发展,但是现在的评价没有。国内同行评议的时候,有多少人是在认真帮别人做学术?


说了这么多大家都很无奈。第一,“法外之地”是没有的。第二,传统领域里面都有很多成果得不到承认,凭什么要求DH得到承认?第三就是无法摆脱现存学术体制。应对方法——我觉得要先有同行,抱团很重要,哪怕是“小同行”;再有评价,这是核心。我们现在都是在讨论,有评价以后能圈出一个圈子来,其实不是的。靠人才会有评价,有了评价才会有标准。有了评价标准,再考虑评价渠道的问题。我反向思考的大概是这么简单的几点。


编 辑  | 王波


原刊《数字人文》2021年第1期,转载请联系授权。




《数字人文》2021年第1期目录

首家数字人文门户网站上线

《数字人文》2021年第1期编后记

数字人文视角下的金庸文本挖掘研究

DH国外最新动态(2021年2月28日-2021年05月22日)

古文字学界“数字人文”研究的最新探索—评刘志基《古文字研究论稿》


校对  |  肖爽

美编  |  徐璇






数字使人文更新

投稿邮箱:dh2020@tsinghua.edu.cn

数字人文门户网站:www.dhlib.cn

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存