没人邀请我,自己来写。
司马亮、赫连镜繇两位贤达已经对史学量化研究谈论的比较多了。这里谨补充自己的另一条思路。我想,这里所谓的Data不仅仅指的是数字一类的狭义「数据」,也可以理解成更广义的「材料」。如是,则所谓「数位人文」就是一种数据分析的方式。简而言之,数位人文(Digital Humanity)是运用电脑来处理大量数据(所以跟大数据也能沾边),以得出一个传统史学较难考察出的观点。这方面的论点,推荐阅读包弼德的一篇文章:Bol PK. The Humanities and the Digital Humanities in Higher Education. Journal of Digital Archives and Digital Humanities. 具体的研究成果,则推荐谭凯的《中古世家大族的消亡》一书(当然,此书收到了一部分较为负面的评价,却仍不失为使用数位人文进行研究的代表作)。台湾大学有一支团队目前正致力于数位人文的研究,领头的是资讯管理系(也就是大陆的Computer Science)教授项洁,其最新研究成果可参考《數位人文──在過去、現在和未來之間》一书,集结了到2016年左右,项洁及其团队的部分研究成果。
目前而言,数位人文的运用大致上有几类:一是基于传统资料库的整合资料库,比较典型的如同哈佛大学(包弼德团队)、中研院史语所(柳立言团队,我本人也曾在其中)、北京大学(邓小南团队)联合开发的CBDB(中国人物传记资料索引)、比较传奇性的中国哲学书电子计划(初始团队仅一人)等,这些都是从资料库中通过人工、机器筛查的方式,选择出部分关键字词,进行整合。举例而言,CBDB一个最简单的操作是输入对应人名,可以显示其仕宦经历、家族情况、交谊情形等等,能够为研究者提供精简扼要的资料。这些资料库基于史学典籍而来,但仅是对资料的初步处理,本身无法得出足以称之为「研究成果」的结论,故而是比较基础的一类。
二是在上述整合资料库的基础上,做进一步处理的数位人文「工具」。比较典型的是莱顿大学魏希德(包弼德的学生)与普朗克研究所的何浩洋博士开发的Markus和项洁团队开发的DocuSky系统。前者是一个文本标记程序,当导入使用者自定义的文本后,能够通过连上诸如CBDB等资料库,自动标注出文本中的人名、地名、时间等史学研究中主要关注的信息。其中人名参考的是CBDB、地名参考的是复旦大学负责的CHGIS、时间则是何浩洋和魏希德自行开发。DocuSky的作用分两部分,一部分如同Markus,能够实现原始文本的标注、提炼功能;另一部分则同我下面将要陈述的第三类,具有导出潜在「研究成果」的作用。综上所述,这一类「工具」大多基于第一类资料库开发,实际使用上是为了「简化使用者的研究步骤和时间」之目的。
三是输出成果的数位人文「工具」,目前大致又可分为两个大类:一个是地理信息系统(GIS)方向;一个是社会关系网络方向。前者大多是利用上述Markus和DocuSky标注出的文本,建立时空的对应关系(利用CHGIS等确定地点的坐标轴),再使用QGIS或ARCGIS进行绘制,这方面的成果已经不少,且不多加赘述。后者的一个例子是使用CBDB绘制人物关系网络:上文所言,CBDB可以得出一个士人(或一群士人)的交谊情形,这些关系可以简化为一组表格,进而输入如Gephi或Pajek等软件中,绘制出相对应的交谊网络。一个典型的例子是台湾师范大学的李宗翰助理教授(亦是包弼德的学生),对莆田地区士人家族之间的交谊网络的考察。这一类工具,如果使用得宜,是能够产生出「研究成果」的,但目前来看仍然较为少见。
以上是我实际操作中对目前数位人文工具的粗略分类,接下来谈谈我对数位人文的一些看法。简而言之,我认为目前的数位人文远远没有达到成熟使用的程度。原因如下:
1、数位人文工具的可信度不达标。如上所述可见,数位人文工具的使用其实是有嵌套关系的,先使用CBDB等资料库进行检索、再套叠到自己的文本上选取关键信息,最后使用展示性质的软件产出成果。如果CBDB的材料不准确,那么后面两者的正确性就更加无从谈起了。很不幸的是,不论CBDB还是中国哲学书电子计划,其可靠性都远远不足。CBDB起源于Robert Hartwell(郝若贝)的个人读书卡片,进而在其过世后由哈佛大学经营,融入了包括王德毅先生编辑的《宋人传记资料索引》、京都大学《唐代人物知识库》等材料。多种材料来源的融合,导致了人物建档重复、信息不完整、错误信息多等问题,这些都需要通过长期的人工筛查才能够降低错误率。但目前看来,CBDB的决策团队仍然以「求全」为主,「求准」或许仍在其诉求的其次。同样的,中国哲学书电子计划最初甚至使用OCR软件进行文本解读。虽然其建构人声称经过其调教和大量机器学习,其OCR识别古文的成功率已经比Google、Abbyy等公司的都高,但实际使用,错误仍很普遍。目前采用号召使用者自行校对的方式进行降重,但仍然未达到堪用的程度。
現有數位人文資料中比較靠譜的,仍然只有那些最基本的,被「電子化」的文本史料,而且多是由出版公司付費出版使用的資料庫,如北京愛如生、台灣漢籍等。這些一方面仍是收費使用,僅限於各大學和圖書館才能接觸;二是僅僅只是把文本「電子化」,還算不上是嚴格意義上的數位人文。
2、数位人文工具的操作难度较高。虽然这些软件对于个人而言已经轻而易举,但学习成本仍然相对高昂。这里的学习成本要分为两种情况讨论:一是符合其设计目的的使用情况,一种是符合自身学术目的使用情况。对于前者而言,举例如我希望得出一个莆田地区士人交谊的网络,并绘制出一个关系人之间的分布图。我需要先安装CBDB的单机版(一定要单机,网页版不行,则你需要基本熟悉Microsoft Access的操作),通过查询入仕途径得出一个莆田地区所有士人的名单。保存成txt后,再导入回CBDB得出一个这些人家族间的社会网络文件。保存成一个新的Gephi或Pajek文本,再导入进相应软件,绘制出一个图像。至于地图,则需要借助DocuSky和CHGIS的帮助,比较简易的方式是将上述人物关系制作成Excel文档,通过CHGIS手动输入坐标,再导入DocuSky内置的DocuGIS系统中(这里使用的地理坐标,是谭其骧的老图,懂的自然知道其精确度)。以上这些都还是基于你完全理解CBDB、Gephi、Pajek和GIS系统的各种参数、设置之情况。
另一类使用场景是符合自身学术目的之情况。举例而言,我希望抓取所有中古时代墓志中,明确提及参考「风水学说」的篇目。则关于「风水」的词汇,并不存在于任何上述资料库的category中,我必须自己设定关键字、学习python抓爬虫之类的事情,才能够处理上述研究课题。虽然知乎上的大多数CS专业听到这个描述可能会嗤之以鼻,但相信我,一个文学院里用得到这些软件的,大多已经是五六年,甚至近十年没有碰过数学,对电脑的认识只有Office和Windows 的「原始人」,他们的学习能力大部分甚至不足以cover上述软件。这也引出了下一个问题:
3、对于数位人文的想象差异。数位人文工具的建设者可以分为两类:一类是资讯工程背景的学者,他们对于文学院的研究具有「想象的同情」;一类是文学院的教授,他们对于电子时代的科技发展,具有「不切实际的幻想」。这就导致数位人文现在几乎在两者之间打转而一事无成。前者的这些人并不能完全理解历史学者对于数位人文工具的想象,我们需要的是准确度更高的数据、更直观易用的操作界面,而不是一个标注字词就需要三个小程序的所谓整合系统(DocuSky)。但这其实还好,问题更大的是后者,无知的人常有两种情态:一是盲目自大、一是盲目自卑。一部分学者盲目自大地认为,数位人文能解决一切问题。他们以为一种不同以往的skim而非精读,「宏观」而非「微观」的视角能够解决自己的研究课题。殊不知,数位人文工具对于使用者的「提问技巧」有着相较过往更高的要求,一个「有效的问题」是工具得出结论的基础。这一问题往往从一开始就决定了选择的工具、具体的使用方式等一连串接下来的选择。换言之,数位人文工具颇有点「开弓没有回头箭」的架势,同过往史学研究里可以进行微幅修正的方式有较大区别。
4、数位人文的结论更多是呈现、证实,而非新论。GIS也好,社会网络也罢,最后产出的图片本质上只是为读者提供一个更加直观的理解。对于研究者而言,很多时候在资料检索(并且降错)的过程中,脑海中已经形成一个结论或图景了。换言之,这些工具对研究者的帮助是有限的,往往仅能体现在「精细阅读后仍不能得出直观想象,需要进一步依靠图表思考」的情景,以我目前的研究经验来看,这样的场景是相对比较少的。进言之,数位人文工具提供的往往是对过往已有结论的证实。这又有两个原因,一是正如上文所言,我们在早期史料筛查的精度中早就有了一定结论,数位人文工具只是锦上添花;二是在数位人文工具方兴未艾的今天,我们仍然找不到「合适」的问题使其得出具有开创性的结论。换言之,是我们的「想象力」尚未更上工具发展的步伐。但不论如何,数位人文发展到现在,以我的了解尚未得出过完全颠覆现有史学定论的结论(包括谭凯一书的负面评价中,也有一些人认为他只不过是用一些fancy的工具,得出了与史学界已有定论类似的结论)。
综上所述,我认为数位人文工具目前的可用性极低。其正确率的低下使得使用者必须耗费大量时间对资料进行校对(吐槽:有这个时间我还不如自己去翻原始史料),对提出问题意识的质量要求较高,也有仍然较难以克服的操作门槛。但我始终认为这是未来发展的一个重要趋势:未来机器取代人类几乎成为定论的情况下,历史学门如何不被机器取代,取决于我们如何使用机器工作。如何使用机器工作,则迫使我们思考「哪些问题是机器能够取代,哪些问题却是机器不能的?」至少在某种意义上,数位人文工具对使用者而言提出了更高的要求。同样的,身为曾经的半个开发者,我希望尽可能地将数位人文工具的可靠性、易用性升至最高,使得我们能够回归历史研究的本质,也即是「问题意识」。
以上,深夜不得入眠,随性而作,诸君姑妄观之。