UFO中文网

 找回密码
 注册会员
查看: 141|回复: 5
收起左侧

历史学专业是如何分析数据的呢?

[复制链接]
online_member 发表于 2022-12-16 18:59:22 | 显示全部楼层 |阅读模式
据我所知,中国的大学复旦等众多985院校历史学本科硕士,是不学习数理统计、及数据处理分析工具的,至少不作为必修,那么大部分学习研究者都没有这方面知识储备的。那么作为不懂得计量等知识的历史专业学生、甚至拿到博士学位的学生,有一个很严肃的问题,那就是搜集到了历史数据,却不会用强大的分析工具和方法去分析。比如要判断两个历史因素有没有因果关系,却不懂得回归分析等。那么你们是如何分析历史数据的呢?如何洞察数据信息背后的规律呢?还是说你们只是搜集数据和信息,分析则由专业人士去做呢?
online_member 发表于 2022-12-16 18:59:30 | 显示全部楼层
没人邀请我,自己来写。
司马亮、赫连镜繇两位贤达已经对史学量化研究谈论的比较多了。这里谨补充自己的另一条思路。我想,这里所谓的Data不仅仅指的是数字一类的狭义「数据」,也可以理解成更广义的「材料」。如是,则所谓「数位人文」就是一种数据分析的方式。简而言之,数位人文(Digital Humanity)是运用电脑来处理大量数据(所以跟大数据也能沾边),以得出一个传统史学较难考察出的观点。这方面的论点,推荐阅读包弼德的一篇文章:Bol PK. The Humanities and the Digital Humanities in Higher Education. Journal of Digital Archives and Digital Humanities. 具体的研究成果,则推荐谭凯的《中古世家大族的消亡》一书(当然,此书收到了一部分较为负面的评价,却仍不失为使用数位人文进行研究的代表作)。台湾大学有一支团队目前正致力于数位人文的研究,领头的是资讯管理系(也就是大陆的Computer Science)教授项洁,其最新研究成果可参考《數位人文──在過去、現在和未來之間》一书,集结了到2016年左右,项洁及其团队的部分研究成果。
目前而言,数位人文的运用大致上有几类:一是基于传统资料库的整合资料库,比较典型的如同哈佛大学(包弼德团队)、中研院史语所(柳立言团队,我本人也曾在其中)、北京大学(邓小南团队)联合开发的CBDB(中国人物传记资料索引)、比较传奇性的中国哲学书电子计划(初始团队仅一人)等,这些都是从资料库中通过人工、机器筛查的方式,选择出部分关键字词,进行整合。举例而言,CBDB一个最简单的操作是输入对应人名,可以显示其仕宦经历、家族情况、交谊情形等等,能够为研究者提供精简扼要的资料。这些资料库基于史学典籍而来,但仅是对资料的初步处理,本身无法得出足以称之为「研究成果」的结论,故而是比较基础的一类。
二是在上述整合资料库的基础上,做进一步处理的数位人文「工具」。比较典型的是莱顿大学魏希德(包弼德的学生)与普朗克研究所的何浩洋博士开发的Markus和项洁团队开发的DocuSky系统。前者是一个文本标记程序,当导入使用者自定义的文本后,能够通过连上诸如CBDB等资料库,自动标注出文本中的人名、地名、时间等史学研究中主要关注的信息。其中人名参考的是CBDB、地名参考的是复旦大学负责的CHGIS、时间则是何浩洋和魏希德自行开发。DocuSky的作用分两部分,一部分如同Markus,能够实现原始文本的标注、提炼功能;另一部分则同我下面将要陈述的第三类,具有导出潜在「研究成果」的作用。综上所述,这一类「工具」大多基于第一类资料库开发,实际使用上是为了「简化使用者的研究步骤和时间」之目的。
三是输出成果的数位人文「工具」,目前大致又可分为两个大类:一个是地理信息系统(GIS)方向;一个是社会关系网络方向。前者大多是利用上述Markus和DocuSky标注出的文本,建立时空的对应关系(利用CHGIS等确定地点的坐标轴),再使用QGIS或ARCGIS进行绘制,这方面的成果已经不少,且不多加赘述。后者的一个例子是使用CBDB绘制人物关系网络:上文所言,CBDB可以得出一个士人(或一群士人)的交谊情形,这些关系可以简化为一组表格,进而输入如Gephi或Pajek等软件中,绘制出相对应的交谊网络。一个典型的例子是台湾师范大学的李宗翰助理教授(亦是包弼德的学生),对莆田地区士人家族之间的交谊网络的考察。这一类工具,如果使用得宜,是能够产生出「研究成果」的,但目前来看仍然较为少见。
以上是我实际操作中对目前数位人文工具的粗略分类,接下来谈谈我对数位人文的一些看法。简而言之,我认为目前的数位人文远远没有达到成熟使用的程度。原因如下:
1、数位人文工具的可信度不达标。如上所述可见,数位人文工具的使用其实是有嵌套关系的,先使用CBDB等资料库进行检索、再套叠到自己的文本上选取关键信息,最后使用展示性质的软件产出成果。如果CBDB的材料不准确,那么后面两者的正确性就更加无从谈起了。很不幸的是,不论CBDB还是中国哲学书电子计划,其可靠性都远远不足。CBDB起源于Robert Hartwell(郝若贝)的个人读书卡片,进而在其过世后由哈佛大学经营,融入了包括王德毅先生编辑的《宋人传记资料索引》、京都大学《唐代人物知识库》等材料。多种材料来源的融合,导致了人物建档重复、信息不完整、错误信息多等问题,这些都需要通过长期的人工筛查才能够降低错误率。但目前看来,CBDB的决策团队仍然以「求全」为主,「求准」或许仍在其诉求的其次。同样的,中国哲学书电子计划最初甚至使用OCR软件进行文本解读。虽然其建构人声称经过其调教和大量机器学习,其OCR识别古文的成功率已经比Google、Abbyy等公司的都高,但实际使用,错误仍很普遍。目前采用号召使用者自行校对的方式进行降重,但仍然未达到堪用的程度。
現有數位人文資料中比較靠譜的,仍然只有那些最基本的,被「電子化」的文本史料,而且多是由出版公司付費出版使用的資料庫,如北京愛如生、台灣漢籍等。這些一方面仍是收費使用,僅限於各大學和圖書館才能接觸;二是僅僅只是把文本「電子化」,還算不上是嚴格意義上的數位人文。
2、数位人文工具的操作难度较高。虽然这些软件对于个人而言已经轻而易举,但学习成本仍然相对高昂。这里的学习成本要分为两种情况讨论:一是符合其设计目的的使用情况,一种是符合自身学术目的使用情况。对于前者而言,举例如我希望得出一个莆田地区士人交谊的网络,并绘制出一个关系人之间的分布图。我需要先安装CBDB的单机版(一定要单机,网页版不行,则你需要基本熟悉Microsoft Access的操作),通过查询入仕途径得出一个莆田地区所有士人的名单。保存成txt后,再导入回CBDB得出一个这些人家族间的社会网络文件。保存成一个新的Gephi或Pajek文本,再导入进相应软件,绘制出一个图像。至于地图,则需要借助DocuSky和CHGIS的帮助,比较简易的方式是将上述人物关系制作成Excel文档,通过CHGIS手动输入坐标,再导入DocuSky内置的DocuGIS系统中(这里使用的地理坐标,是谭其骧的老图,懂的自然知道其精确度)。以上这些都还是基于你完全理解CBDB、Gephi、Pajek和GIS系统的各种参数、设置之情况。
另一类使用场景是符合自身学术目的之情况。举例而言,我希望抓取所有中古时代墓志中,明确提及参考「风水学说」的篇目。则关于「风水」的词汇,并不存在于任何上述资料库的category中,我必须自己设定关键字、学习python抓爬虫之类的事情,才能够处理上述研究课题。虽然知乎上的大多数CS专业听到这个描述可能会嗤之以鼻,但相信我,一个文学院里用得到这些软件的,大多已经是五六年,甚至近十年没有碰过数学,对电脑的认识只有Office和Windows 的「原始人」,他们的学习能力大部分甚至不足以cover上述软件。这也引出了下一个问题:
3、对于数位人文的想象差异。数位人文工具的建设者可以分为两类:一类是资讯工程背景的学者,他们对于文学院的研究具有「想象的同情」;一类是文学院的教授,他们对于电子时代的科技发展,具有「不切实际的幻想」。这就导致数位人文现在几乎在两者之间打转而一事无成。前者的这些人并不能完全理解历史学者对于数位人文工具的想象,我们需要的是准确度更高的数据、更直观易用的操作界面,而不是一个标注字词就需要三个小程序的所谓整合系统(DocuSky)。但这其实还好,问题更大的是后者,无知的人常有两种情态:一是盲目自大、一是盲目自卑。一部分学者盲目自大地认为,数位人文能解决一切问题。他们以为一种不同以往的skim而非精读,「宏观」而非「微观」的视角能够解决自己的研究课题。殊不知,数位人文工具对于使用者的「提问技巧」有着相较过往更高的要求,一个「有效的问题」是工具得出结论的基础。这一问题往往从一开始就决定了选择的工具、具体的使用方式等一连串接下来的选择。换言之,数位人文工具颇有点「开弓没有回头箭」的架势,同过往史学研究里可以进行微幅修正的方式有较大区别。
4、数位人文的结论更多是呈现、证实,而非新论。GIS也好,社会网络也罢,最后产出的图片本质上只是为读者提供一个更加直观的理解。对于研究者而言,很多时候在资料检索(并且降错)的过程中,脑海中已经形成一个结论或图景了。换言之,这些工具对研究者的帮助是有限的,往往仅能体现在「精细阅读后仍不能得出直观想象,需要进一步依靠图表思考」的情景,以我目前的研究经验来看,这样的场景是相对比较少的。进言之,数位人文工具提供的往往是对过往已有结论的证实。这又有两个原因,一是正如上文所言,我们在早期史料筛查的精度中早就有了一定结论,数位人文工具只是锦上添花;二是在数位人文工具方兴未艾的今天,我们仍然找不到「合适」的问题使其得出具有开创性的结论。换言之,是我们的「想象力」尚未更上工具发展的步伐。但不论如何,数位人文发展到现在,以我的了解尚未得出过完全颠覆现有史学定论的结论(包括谭凯一书的负面评价中,也有一些人认为他只不过是用一些fancy的工具,得出了与史学界已有定论类似的结论)。
综上所述,我认为数位人文工具目前的可用性极低。其正确率的低下使得使用者必须耗费大量时间对资料进行校对(吐槽:有这个时间我还不如自己去翻原始史料),对提出问题意识的质量要求较高,也有仍然较难以克服的操作门槛。但我始终认为这是未来发展的一个重要趋势:未来机器取代人类几乎成为定论的情况下,历史学门如何不被机器取代,取决于我们如何使用机器工作。如何使用机器工作,则迫使我们思考「哪些问题是机器能够取代,哪些问题却是机器不能的?」至少在某种意义上,数位人文工具对使用者而言提出了更高的要求。同样的,身为曾经的半个开发者,我希望尽可能地将数位人文工具的可靠性、易用性升至最高,使得我们能够回归历史研究的本质,也即是「问题意识」。
以上,深夜不得入眠,随性而作,诸君姑妄观之。
online_member 发表于 2022-12-16 19:00:03 | 显示全部楼层
第一次回答问题。
    (一)就如何从数据认知历史的思路上来讲,历史学的逻辑一般分成两派:
    ①强调归纳(计量统计)的科学主义。它主张占有的数据越多越好。占有越多的数据,似乎就可以得出历史的真实。比较典型的就是孔德的实证主义。兰克学派、乾嘉学派,也在此列。此后二十世纪中期之后,有了计算机辅助的计量史学也属此列。
     ②强调“理解”的历史主义或者历史的人文主义。这一派主张完全可以通过单个“个体”的档案来理解历史。譬如通过参加一场战争理解全部战争,通过一次爱情理解全部爱情,通过一个原子理解整个的原子,通过历史学家是人,理解历史上的其他人。这一派以莱布尼茨为代表,此后狄尔泰等人承继。然后现象学、解释学对“理解”如何可能,进一步丰富论证其认识论的合理性。
    所以,史学的计量只是史学认识论中的一个流派。并不是所有的史学认识论都主张数据建模。基于过去的史学发展(结构主义、五种生产方式),史学家对于模型、结构,会比较注意反思和警惕。
   (二)从以往计量史学的发展来看,即使是应用了数据统计,也无法在解释所发现的变量关系中,避免主观认识渗透其中。换句话说,常常是作者的主观认识,决定了变量的统计(包括如何取舍数据、包括统计方法的选择,这是个“统计数据的欺骗性”老话题)。这有点像物理学里面的测不准定理。即数据并非最重要,“解释”才重要。
   以上说的是,不要迷信神话“数据处理”。

    以下说的是,如果把“数据处理”仅仅当成是一种发现问题的方法的话,
   (一)从目前史学的发展趋势看,质性分析、结合时空的地理信息系统分析,是数据处理的两种颇有潜力发展方向。
    (二)年鉴学派、沃勒斯坦都提过社会科学的开放性。这种知识的开放性,往往是通过史学工作者的自学,而非“课程”达成的。这种“数据处理”能力也是一样。现在这种课程太多了。

以上。
online_member 发表于 2022-12-16 19:00:43 | 显示全部楼层
本人是历史爱好者,但恕我直言,不谈考古学,这种分析历史数据,越往古,意义越有限,很多情况下,只能参考,因为历史学不是理工科,你很难确定史料记载的各种数据,有多少水分。
先秦史料,本身就少的可怜,从两汉,再到魏晋南北朝,史料缓慢增长,从唐到两宋,史料终于开始出现爆炸性的增长,至于明清时代,史料则是海量了,恐怕一辈子都很难看全。
而先秦的很多朝代或各诸侯人口,数字就非常有问题。
比如《史记》里的牧野之战,周本纪记载商朝的“帝纣闻武王来,亦发兵七十万人距武王”,商朝兵力70万,但这数字你敢确定吗?或者敢拿这兵力70万,来反推商朝人口吗,或进行数据分析?
而计算商朝人口,肯定需是考古,或出土的甲骨文有实际意义。
再比如,周朝人口有多少,《晋书》采纳皇甫谧的《帝王世纪》,是“民口千三百七十一万四千九百三十三”,就是1371.4933万人,皇甫谧计算下的周朝人口居然能够精确到个位数,这数字你敢确定吗?并进行数据分析?
再扯一个我熟悉的朝代,从东汉,到西晋的凉州武都郡人口。

  • 后汉书郡国志:武都七城,户二万一百二,口八万一千七百二十八。
  • 诸葛亮集:祁山去沮县五百里,有民万户,瞩其丘墟,信为殷矣。
  • 晋书地理志:武都郡汉置。统县五,户三千。
武都郡在差不多在东汉鼎盛时期,户数为2万余户,蜀汉时为1万户左右,再到西晋太康元年,只剩下3千户,为什么会减少呢?

  • 三国志张既传:太祖从其策,乃自到汉中引出诸军,令既之武都,徙氐五万馀落出居扶风、天水界。
  • 三国志杨阜传:阜威信素著,前后徙民、氏,使居京兆、扶风、天水界者万馀户,徙郡小槐里,百姓襁负而随之。为政举大纲而已,下不忍欺也。
  • 华阳国志汉中志:魏将夏侯渊、张郃、徐晃征伐常由此郡;而蜀丞相亮及魏延、姜维等多从此出秦川,遂荒无留民。
原来武都除了有汉人,还有氏人。曹操于219年在武都郡迁民,至少迁徙了6万多户氏人和汉人,考虑到东汉鼎盛时,武都郡才2万户,说明迁徙6万户中,绝大部分是氏人,汉人很少,同时也说明这批氏人没有计算在东汉户口内。
所以到诸葛亮占据武都郡时,户口只剩下一半,约1万户左右,再到三国战乱,武都郡人口出现进一步流失,到西晋280年,政府管辖下的武都郡,只剩下3千户,但是:

  • 晋书地理志:太康元年,平吴,大凡户二百四十五万九千八百四十,口一千六百一十六万三千八百六十三。
  • 裴注:案晋太康三年地记,晋户有三百七十七万,吴、蜀户不能居半。
从280年到282年,这2年时间,西晋户口重新计算,从约246万户,变成377万户,增加约131万户,说明存在大量隐户,所以同样,武都郡的3千户,数据肯定有问题。
所以从东汉到西晋,对武都郡户口的数据分析,是仅供参考,因为还有其他问题没有考虑在内,比如行政区划的变动。
当然了,这是两汉三国魏晋的情况,明清时期,各种数据大大增加,采纳样本也就多了。
最后,我拿出我使用的,姑且称为“数据分析”吧,也就是类似建模的方式。

  • 晋书宣帝纪:遂进军隃麋。亮闻大军且至,乃自帅众将芟上邽之麦。诸将皆惧,帝曰:“亮虑多决少,必安营自固,然后芟麦。吾得二日兼行足矣。
比如《晋书》记载司马懿追击诸葛亮的事情,魏军从关中隃麋,赶到陇右上邽,司马懿说只要“二日兼行足矣”,也就是2天,那是否属实呢?看谷歌地图测量。

历史学专业是如何分析数据的呢?-1.jpg
从隃麋出发,走陇山道抵达上邽,路程超过270公里,几乎有700里,而轻骑兵飞奔一天,也就120多公里,勉强2天可以到达,但魏军并非纯骑兵,而是步骑混搭,即使“百里而争利,则擒三将军”,也要6-7天,所以司马懿说2天,就能到上邽,属于胡说八道了。
再比如根据数据分析,得出张郃被诸葛亮射死,纯属作死的结论。

  • 三国志后主传:夏六月,亮粮尽退军,郃追至青封,与亮交战,被箭死。秋八月,都护李平废徙梓潼郡。
  • 三国志张郃传:诸葛亮复出祁山,诏郃督诸将西至略阳,亮还保祁山,郃追至木门,与亮军交战,飞矢中郃右膝,薨,谥曰壮侯。
  • 魏略曰:亮军退,司马宣王使郃追之,郃曰:“军法,围城必开出路,归军勿追。”宣王不听。郃不得已,遂进。蜀军乘高布伏,弓弩乱发,矢中郃髀。
  • 晋书天文志下:其七月,车骑将军张郃追诸葛亮,为亮所害。
通过谷歌地图来建模,231年6月,诸葛亮结束四伐而撤退,司马懿强迫张郃追击诸葛亮,而张郃从上邽出发,沿木门道追击诸葛亮,但到7月初,张郃沿木门道,仅仅追击了45公里,还没出木门道。
而木门谷道非常狭窄,不过数十米宽,导致7月初,蜀军在木门道伏击了张郃,膝盖(还是屁股?)中箭而亡。
换句话说,如果张郃抓紧时间,花两三天就通过50公里出头的狭窄木门道,抵达几公里宽的主径,那诸葛亮就来不及反应,更无法在主径进行伏击。
得出张郃作死结论的数据,有两个来源,一是史料记载的时间,从“夏六月”到“其七月”,二就是通过谷歌地图来计算距离了。
以上就是我的一些“数据分析”的方式。


历史学专业是如何分析数据的呢?-2.jpg
最后欢迎大家关注我的专栏:

修正汉末三国和一些历史的偏差
online_member 发表于 2022-12-16 19:00:55 | 显示全部楼层
对于经济学、商科的学生来说,使用数理统计的方法做文章的套路可能理所当然:观察到一个现象,提出因果关系假说,收集大量合适的数据跑回归,得出结论,再对结论做robust检验,基本上这篇文章就能立住了。
但是遗憾的是,很多时候,这个套路在历史研究当中是行不通的。
首先,年代越久,数据缺失的情况越严重。你做一个当下的上市公司,几年的年报拿到了,所有数据一应俱全。但是你做一个历史问题,可能每个三五年拿到一组数据。从这些数据里你可以看出一些基本趋势,但跑回归远远不够。一些做计量的人文章很奇怪,年代断限当不当正不正的,为什么?因为就这一段数据相对全,前面缺,后面也缺。但其实这个起止节点,和重大历史分期可能一毛钱关系都没有。诸如此类。
其次,数据的错讹造假问题更难验证。你拿到了古代国家进出口贸易量的增减变化,你用来分析变化趋势,那走私的数据你没有怎么办?或者说官方贸易数据本来出入对不上,是做的假账你如何得知?于是一些人跑出来的结论,会和文献记载的社会常态相去甚远。
根据之前经验观察,我觉得对于16世纪以来东亚和东南亚海上贸易史的研究,是坑比较多的领域。因为总有人能零零碎碎搞到一些独家的航海日志和货物记录,然后自己有哪一段就用计量手段处理哪一段,自己有哪类货物的资料,就去处理哪一类资料,最后做出来一些非常奇怪的东西来。的确,只要你用他选的这些数据,用那套算法,就能得出那个结论。但是这种数据选择方式合理吗?他说合理就合理,你没有其他数据可以拿来反驳他。
当然,确实有一些人把计量玩得很好,但这对数据本身的靠谱性依赖程度太高了。那么除了这些搞计量的人,其他历史学家怎么用数据呢?仍然是通过各种文献档案的综合分析,发现问题,提出假设,而有限的是数据材料,与文献互证。比如说某个结论,我们可以从其他文字材料中获得巨大支撑,那么我们通过有限的数据,发现两者是相互支持的,就可以成立了;但如果要抛开其他文献,单用数据回归出一个结论,操作也难,也并没有必要。
所以总结一下我的观点,在很多情况下,历史数据不是要什么有什么,而是只能有什么用什么,而且存在数据缺失,真伪不易鉴别等问题,而且没有人可以重现历史场景,没法通过数据分析的方式检验结论的强健性。现在都说大数据时代,数据越多,统计学的威力越大,算出来的东西越靠谱。但反过来也是一样,数据越少,统计学的东西也就越巧妇那位无米之炊。
我觉得对于做19、20世纪研究的人来说,很多东西有了相对完整准确的档案记录,学习一些数理方法,可以做出一些前人没关注到的东西。但是时间越久,采用数理方法就越需要慎重,如果数据本身选择的不合适,不仅无法呈现规律,还会把整个研究引向奇怪的方向。
——————————————————————补充—————————————
跟一些知友沟通之后,发现对于这个问题的讨论可能没那么简单。
我不知道大家能不能认可一个前提:经济学家研究的经济史,不同于历史学家研究的历史上的经济问题;法学家研究的法律史,不同于历史学家研究的历史上的法律、制度问题。同样,在历史学的范畴内,用数学的方法处理数据,不同于把历史问题当成一个数学问题去处理。
一个数学问题,可以去逻辑推理,可以去归纳演绎,得出的结论可以被应用到经济等学科的实践当中,指导实践。但对于历史学来说,再完美的建模,再好的推理,如果推导出的这个演变本身是没有充分的史料支撑的,这个论证过程就不能成立。 如果你是搞政治学的,你拿历史说事,研究出一个新理论,应用到当前的社会实践中,这可能是个好的研究。但作为历史学,你搞出了一个直接证据不足的理论,来解释历史,可能随时都会被新出现的证据推翻的。我个人还是坚持认为,历史学是一个很实证的学科,有一分证据说一分话。我们研究的是每一分证据所传达的信息,而不是把没有证据支撑的空白部分圆起来。不是说这个填空的工作没有意义,而是说这不属于历史学的范畴。仅代表个人观点。
您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

UFO中文网

GMT+8, 2024-11-25 00:31

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表