UFO中文网»UFO社区 › 神秘事件 › 历史档案 › 关于“档案大数据”的非主流看法

收听	听众	主题

关于“档案大数据”的非主流看法

发表于 2022-12-27 09:42:05 | 查看: 154| 回复: 0

关注我们 - 数字罗塞塔计划 -
近日，反复拜读了前国家档案局局长杨冬权先生今年6.9档案日的大作《从“选时代”到“全时代”——智慧社会档案工作的历史性转折》，作为档案信息化从业者那真是倍感振奋，壮怀激烈！

关于“档案大数据”的非主流看法-1.jpg

这篇文章绝对可以用气势磅礴、高屋建瓴这样的词语来形容，体现出作者俯瞰全局的站位和洞悉全场的眼光，让笔者深深折服。但是笔者对于文中提到的“全时代”中的“立档单位对所形成电子档案的全归档”这一观点还是存在不同看法，这与笔者一直以来萦绕心中、挥之不去的关于“档案大数据”的非主流观点存在交集，借此机会一吐为快。

一、“立档单位对所形成电子档案的全归档”
首先我们来分析一下“立档单位对所形成电子档案的全归档”这句话，笔者个人觉得这句话是存在一定语病的，“电子档案”应该是归档之后的产物，归档之前的应该是“电子数据”、“电子信息”或者“电子文件”，所以准确地说，这句话改为“立档单位对所形成电子数据的全归档”更加合适。结合文中提到的“很多信息部门、数据部门的电子信息、电子数据，目前也都是‘全部性管理’而不是‘选择性管理’的。这些电子信息、电子数据不都是电子档案吗？”进一步印证了笔者的看法，那就是作者提出的“全时代”的要求是将所有电子信息、电子数据全部纳入归档范围，实现“立档单位对所形成电子数据的全归档”的目标。
在笔者看来，这个目标非常宏伟，但感觉有些理想主义，在实际工作中很难落地，且不说档案部门自身有没有能力实现“全归档”，从职责分工上而言，也很容易受到质疑：档案部门的手是不是伸得有点太长了，会不会动了信息部门的奶酪？

二、“档案大数据”
当然，在本文中我们主要讨论“档案大数据”，对于上述问题不作进一步深入讨论。如果真的能够实现“所有电子数据全归档”，那毫无疑问，档案部门留存的电子档案必然是海量（EB），甚至是天量（ZB）级别的，妥妥的“档案大数据”。但问题是，最终归档进入档案部门的数据量并不大，从全国范围来讲也只有PB级，分解到每个单位，基本上都只有TB级，那还能称之为“档案大数据”吗？
我们以各级各类档案馆为例进行说明，档案室的情况类似。根据国家档案局发布的《2020年度全国档案主管部门和档案馆基本情况摘要》，全国共有各级各类档案馆4233个，馆藏电子档案1387.5TB，其中，数码照片390.2TB，数字录音、数字录像523.5TB。馆藏档案数字化成果19588.5TB。也就是说全国4233个各级各类档案馆截止到2020年年底的总数据量只有21PB！平均每家单位只有约5TB数据！
不可否认，从发展趋势上来看，各行各业都已经或者即将进入大数据时代，但至少到目前为止，对于档案行业而言，暂时还不需要为“数据大爆炸”过分担忧，哪怕是全面“单套制”之后大量电子文件进入档案部门，我们依然有充足的时间来比较、选择其他行业应用比较成熟的大数据技术和解决方案去应对未来的挑战。如果有人在大肆鼓吹“档案大数据”的必要性和紧迫性，那得思考一下他们的动机了，是不是又在制造和贩卖焦虑。

三、档案数据&大数据
说到这里，我们还是回过头来对照一下大数据的定义，看看档案数据和大数据的区别和联系，以便读者作出自己的判断。
2012年IBM提出的大数据4V特征已经深入人心，后续出来很多5V、6V的版本都是4V基础上的变种，认可度和普遍接受度肯定没有4V那么高。那我们就来对照一下档案数据是否具备大数据的4V特征：

关于“档案大数据”的非主流看法-2.jpg

Volume数据量大
到底多大的数据量才能被称之为是大数据？这实际上也没有一个明确的定义，而且是相对变化的，门槛肯定会越来越高。就现阶段而言，笔者认为100TB以上的数据量称为大数据是比较合适的，显然档案部门目前能达到这个数据量的凤毛麟角。
Velocity要求快速响应
对数据的实时性要求很高，能及时快速的响应变化，不管是数据处理还是数据分析在性能上都有很高要求。这方面对于档案数据而言问题不大，目前档案信息化系统大部分都是目录检索、全文调阅，档案信息资源库以关系型数据库为主构建，响应速度完全可以满足要求。
Variety数据多样性
数据来自不同的数据源，非结构化数据越来越多，需要进行清洗、整理、筛选等操作，将其变为结构化或者半结构化数据。数据多样性对于档案数据而言是客观存在的，由于前端系统中的数据来源四面八方、数据类型五花八门、数据格式千姿百态、数据流向千变万化，如何将其中有价值的、待归档的数据完整收集、有效管理、妥善保存、安全利用是各级档案管理部门都面临的现实问题。但是这项工作要求在归档环节完成，最终进入档案信息资源库的都是规范的、有价值的、符合档案四性要求的数据。当然由于档案类型多种多样，档案信息资源库中除了相对规范的目录数据之外，也会存在大量文本、图形、图像、音视频、多媒体等各种格式的全文数据。
Value价值密度低
数据量大而价值密度低，数据中蕴含价值但整个过程如同沙里淘金、大海捞针。这一点存在较大的争议，有人为了突出大数据中蕴藏的价值而将这个V直接解释为“数据价值”，这实际上有失偏颇，也是对大数据技术的不尊重。事实上，要从海量数据中挖掘出其中的潜在价值是非常有难度和挑战的事情，相当于从一座“贫矿”中提炼黄金。但是档案数据的质量和价值密度远高于常规的大数据，相当于是一座“富矿”，甚至可以称之为“钻石矿”！

关于“档案大数据”的非主流看法-3.jpg

通过上述对照，我们可以发现，档案数据实际上和常规意义上的大数据存在很多不同之处，是否就能称之为“档案大数据”值得商榷。主要的不同点如下：
1. 绝大多数档案部门中现有档案数据量尚未达到大数据级别，现阶段采用传统关系型数据库存目录，文件系统存全文的方式建设档案信息资源库并开发数字档案馆（室）应用系统已经能够满足要求；
2. 虽然档案数据的来源复杂，格式多样，但进入档案信息资源库的都是已经归档处理、整理完毕的规范数据，大数据面临的海量异构非结构化数据高速处理和响应的场景并不存在，采用大数据技术来构建档案信息资源库完全没有必要；
3. 档案数据是高价值密度的数据，每一件档案都具有独特性和唯一性，都具有与生俱来的凭证价值和情报价值，所以档案数据中不存在没有价值的数据，这和低价值密度的大数据存在天壤之别。如果说大数据属于沙里淘金，因此需要专业而强大的大数据技术支撑，那么档案数据就相当于遍地是黄金，只需要客观、真实、准确的提供利用服务即可。

四、回归文章
我们再回到《从“选时代”到“全时代”——智慧社会档案工作的历史性转折》这篇文章，文中有这样一句话：“在这个时代，任何数据或档案都不是无用的，它都是大数据的一部分，都可以给依据大数据所作的科学分析、科学预测、定向推送、人工智能、智慧管理等作出贡献。”通过上述分析，对于这句话我们可以这样理解：
1. 档案数据是大数据的一部分，这肯定没有错；但档案数据本身是不是就构成了档案大数据，这不一定；
2. 档案数据本身就有价值，不是因为档案数据纳入大数据之后才具有价值；但借助大数据技术可以进一步挖掘并发挥档案数据的价值。

五、写在最后
最后，我们想说的是，尽管现阶段档案数据可能还称不上“档案大数据”，但毋庸讳言亦无法回避，大数据时代已经来临，必将对档案部门以及数字档案馆（室）建设工作造成巨大的冲击，机遇与挑战并存，我们既无需过分焦虑，要有“技术都是为业务服务”的平常心；也不能闭关自守，要有顺势而上的魄力和勇气。大数据技术现阶段可能在档案收集、管理、存储方面暂时发挥不了很大作用，但至少可以先从档案利用服务方面寻找突破口，通过对用户需求的深入分析，充分挖掘利用档案数据中潜在的价值，从而提升数字档案馆（室）的服务能力以及服务水平，实现利用智能化、服务个性化、交互自然化和信息可视化。

关于“档案大数据”的非主流看法-4.jpg

数字罗塞塔计划致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明，我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见，共同为人类文明的传承而努力奋斗！
热文推荐
《党政机关电子公文归档规范》解读
档案信息化建设到底需不需要“四库分离”？
“12字”与“四性”终结篇：反刍
《文书类电子文件检测一般要求》解读
电子文件生命周期中的四大信息包

关于“档案大数据”的非主流看法-5.jpg

收藏0 回复显示全部楼层道具举报

返回列表

		自动登录	找回密码
密码			注册会员