UFO中文网

 找回密码
 注册会员
查看: 152|回复: 0
收起左侧

海量数据如何归档存储,实现数据资产化?

[复制链接]
online_member 发表于 2023-2-15 07:56:04 | 显示全部楼层 |阅读模式
视频财经媒体《容众财经》联合“新三板读书会”推出全网首档投行人打造的财经对话栏目《点亮新三板》,一起聚焦新经济,点亮新三板。历史档案是如何实现数字化的过程?蓝光存储技术凭借哪些优势应用到未来数据存储中?新三板挂牌企业创始人如何看待新三板的这轮改革?本轮改革又会为投资者带来哪些机会?本期做客的嘉宾是银泰证券股转业务部总经理张可亮先生和新三板企业星震同源董事长赵伟东先生,探讨数据如何实现档案化和资产化。

海量数据如何归档存储,实现数据资产化?-1.jpg
姜晨馨:欢迎关注容众财经。聚焦新经济,点亮新三板。中华五千年文化博大精深,纪录片《我为故宫修文物》中修复师为我们展现了他们的妙手回春,随着5G和数字化时代的来临,文化古籍是如何得以修复,并实现数字化存储?今天我们邀请了星震同源的董事长(赵伟东先生),为我们分享文化古籍的数字化过程。
赵伟东:我们是做档案信息化起家。说到档案,其实它是一种历史传承的东西。我们接触的档案可以说是从最早的明清时期,到民国时期到近现代,而我们主要面对的是纸质档案。从档案数字化一个基本流程来看,最主要的前期工作是扫描,通过把纸质的东西,通过专业的扫描设备,把纸质的信息采集进来,然后后期再进行著录和编目,进行内容的揭示,揭示完了以后这些碎片化的档案信息才能够把它汇总起来,未来查询利用的时候才能找到它。但是这些档案信息直接面对大众去利用还是有一些问题的。因为它毕竟是一些碎片化的信息,还需要比如文史类的档案的这种专家对它进行后期的一些编研,形成事件和故事脉络,这样才能提供给大众进行这种普遍化的利用。所以档案应用的脉络,是这么一个过程。
但是因为我们做的是历史档案,有些东西它历史已经几百年,所以它的状态有的就已经是比较差了。因为是纸基的,所以我们在数字化的前期,可能还要针对一些老旧的历史档案形制比较差的档案进行专业的修复,这里面就需要一些专业的文物级修复的这种能力;所以往前再推演一下,我们还有一个专业修复的流程,基本上就是从前期的这种古旧档案的修复到数字化扫描,到后期的编目加工,然后再到编研乃至利用,这么一个过程。
为什么要进行数字化?因为大家知道数据的这种信息,它一个最大的优势(是)在网络平台上可以无阻碍的交互,档案其实它是无处不在的,小到个人、家庭,大到政府、企业、行业,都无处不在,哪都有。我们商业化比如说,像公检法、银行、医院,比如说保险公司、电力、石油,乃至细分到各个行业它都有。
张可亮:投行的工作底稿,都要求有十年以上的保存时间。
赵伟东:现在对信息化进程不断深入以后,大家理解也越来越不一样了,档案其实分的门类很多。文书类的、会计类的、科技类的、工程类的、医疗类的、档案数字化,过去传统的理解,还是比较肤浅的,他们认为你组织一帮人,弄几台设备就在那扫呗!它是个劳动密集型的(工作),其实远远不是这么回事——它是一个非常专业的工作!
我打一个比方,就算你做数字化加工,因为它是海量的,它要求从业企业对所有的信息应用类技术,你都要门清,你都要了解,网络技术、存储技术、数据库的技术,几乎所有的门类,软硬件你都要有一定深度的掌握、了解,你才能够去做好这个工作。
我们有一个特点,我们能够提供全流程的解决方案,全流程的服务方案,在这一点上,可能我们还算是比较特色的一家企业,我们是提供所谓的历史大数据全生态,或者叫“全生命周期解决方案”。
张可亮:我理解星震同源把现实的物理空间里边的这些知识、这些文化,全部要搬到虚拟空间里面去,档案的保存、图书的保存,其实对于一个国家,对于一个文明来讲,是非常重要的一个事情。
赵伟东:随着信息化进程不断的深入,各行业的用户,包括互联网的这种公司越来越重视,它信息的精度、信息的真实性,谁手里拥有真实的数据,谁将拥有未来!那么你留存的数据势必就变成我们所谓的历史大数据。那对历史大数据的要求,他现在目前明确有两个趋势,一个就是数据的档案化,也就是从那些离散的、混杂的这种数据,通过专业的归档流程把它档案化,变成标准化、规范的、可查询、可利用的数据,这是一个趋势;还有一个趋势就是数据的资产化,资产化简而言之它可以变现,它可以给数据拥有者带来未来的经济价值,所以这两个趋势带动了整个对历史大数据的要求,无疑就慢慢对他的各种管理和应用模式,也带来了新的一些革命化的变化。对于这种数据档案化和数据资产化的这种数据,它有一个明确的要求,首先是不能被篡改——你改了它就失去它原始记录性了!它就变成假的东西了!第二,不能被非法获取;第三,它可能需要保存时间相对要比较长。
无论是出于法规遵从的要求——就是政府规范、法律法规的要求,比如我们的会计档案,要求(保留)比如15年、30年;像刚才张总讲的银行,也有这种要求。
张可亮:这个行业要求叫原始凭证,你复印的不行,你必须(保留)原始的那一份。
赵伟东:比如病例档案,现在也有要求,你必须要保存多长时间。那这个带来一个这种历史数据,要求长期保存,一个是不能篡改,一个要长期保存。既然长期保存,你还要考虑它保存过程中,它的溶酸能力、它的抗酸能力,万一出现自然灾害怎么办?所以这一些方面的要求决定传统的存储模式,不适合存储这种历史大数据。
姜晨馨:数据档案化背后,我们需要什么样的存储技术呢?
赵伟东:我们用传统的,这种磁性的存储介质,比如大家很多用过磁盘阵列、硬盘,最近这几年大家用SSD固态硬盘也比较多。不管是磁盘、磁带还是固态硬盘,它们本质上都属于电磁属性的东西,它们面对的威胁比如电磁因素的威胁都是一样的,很容易丢失数据;而且磁盘和磁带,它是可以在授权的前提下,对数据进行编辑和篡改的,这些问题都带来他们用作数据的长期保存,这种载体和介质是不太合适的。所以由此带来就是蓝光技术,也就是我们说的光存储技术的发展,现在已经到了第三代的这种,我们叫蓝光光盘、BD光盘,它一个优势就是它不能篡改,它是用激光在你光盘记录层上打出形变,或者用它的高温让它记录层的这些材料,产生化学反应,除非你进行物理损坏,我把它砸碎了。
咱们国家2008年汶川地震,东方汽轮机厂后期我们有专家去调研过的,最后留下就是两种介质,一种是缩微胶片,一种就是光盘,前提是光盘没被砸碎,埋在土里了,所以这个就光盘一个特点,它的抗灾能力和防篡改能力,它是不能篡改的,你说你要改它是不可能的,你说我把它擦了也不可能,因为我刚才讲了它物理形变,它只能自然的衰变,这么一个特点。还有一个特点它到了第三代蓝光光盘,第一代是CD,我们叫CD光盘;第二代是DVD;到第三代光盘,有两个大的变革,第一个就是它的记录层的材料,从原来DVD时代的有机原料变成了无机材料,大家知道无机材料,它惰性很高,它在自然界衰变的速度很慢,这是一个材料上的一种革新;还有一种革新就是单盘的容量,它分层的记录技术,保证它单盘容量成几十倍的提升,标准化的蓝光光盘,现在已经达到200GB一张盘,以前DVD标准化的存量是4.7GB,提升将近50倍,它占的空间相对单位空间成本大幅下降,可管理性大幅提升。
张可亮:我们以前的文明信息之间的交流主要靠文字、靠纸质这样传输,进入信息社会以后,通过信息0跟1代码之间的传播,您的企业以前做的就是把有价值的数据承载着人类文明的这些数据保存下来,变成数字化的保存,有利于它的传输,有利于它的重复使用;进入信息化社会以后,现在所有的交流都是数字化,那我可能不需要你把它从物理的变成虚拟的这个过程。那您公司还有没有价值?
赵伟东:公司起步阶段是把纸质的实体档案通过专业化的手段数字化扫描、加工、揭示,现在都是无纸化办公了,出来的原生态就已经是数据了,那你们还有什么用呢?
第一,我们存储这个模块永远是有用的。因为不管是什么类型的数据,只要是数据形态,只要你要长期保存,只要是历史大数据,它一定面临如何选择存储模式的问题;第二个,数据有两个趋势,其中一个趋势叫数据的档案化,以前我们最早起步阶段做的把实体档案变成数字化档案,这个过程叫做档案的数字化,大家记住这个措词,它本身就是档案了,数字化!我们生成标准的称呼叫做档案的数字化副本,本身不能叫它电子档案,它叫档案的数字化副本,因为它原生就是档案了,它已经具备档案属性了。现在我们面对的数据,电子数据,无论是电子文件、图像、视频,只要是数据模式进来的,又面临一个什么呢?叫做数据的档案化。它不做档案化这个标准归档流程,它是离散的,它是混杂的,图书馆买一批新书,你要对它进行索引卡一样的道理,数据档案化是要进行标准化的归档,只有标准化归档以后,它才形成规范的标准化的历史大数据,你未来才有可能在海量数据库里,分分秒秒我能找到它。
姜晨馨:对于那种需要长期保存,而且我们很少访问的档案或者文件来说,蓝光存储应该是一个最好、最经济实惠的一个存储方式?
赵伟东:数据其实还有一个冷热之分,我们过去经常说数据在存储管理这个模块上,你要考虑一个分级管理,你面对这么大的一个数据,真正有多少数据是你天天会调用它的?我们讲有一个数据的一九法则,10%不到的数据是你可能会经常调用的。当然,不同行业不一样,蓝光存储的系统能耗是非常低的,它的综合成本,有专业数据公司做过统计,大概是磁盘的十分之一都不到。
张可亮:专门做数据存储的在山洞里,因为它的温度低,它在储存过程当中要产生大量的热,必须要散热要保持恒温恒湿。这样其实能耗特别高。
赵伟东:国外像一些权威的数据公司做过专业统计,比如像谷歌这种一个大型的互联网企业,它一年的能耗相当于一个中等城镇的能耗,主要是为了运维这些大量的存储设备、服务器设备。我们国家现在有一些省、一些政府把数据中心建到喀斯特地形里边,比如像贵州、广西,利用天然的环境来制冷,它也是为了降低能耗。
张可亮:我看我们国家专门在推动要素的市场化流动方面,把数据作为非常重要的要素之一。土地是第一个要素,劳动力第二个要素,资本第三个要素,技术第四个要素,数据资产是第五个要素。数据像您刚才说的要档案化、资产化。资产化首先就是合法合规的问题,因为我们做投行投资的我们知道,很多朋友说他们想投资大数据的公司,(但是)看了好多之后发现都不能投,原因就是他们很多数据来源不合法,都是通过爬虫技术获取过来的,或者有一些是洗过的,但多多少少有点擦边球,也是没法用,不合法的资产就不是你的资产,相当于你偷过来的资产,我怎么可能再去投钱,投到这里边去呢?现在数据资产就是这样,数据资产到底是确权确在谁那?这是非常重要的!
赵伟东:说到数据资产化,就带来一个很大的问题,就是一个确权的问题。还有一个隐性的产业是非常大的,就是数字版权管理。从著作权,从咱们拍的摄像、图片这些版权,乃至到源码的一些东西,都有这方面原因,包括一些文学创作,网络小说都涉及这个,这个数字版权就是一个确权的过程。但是数字版权现在从行业内,我们讲数字版权溯源,如何保证确权、用权和维权的规范性,目前还没有很好的模式。包括版权保护中心,现在也只是起到登记的一个作用,这里边蓝光技术能起到一定的作用。传统的模式现在大量采取的是所谓的网络爬虫搜索的技术,在版权保护中心做一个登记,这两年又有人用区块链的方式,但区块链这个方式需要一种合作,不是你单方面就能搞的,还是有一定难度的,你得有一定势能才可以做这个事情。在这个过程中,如果说我原生的数据就是我们做从数据的生命周期最起始点开始跟踪,然后在它的关键的生命节点,建立记忆留存下来,能够智能化的溯源,这套理念就是可以成形的。
张可亮:因为现在国家提数字经济,西方的产权理论来讲,你首先要确权,否则你怎么去交易?不是你的东西,你凭什么要把它买掉?可能在数字经济的发展过程当中,这个业务是非常重要的一环,不可或缺的一环,这里边其实还有一个可能蓝光没有大规模应用的原因,就是成本的问题。
赵伟东:蓝光现在这个应用还在起步阶段。为什么说起步阶段?但它已经进入到我们叫快行道,2016年的国家档案局的“十三五”战略规划纲要里边,要求必须要对重要的电子数据、档案数据进行异质备份,异质相对于传统的磁介质只有蓝光没有别的手段,这个是作为政策型指导已经明确了,去年为什么说特别重要的一个时间节点,去年正是可录类蓝光光盘电子档案存储应用标准推出来了,这个是在行业中非常明确的一个指导性的方针,就明确了。以前是没有蓝光应用标准,它有DVD的标准,去年推出这个标准意味着政策指导标准的规范全部到位了,所以现在我们明显感觉到,从2019年包括今年各个行业的用户,不仅档案行业,除了一些有政策性指导,比如公检法司,档案它是有政策强制性要求,你必须进行蓝光一致备份的。其他像医疗、政府、银行、保险、电力、煤炭,都开始有蓝光存储的需求了,这是一个好的势头,进入一种所谓的快行道,但是为什么我们说它还是一个线性增长?它还没有达到一个爆发增长的时间?就是由于它的蓝光技术的目前的成本,它规模效应还没起来。
张可亮:以前还是量少,就用传统的磁盘阵列,他觉着我去弄一个热存储我就花这点钱我也没问题,因为我正在高速增长,我这个钱花得起。
赵伟东:大不了一块盘不行我弄两块盘,两块盘不行我弄三块盘。
张可亮:但接下来是一个几何级数的增长,5G来了之后他们肯定不堪重负,这时候可能蓝光光盘的优势就出现了。
赵伟东:最大的问题是磁性介质——不管磁盘磁带,它没有办法防止它不被篡改,这是一个原因。第二个,它无法长期保存,前几年某一个大的互联网平台讲过一句话,我每时每刻都在丢数据,我在磁盘上。我讲这个道理,不是否定磁介质,磁介质有它的优势,磁介质作为数据长期的归档载体,它是不合适的,它是不可靠的。
张可亮:从我们投资的角度来看,要比较什么?我总结了三个角度:一个成本的角度;另外一个效率的角度;还有一个安全的角度。效率角度里边还延伸出来什么?它的存储能力!你占用的空间,占用的能源消耗,这个都要考虑进去。
赵伟东:其实蓝光不太适合做很热的数据在线这种支持,也就是说倡导磁光融合,磁就是传统的硬磁盘,光就是蓝光,结合在一起,磁性介质数据交互速度很快,这是它最大的优势。把热数据放到磁盘上,调动频率很高的,要求多少毫秒我就出来了,你比如银行的数据,比如电信运营商的数据,比如互联网的一些热数据,它需要所调即所得这种速度的,那你肯定是放到磁盘上。
但你全部的数据要备份一套,为了安全只要它是有价值长期保存的,资产化的或者档案化的数据,你肯定要都放到蓝光上,这是从安全的角度。还有一部分你不常用的数据,你通过自动化的这种分级管理机制让它自动沉下来,沉到蓝光光盘上。我们今年会在河北的沧州投资建设公司第一家叫做记忆链历史数据的基地,我自己感觉比较新型的一种数据中心,主要针对我们是全产业链都会迁移过去,从前期的数字化阶段的修复,到数字加工到数据治理,到数据存储、归档,再到后期的发布利用文创,我们是一条产业链,这种模式也是我们把传统的数字化加工的商业模式集约化的一种变革。传统都是上门,都到用户现场去,那我们集约化进行管理,把它整合成一个标准的基于历史数据全生态的服务方案在里边的,新型的数据中心或叫数据基地。当然从蓝光的技术来讲,我刚才说了它还是一个起步,刚刚进行线性增长期,仍然在路上,无论是从基础技术还是应用技术,还需要不断再去完善,不断再去研发,这也是我们进入资本市场的一个初衷。
姜晨馨:新三板的深化改革也是在推进,公司作为新三板企业,对新三板这一轮改革政策的变化,有什么期待吗?
赵伟东:其实我们还是蛮感恩新三板的,为什么这么说?我们企业现在还很小,还在一个成长的阶段。因为我在IT这个领域从业时间挺长的,周边有一些朋友分别在创业板甚至主板、中小板都有上市了,给我一个最深的感悟什么呢?这些朋友原来都是商业模式很清晰,主业的目标也蛮清晰的,一旦上了市马上就偏离了,心态就变了、就浮躁了,一方面可能有资本的力量鞭打快牛,另外一方面因为资本市场变钱快,两个跟头、三个跟头就上去了。
张可亮:企业家被过渡激励。
赵伟东:但是我觉得三板在这方面,不知是有意还是无意的,可能是无意中,前几年的这种相对来说比如交易比较冷这方面,给我们的感觉,它帮助企业制度化、规范化这方面起到很好的作用。同时它没有那种让你特别迫切的,我每天要看着30%、50%、60%的这种增长来去跟资本做一个交代,所以让企业发展成长。还是比较从容的,特别是像我们现在从事这个行业,相对做数据底层的。
张可亮:新三板确实有很多有价值的公司,这些有价值的公司反而因为他们不缺钱,所以不会被资本市场关注到,容众财经接下来其实要多挖掘这样一些企业。他们可能正处于快速成长期,三板其实就是一个加速器,三板它有非常大的好处是什么?它可以创造信用,通过规范创造信用,创造的信用其实就出来价值了,因为你是三板企业,投资的时候其实就可以相对大胆,或者相对流程就会减少,效率就会提高。
有很多做PE的投资非常累,要不断去验证它财务的真实性,或者之前的账都是假的,要重新给它梳理,企业有价值,但规范的成本太高了,久而久之他可能就放弃了,因为效率太低了,一年看上百个项目,到最终能投的可能没几个,但是我们现在主要在做三板的投资,我们发现很简单,根本就没有那么复杂。一是选这个赛道;二,赛道里边的好企业;三,他的财务数据在三板上规范这么长时间,都是会计师审计过的,你一年造假,两年造假,有的在三板上已经挂三五年了,而且历年分红,那我们投这样的企业,其实心里是很放心(的),极大的提升了投融资的效率,投融资的对接,方便了中小企业,所以我认为三板还是非常有价值。新的改革马上落地,精选层也落地,我们做这个节目也是聚焦新经济,点亮新三板,希望更多像您这样有成长性,有创新能力的企业,用你们企业家情怀,把三板市场建设好,丰富起来!
赵伟东:我们还在路上!

海量数据如何归档存储,实现数据资产化?-2.jpg
您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

UFO中文网

GMT+8, 2024-11-23 12:45

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表