UFO中文网

 找回密码
 注册会员
查看: 120|回复: 0
收起左侧

什么是数据科学?

[复制链接]
online_member 发表于 2022-12-21 13:57:39 | 显示全部楼层 |阅读模式
01 理解数据
02 数据科学内涵
03 数据科学知识结构
04 数据科学特点
05 数据科学处理流程
06 数据科学人才
数据科学是一个既需要需要我们带着好奇心、游戏的心态来玩数据、玩工具、玩算法,也需要有勇气和决心来挑战,更需要我们带着科学和艺术相结合的价值观来寻找数据背后的真理的一门科学。
                                                                                                                       -----DataAnswer

数据科学是将数据转化为决策和行动(tradecraft)的艺术,是人和计算机一起工作将数据转化为知识发现的工具、技术和流程的整合。数据学科通过收集数据、描述数据、发现知识,进而进行合理的有针对性的预测和建议。

                                                                                                                      -----数据科学实战
01 理解数据

数据的本质是世界运转留下的痕迹,通过数据的分析和理解,我们才得以理解和改造世界,这是一个闭环的过程。数据也是信息和知识的本质,他们关系大致如下图:

什么是数据科学?835 / 作者:一夜雨十年灯潞 / 帖子ID:97266
知识是人类生产经营过程中不断总结和归纳,如果要追溯其本质,就是那些看得顺眼的数据被你记录下来,有的在你脑袋里直接形成规律,我们叫做经验,而有的则是需要借助设备记录下来,然后不断的去优化你的设备,让它跟你的脑袋一样思考,形成规律,下次还用这个规律来经营生产。总的来说,数据是存在于计算机系统中的东西;信息是自然界、人类社会及人类思维活动中存在和发生的现象;知识是人们在实践中所获得的认识和经验。数据可以作为信息和知识的符号表示或载体,但数据本身并不是信息或知识。数据科学的研究对象是数据,而不是信息,也不是知识。通过研究数据来获取对自然、生命和行为的认识,进而获得信息和知识。
如何理解数据和现实世界的关系?
现实世界产生数据,数据影响现实世界。从现实世界到数据是描述、归纳、抽象成数据模型的过程;从数据到现实世界是用模型来预测、推断的过程。所以数据和现实世界是一个闭环的过程,如何实现这个闭环自动化循环,就是要靠自动化的智能技术,如何让循环过程不断优化,就是要靠机器学习的不断进步。
02 数据科学内涵
在2001年数据科学作为一个独立的学科提出来。2007年,著名计算机科学家吉姆格雷就指出“数据密集型科学”已经成为继实验理论、计算模拟之后的第4科学研究范式。
数据科学主要有两个内涵:一个是研究数据本身,研究数据的各种类型、状态、属性及变化形式和变化规律;一个是为自然科学和社会科学研究提供一种新的方法,称为科学研究的数据方法,其目的在于揭示自然界和人类行为现象和规律。不管现在火得热火朝天的“大数据”是否真的是趋势,但是对于数据的研究其实是很早的事了。回头想想自己的行业,那个行业不需要处理一定量的数据 ,只不过以前我们没有把数据提取出来单独研究,或称为 一门学科。现在,基于存储和计算能力的增强,大家可能会发现把数据单独拿出来处理和研究,形成一门系统的学科,有助于以后的数据融合、数据的复用等。这也是为了适应物联网、云计算等技术的发展,当每天有大量的数据产生,如果我们想要从海量中获得某个规律,缺乏相应的手段和方法,就如同大海捞针一样痛苦。

按照朝乐门老师观点,可以将数据科学也可以看成是大数据学+小数据:


什么是数据科学?318 / 作者:一夜雨十年灯潞 / 帖子ID:97266
所以 ,数据科学有自己 的一套研究方法和技术,例如:数据获取 、数据存储与管理 、数据安全 、数据分析、可视化等;还需要有基础理论和新技术,例如:数据存在性、数据测度、时间、数据代数、数据相似性与簇论、数据分类与数据百科全书、数据伪装与识别、数据实验、数据感知等等。数据科学的理论和方法将改进现有的科学研究方法,形成新型的科学研究方法,并且针对各个研究领域开发出专门的理论、技术和方法,从而形成专门领域的数据学,例如:行为数据学、生命数据学、脑数据学、气象数据学、金融数据学、地理数据学等等。

什么是数据科学?18 / 作者:一夜雨十年灯潞 / 帖子ID:97266
03 数据科学知识结构
数据科学注定是一门 交叉学科,其知识结构也比较复杂,涉及到基础的数学方法,如统计学习、计算机相关知识如机器学习、图形设计和展示如可视化以及 领域知识的运用等。具体涉及到获取一些什么的数据、对获取的数据怎么处理、用什么模型对数据进行建模、模型如何编程实现、如何评估、模型的领域解释是什么等。从思想方法上,数据科学研究继承了统计学的一些思想,例如在大量数据上 做统计性的搜索、比较、聚类或分类分析归纳,其结论是一种相关性,而非一定是一种因果关系。虽然都依赖于大量的计算,但数据科学与计算机模拟不同,并非是基于一个已知的数据模型,而是用大量数据的相关性取代了因果关系和严格的理论和模型,并基于这些相关性获得新的“知识”,数据科学的学习需要有很强的学习能力和动手实践能力,同时也必须具有较好的计算机和数学基础 。

什么是数据科学?773 / 作者:一夜雨十年灯潞 / 帖子ID:97266

什么是数据科学?460 / 作者:一夜雨十年灯潞 / 帖子ID:97266
04 数据科学的特点
鼓励基于论断式推理(基于假设)和诱导式推理(基于模式)之间合理切换。数据科学建立的模型不再需要基于经验的静态环境,并且模型是可以实时更新的,不断的学习改进和完善。基于论断式推理过程是将问题和已有的基础模型进行对比,做出相关的假设和简化,用数据来验证或测试假设和模型的合理性。而诱导式推理是先探索数据,分析数据,以此来发现问题,提出假设或优化假设,从数据中发现新的模式、洞察力和分析路径。
数据科学实现从简单的数据统计来驱动决策,到依靠分布式数据、实时数据、交互式数据等来驱动决策。总的来说,数据科学具有可以主动发现问题、与数据进行交互、提倡分布式、实时数据分析、可以得到预测结果、可执行的方案、需要多种能力合并等特点。
05 数据科学处理流程

前面说过数据和现实世界是形成闭环的 。如下图,现实世界通过数据化,也就是人类采集数据的过程,获得相应的数据再通过数据的处理和探索性分析等获得干净的数据,并进行相应的数据处理分析和建模,获得可视化的结果直接支持决策,也可以是支持其他数据产品,而获得 “新生”。当然,具体的处理和分析过程,肯定有些过程需要不断的反复和 回头的,尤其是数据预处理过程。

什么是数据科学?19 / 作者:一夜雨十年灯潞 / 帖子ID:97266
对于一个具体的数据科学项目可以分为获取、准备、分析、执行。
获取:哪些数据是我能获得但是没有利用起来的?非结构化和结构化数据是否都利用了?是否存在某种关键的数据一旦获得就能明显改善结果?是否融合各种各样的数据?
准备:从数据ETL到数据湖(把一个机构完整的数据集合到单一而宏大的视图中)的使用
分析:分析能力的成熟度、工具、模型、算法、思维、直觉-----联系和模式
执行:模型结果是清晰、可量化、可解释、能追溯、可利用的、有意义的
06 数据科学人才
数据科学是不同团队之间的协作行为。数学+计算机科学+领域知识的人才协作。

数据科学家被称为21世纪最性感的职业。但数据科学家是“独角兽”,很难有上述3种交叉的能力,既要有实实在在的技能,也要有天赋,不可感知的元素。数据科学家是好奇的、有创造力的、专注的以及面向细节的。(好奇心、想象力)
经过调研大致把大数据人才分为以下几种类型:

什么是数据科学?233 / 作者:一夜雨十年灯潞 / 帖子ID:97266
可能不同的人对数据人才的分类有差异,这里只做参考。
数据技术人才
这类人才主要从统计学、信息技术、软件工程领域诞生,主要负责数据处理的全过程,即数据的获取、存储、清洗、加工、建模、传输和诠释,数据采集工程师、数据系统研发、应用研发工程师、数据可视化工程师等都属于数据技术人才。
数据管理人才
这类人才主要从计算机科学、管理学、经济学领域诞生,主要负责对数据的保存、管理、维护和运营。各个行业都有管理人员,大数据也不例外,只不过大数据时代的管理人员所面临的更多是“数据”这个特殊的管理对象,而能够适应这个特殊性的管理人员,才可能成为数据管理人才。
数据安全人才
这类人才主要从政策科学、计算机科学、社会学、伦理学领域诞生,主要负责对数据安全(包括数据本身和数据防护安全)的维护和保障,包括维护数据隐私、防止数据盗用和滥用、保护加密数据、阻止黑客攻击、建立数据安全防护体系等。
数据分析人才
这类人才主要从统计学、计算机科学、人工智能、可视化、信息经济学、网络科学、哲学社会科学、决策科学领域诞生,主要负责对大数据进行价值挖掘,包括对数据统计结果的甄别与分析,对数据分析结果的评估与展示,对用户数据需求的判断与反馈。
数据政策人才
数据政策人才,顾名思义,是研究和制定有关数据政策的人才。这类人才主要从政策科学、公共政策学、公共管理学、社会学、伦理学、新闻传播学、法学、历史哲学、政治学领域诞生,主要负责数据相关的政策、法律及制度的研究。
数据开放人才
这类人才的职责目前主要由倡导开放数据的各国政府首脑、互联网先驱以及数据公益组织首领承担,随着世界开放数据潮流的发展,今后有望从统计学、信息技术、人工智能、网络科学、政策科学、社会学、经济学等领域诞生。他们主要负责开放数据的相关事宜,如数据开放理念的传播和普及、开放数据运动的呼吁和推动、开放数据平台的建立和维护等。
数据科学家
数据科学家需要独特的综合技能,在数据方面是典型的“十”字型人才,即至少拥有两项以上上述的数据技术、数据管理、数据安全、数据分析、数据政策、数据开放人才所必备的基本技能。网址缩短服务公司Bitly的首席科学家Hilary Manson曾定义大数据科学家为:能获取、清洗、探究、建模和诠释数据的人。人人游戏高级数据科学家陈弢、百度大数据首席架构师林仕鼎,都将数据科学家分为广义和狭义两种:从广义的角度,以数据为处理对象的从业者都可称为数据科学家,比如原来的数据库管理人员、数据架构师、数据库工程师和数据统计分析师;从狭义的角度,只有那些能够利用数据作为资源,具有数据分析能力,精通各类算法,直接处理数据,创造附加价值的人员才可以称为数据科学家。结合陈弢、林仕鼎、Talent Analytics公司首席执行官Greta Roberts、中桥调研咨询首席分析师王丛、领英网首席数据科学家Manu Sharma等人对数据科学家应具备素质和能力的探讨,数据科学家应具备以下四种基本素质和能力:
1)  首先,应具备遵守伦理道德、政策法律的基本公民素质,即在数据处理、管理和应用过程中,保护公民的隐私权、数据权等;
2)  其次,应具备科学家的基本素质,即客观、诚实、严谨、创新、坚韧和好奇;
3)  再次,应具备对于数据的处理能力,即掌握编程(存在争议)、算法、数据采集、数据统计、数据整理、数据建模、数据挖掘、数据分析、数据可视化等方面的能力;
4)  最后,应具备涉众的业务能力,即市场调研、数据应用、交流沟通(企业内外部)、业务开发、业务管理、业务服务、辅助决策、挖掘数据的商业价值等方面的能力。
下面再看看市场上更偏技术、更细一点的职位介绍:
一、ETL研发

随着数据种类的不断增加,企业对数据整合专业人才的需求越来越旺盛。ETL开发者与不同的数据来源和组织打交道,从不同的源头抽取数据,转换并导入数据仓库以满足企业的需要。
ETL研发,主要负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。
目前,ETL行业相对成熟,相关岗位的工作生命周期比较长,通常由内部员工和外包合同商之间通力完成。ETL人才在大数据时代炙手可热的原因之一是:在企业大数据应用的早期阶段,Hadoop只是穷人的ETL。
二、Hadoop开发
Hadoop的核心是HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。随着数据集规模不断增大,而传统BI的数据处理成本过高,企业对Hadoop及相关的廉价数据处理技术如Hive、HBase、MapReduce、Pig等的需求将持续增长。如今具备Hadoop框架经验的技术人员是最抢手的大数据人才。
三、可视化(前端展现)工具开发
海量数据的分析是个大挑战,而新型数据可视化工具如Spotifre,Qlikview和Tableau可以直观高效地展示数据。
可视化开发就是在可视开发工具提供的图形用户界面上,通过操作界面元素,由可视开发工具自动生成应用软件。还可轻松跨越多个资源和层次连接您的所有数据,经过时间考验,完全可扩展的,功能丰富全面的可视化组件库为开发人员提供了功能完整并且简单易用的组件集合,以用来构建极其丰富的用户界面。
过去,数据可视化属于商业智能开发者类别,但是随着Hadoop的崛起,数据可视化已经成了一项独立的专业技能和岗位。
四、信息架构开发
大数据重新激发了主数据管理的热潮。充分开发利用企业数据并支持决策需要非常专业的技能。信息架构师必须了解如何定义和存档关键元素,确保以最有效的方式进行数据管理和利用。信息架构师的关键技能包括主数据管理、业务知识和数据建模等。
五、数据仓库研究
数据仓库是为企业所有级别的决策制定过程提供支持的所有类型数据的战略集合。它是单个数据存储,出于分析性报告和决策支持的目的而创建。为企业提供需要业务智能来指导业务流程改进和监视时间、成本、质量和控制。
数据仓库的专家熟悉Teradata、Neteeza和Exadata等公司的大数据一体机。能够在这些一体机上完成数据集成、管理和性能优化等工作。
六、OLAP开发
随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合。联机分析处理(OLAP)系统就负责解决此类海量数据处理的问题。
OLAP在线联机分析开发者,负责将数据从关系型或非关系型数据源中抽取出来建立模型,然后创建数据访问的用户界面,提供高性能的预定义查询功能。
                                                      最后再来一个碉堡!!
                                                        首席数据官CDO
CDO是大数据如何收集、如何管理、如何应用的总导演,他需要为公司的大数据收集、管理、分析、应对、安全等多个领域建立标准、设定方案并给出发展趋势。(制定数据战略、管理数据资产、建设数据队伍)
您需要登录后才可以回帖 登录 | 注册会员

本版积分规则

UFO中文网

GMT+8, 2024-11-23 20:35

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表