|
“我真想进入数据科学领域。”
这是最近最热的一句话。在每个世界的角落,都有一个强调成为数据科学家所需要的技能的人。我承认,在当前的就业市场中,对这些技能的需求很大,但即便如此,有时也会让人摸不着头脑。
你想成为一名数据科学家吗?以下是支撑它的一些知识。
什么知识?
我很高兴你会这么问。
1.你必须学习Python,特别是Pandas
R语言的爱好者会因为这一点而恨我。
注意,我并不是说R有什么问题(尽管R确实有很多问题),并且我也不会在这个问题上让步。
如果你想学好数据科学,而不仅是浅尝辄止,你需要学习Python。一旦你做到了,你就学会了Pandas。
Pandas是当今数据清理、处理和分析的典范,其原因有很多:
- 作为一个Python模块,它的句法是可读的、简明扼要的,学习起来轻松。
- 作为Python的一种多功能语言,它允许各种其他任务无缝集成——构建web应用程序、与云一起工作以及通用软件工程(参见下面的部分)等等。
- 由于Pandas的普遍性,人们不断开发工具以使它更加出色。想要证据吗?看看这个(https://ponder.io/)。
Python免费为你提供统计测试、数据处理、机器学习等一系列功能。最重要的是,它周围有一个总是愿意协助它的社区,进一步说,数据科学是一项合作的领域。
在效用方面,R语言有很多争论。虽然并不是每个人都喜欢Pandas,但争议的声音显然不那么明显。
2.你必须学习基础的软件工程
在我本季度博士学位期间,我正在上一门独特的课程。其中一个标题非常刻意:面向数据科学家的软件开发。作为一名数据科学家,你不要小瞧软件开发。它肯定会帮助你找到一份工作,并且使你脱颖而出。原因如下:
- 作为一名数据科学家,你将与一个技术专家团队合作。
- 作为一名数据科学家,你将需要用一种方法来完美地包装你的数据分析、见解和模型,并与整个世界进行交流。这可能会采取应用程序或系统的形式。
- 作为一名数据科学家,你将编写代码或与编写代码的人进行合作。因此,你应该了解编程的最佳实践。
- 这些技能不一定是你在标准的入门编程课(将重点放在计算机科学的基础上)中学习的,但一定是你在软件工程课上学习的。
而且它不一定是一门课——你可以在网上自学,也可以通过项目简单地学习一下(可以说比参加课程更有效)。
但重点是:通过学习软件工程,你可以有效地分享和发展你从工作中获得的见解,从而将你的数据科学技能提升到一个新的水平。那么你为什么不这样做呢?
3.你必须学习实用统计学
这是我需要进修一个领域。统计学构成了数据科学的理论基础,不学它,你只能止步于此。
然而,如何学习统计数据很重要。解释一下我的意思。我有一位教授,拥有数学学士学位、计算机科学博士学位并且在辅修统计学(作为博士学位的一部分),这些都来自世界上两所顶尖的技术大学,她是一位数学天才。
然而,当她在职业生涯后期转向数据科学时,她需要自学所有的统计数据。她所学的正式统计数据都太过深入和抽象,并不实用。
如果你对重新研究数学有点犹豫,这是个好消息。成为一名成功的数据科学家,你不需要正式的数学学位,也不需要成为抽象证明的专家。你真正需要的是数据科学中能实际应用的统计概念知识,(例如设计用户研究、运行假设测试、有效使用机器学习模型等)。
虽然这不是一项容易的任务,但却是一项非常可行的任务。大量的在线资源可供你参考,祝你好运。
4.你必须学会简化和交流技术话题
如果数据中的见解不被其他人理解并加以利用,那么它就一无所用。
再强调一遍,如果数据中的见解不被其他人理解并加以利用,那么它就一无所用。
我不在乎你是否已经写出世界上最先进的模型,即使它将改变地球的命运——如果你不能以人们理解的方式与他们分享,它就没有任何益处。
你可能想知道为什么。毕竟如果你可以应用模型并获得结果,这难道还不够吗?
如果世界这么简单就好了。单靠一个人是无法实现大规模变革的——你需要与团队、利益相关者、有钱人、有权力的人合作。你需要让他们相信你的工作非常出色,具有开创性。你需要在你的数据科学工作中接受复杂的想法,并让那些不是技术专家的人能够理解这些想法。
这有两部分:
- 有效沟通。
- 将复杂、相互关联的现象分解为简单的部分。
两者都有练习的方法。为了学会良好的沟通,你可以考虑参加写作或口语课程。至于第二点,短时间内很难实现;这是一种随着时间的推移而获得的技能——不断的练习向他人解释你的想法和工作。这样去做吧。
但无论你做什么,都不要轻视一点。如果你无法传达它们,即使一百万个伟大的想法也与零个没有任何差别。
5.你必须学会欣赏非技术知识
如果你痴迷于数字、计算和模型,但对偏见、道德和社会一无所知,那么你无法在数据科学领域大有作为。
有效的数据科学超越了统计学和计算机科学。还包括领域知识——一个经常被忽视的重要组成部分。数据科学的主要目的是解决特定领域的问题(如生物学、经济学、社会学、政治学等)。虽然你可能是数字和程序的大师,但你很可能不是常驻领域特定偏见和微妙之处的大师。
注意,在为各种问题开发数据的解决方案时,与领域专家交谈是绝对有必要的。忽视这一步,你最终得到的模型,很可能是不准确、有偏见的,甚至会带来更多危害。
6.概括和最终想法
以下是对数据科学的5个必备知识的回顾:
- 学习Python。准确来说是学习Pandas。这是处理数据的典范。
- 学习基础的软件工程。编写程序是一回事,但如果你能设计它们,你就可以把你的市场性提升到一个全新的水平。
- 学习实用统计。这是数据科学的基础,你必须学会它。
- 学会简化复杂的想法并进行沟通。人们需要知道你从数据中发现了什么,而你需要告诉他们。
- 学会欣赏数据科学的非技术知识。这不全是数字的问题,也从来都不是。
如果你想成为一名数据科学家,我无法给你一个确切的蓝图。这涉及狂热的探索,一些尝试和错误,甚至是一些失败的尝试(就像数据科学本身一样)。
然而,如果你选择这条路的话,我可以给你一些非常有用的技能,这正是我在上面的文章中所提到的。至于剩下的,只能靠你自己了。
- 更多高质量科技类原创文章,请访问数据应用学院官网Blog:https://www.dataapplab.com/
- 参加数据应用学院线上免费公开课:https://www.dataapplab.com/event/
- 查看数据应用学院往期课程视频:
- https://www.youtube.com/channel/UCa8NLpvi70mHVsW4J_x9OeQ
|
|