新闻资讯 | News 首页 > 新闻资讯 > 公司动态
为什么数据科学突然火起来了?(上)

作者简介

 

 
李涛,毕业于复旦大学医学院临床医学专业 ,取得美国卡内基梅隆大学信息管理硕士和美国休斯顿大学医院管理硕士学位,美国教学医院联盟的医院管理专家,中科厚立信息技术(成都)有限公司董事长,成都高层次创新创业人才“人才计划“、南京高层次“人才引进计划”,广东省医院协会常务理事委员,四川省医疗卫生统计学会常务委员等。
 
曾在北京积水潭医院担任主治医生,90年代中期留学美国,拥有近20年美国医院管理经验,参与医院管理标准的制定。熟悉美国医疗信息分类标准、质量管理和国际医院管理比较标准等,有医疗质量管理、Six Sigma、医疗大数据分析、临床科研、医院管理决策支持等实践经验,同时也是美国教学医院联盟客座教授和高级数据分析专家,美国医院管理协会和德州医学中心医院质量管理委员会组委成员等。
 
著有《数据决策打造医院智能管理》、《疾病风险调整及其在医院精准监管与评估中的应用》等专著论文数十余篇,拥有疾病风险调整相关软著发明专利十余项。


现如今,当人们被问到什么学科最火爆,收入不菲,就业率最高时,“数据科学(Data Science)”想必一定是其中的一个答案。《哈佛商业评论》甚至曾一度将“数据科学家(Data Scientist)”这一职业评为21世纪最性感的工作。究竟是什么原因导致数据科学突然变得这么火爆呢?

01

预言

回溯历史,第一个提出对传统的统计学进行改革的吹哨人是20世纪美国著名的统计学家John W. Tukey在1962年发表的文章《数据分析的未来》(The Future of Data Analysis),他提出了数据分析(Data Analysis)这一新科学和其未来发展的可能性,并成功预言突破数理统计学边界的数据时代将会到来。他指出数据分析的目的是通过对数据的收集、处理和分析来学习数据中的信息,解决我们生活中所遇到的实际问题,而不仅仅是做研究任务。

时间来到1974年,计算机图灵奖获得者,丹麦人彼得·诺尔首次提议用“数据科学(data science)”来代替“计算机科学(computer science)”,用于区分出数据科学作为一个独立于计算机科学的学科。但之后的二十多年,这个名词在行业中却似乎也没人再提起过。

直到1997年,美籍华裔教授吴建福(C. F. Jeff Wu)在就任密西根大学的就职演说中发表了一篇题为“统计=数据科学?”的演讲,他将统计工作描述为数据收集、数据建模和分析、以及决策制定的三部曲。在他的结论中,他开创了“数据科学”(而非“计算机科学”)这个术语的现代用法,并提倡将统计学重命名为数据科学,数据科学家就是能够从大型数据集中析取出数据,并进行统计推断的统计学家。

自此之后,随着2000年左右的互联网信息技术的大爆炸,2010年左右的人工智能技术的大爆炸等多种因素综合在一起,最终促成了数据科学成为一个时髦专业,数据科学家也成为令人羡慕和神往的新兴职业。

02

困局

然而,在彼得·诺尔1974年提出数据科学概念的之后的二十多年中,数据科学并没有像预期那样的快速发展,归根到底的原因有三个:

◇缺乏设施:计算机硬软件设备远远达不到今天的强大和规模,当时最先进的IBM计算机还不如今天一个最普通的手机的功能强大。

◇缺乏原材料:在互联网普及和数据大爆炸之前,数据的累计程度还不能体现出数据科学的重要性和传统统计学之间的差异。

◇缺乏共识:由于计算机都还没有普及使用,当时的统计学家们都否认这个学科,所以认为他们所做的工作与数据科学的描述没有什么差异。

03

破局

真正让数据科学成为时髦学科的工具推手是开源性的编程语言,首先是R,其次是Python,最后是一系列重要的数据库。

◇R:由Robert Gentleman和Ross Ihaka基于S语言在1993年成功地开发了R语言,并将其开源(这个还是很伟大的创举),使R得到了迅速地传播。R的数据结构包括向量、数列、列表和数据框架。其衍生出的各种库让R能够实现对各种统计的理论概念的应用,其中包括:线性、广义线性和非线性模型经典统计检验、空间和时间序列分析、分类模型、聚类模型等。

◇Python:如果说R语言奠定了数据科学基础,改变了传统的数据分析方式,那么Python的出现则拓展了数据科学的潜能,同样作为一款开源的编程语言,Python不仅相比R更容易学习,且应用极其广泛。

除此之外,Python作为一个连接器,它能够连接、调取、并且使用各种数据库的资源,因此,Python得到了众多数据科学家的追捧。据统计,在2019年,大约有65.8%的数据科学家称他们在使用Python,这无疑是一个庞大的比率,并且这个数字每年还在持续增长。

◇其他的数据库:这些重要的数据库资源包括NumPy、Pandas、Matplotlib、Scikit-Learn、TensorFlow等用来解决不同场景中的算法和机器深度学习等。由于太过专业,本文就不一一的详细介绍。

04

火爆

俗话说巧妇难为无米之炊,推动数据科学成为火爆学科的原材料推手是网络爬虫技术(Hadoop)和云平台。

◇Hadoop:由计算机科学家Doung Cutting和Mike Cafarella在2005年共同研发了开源的软件框架Hadoop,用来存储和处理大量的数据集。Hadoop的出现让企业拥有了处理大量数据集的能力,也让企业家们意识到数据处理在商业中的重要性。数据研究不仅使商业公司的诸多问题得到了解决,而且帮助他们探索新的商业模式、研究消费者行为,在此基础上做出更好的商业决策。

◇云平台:随着越来越多的商业公司开始重视数据的重要性,数据的保存成为了各大公司重要目标。云平台在大数据领域中提供了云分布式存储以及分布式计算的方案,解决了数据科学家由于庞大的数据量导致的算力不足的难题。

随着数据科学的日益成熟,美国国家标准技术研究所于2015年发表七卷大数据参考框架(NIST Big Data Reference Architecture,NBDRA),于第一卷定义篇中将数据科学定为在理论科学、实验科学和计算科学之后的第四科学。随着企业家们越来越认识到数据的重要性,他们空前渴望拥有数据分析能力的人才,这也使数据科学在商业领域中得到了迅速发展,并获得了大量的实践成果。接下来我们讲讲数据科学家的职责是有哪些呢?

本文中的内容大多是基于我本人在从业过程中的切身体会和对讨论议题的个人看法,若有不妥之处,敬请谅解,也欢迎在评论区留言。感谢大家的点赞、评论加关注。咱们下期《为什么数据科学突然火起来了?(下)》再见!
 

《医院运营数据分析实战训练营》

火热招生中!!

↓↓

houli18080142049
028-62695200
扫一扫关注我们