toppic
当前位置: 首页> 穿越小说> 推荐——《数据科学入门》

推荐——《数据科学入门》

2020-06-27 15:26:15

推荐语

大数据现在应该算是一个朝阳产业,热门、热门、大热门。 数据科学,应该是研究数据的基础吧。这本《数据科学入门》,可以让大家掌握基本的数据科学技能,也许将来能够成为一个玩转数据的高手。

汇智网已经为这本书匹配了专门的在线学习环境,书中示例代码也已经在线提供,希望能够帮助大家更好的学习。


网址: http://xb.hubwiz.com/


数据科学

有人称数据科学家为“21世纪头号性感职业”(https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/)。虽说如此称呼有些夸张,但这个名称对数据科学的推崇却一点也没错,这是一个蓬勃发展、前途无限的行业。很多分析师都预言,未来十年会需要比现在多得多的数据科学工作者。

那么,什么是数据科学?唯有正确理解数据科学,才能培养出数据科学家。根据广受业界赞誉的文氏图(http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram),数据科学是以下几个方面的交叉:

  • 黑客技能

  • 数学和统计学知识

  • 专业技能

我原本很想写一本能涵盖以上三个方面的书,但很快意识到仅关于专业技能的撰写就会耗费上万页笔墨,于是及时放弃转而专注于前两个方面。我的目标有两个:一是帮助读者掌握从事数据科学工作所必需的黑客技能;二是帮助读者熟悉数学和统计学,这是数据科学的核心。

对一本书来说,这两个愿望有点大了。学习黑客技能的最好方法就是钻研技术。通过阅读本书,你可以理解我钻研技术的方式,但相同的方式对你未必最适合;你可以理解我使用的一些工具,但相同的工具对你来说未必最顺手;你可以理解我如何解决数据问题,但相同的方式对你来说未必最有效。举例的目的和希望是启发你以自己的方式和方法完成工作。本书涵盖的所有代码和数据都可以从 GitHub 上下载。

同样,学习数学的最好方式就是研习数学。当然本书并不是一部数学著作,我们在本书中大半也不会“研习数学”,我想强调的是数学知识对从事数据科学工作至关重要。不理解概率、统计、线性代数,就无法真正开始数据科学工作。在需要的地方,书中会引入数学方程式、数学直觉、数学公理,以及借以阐释大数学思想的卡通漫画。有我在,别怕!

总之,数据科学相当有趣(尤其和税务筹划或者煤矿开采等其他工作相比)。

从零开始

很多很多的数据科学库、框架、模块、工具箱可以有效地实现数据科学大部分常见的(和不常见的)算法与技术。如果你是一位数据科学家,就会非常熟悉 NumPy、scikit-learn、pandas 以及其他库。这些库对数据科学工作至关重要。如果还没有真正理解数据科学,运用这些库也是开始数据科学工作的好方式。

在本书中,我们从零开始着手数据科学工作。这意味着为了获得更好的理解,我们需要自己亲手构建工具和实现算法。我花费了很多心思选择注释良好、简洁易读的实现范例。在大部分情形下,所建立的工具意义清晰但实用性有限,它们对规模较小的示例数据集运转良好,但对“网络级别”的数据集就束手无策了。

在全书中,我会向读者指出相应的库,用以将相应技术运用于大规模数据集,但本书中我们不会使用它们。

对学习数据科学,一直有这样一种积极的争论,即什么样的语言环境最好?许多人认为是统计语言 R。(我们说,他们错了。)还有一些人认为是 Java 或者 Scala。而我认为,Python 才是最佳选择!

对于学习和从事数据科学工作,Python 具有几大优势:

  • 免费;

  • 编程相对简单(尤其是也易于理解);

  • 具有很多数据科学相关的库。

我不敢说 Python 是我最爱的编程语言,因为的确存在其他一些更舒适、设计更棒、编程更有乐趣的语言。但是,每当着手一个新的数据科学项目时,我最终使用的是 Python;每当需要快速构建某个有效程序的原型时,我使用的是 Python;每当需要用简洁易懂的方式表达数据科学概念时,我使用的还是 Python。于是,本书也采用 Python。

但是,教授 Python 不是本书的目的(尽管通过学习本书你会学到一些 Python 知识)。本书会用一章快速介绍 Python 的重要特征,这些特征与本书目的紧密相关。倘若读者没有 Python 基础(或编程基础),那需要再补充阅读一些关于 Python 的入门指导。

本书数据科学导论的其余部分采取了类似的书写方式,在必要或需要阐明时才深入细节,。

过去我曾培训过许多数据科学家。不是每个人都会努力变成改变世界的明星级数据忍者,但所有人都通过培训成为了更棒的数据科学家。我越来越相信,任何拥有一定数学基础和编程技术的人,只要再匹配一些基本材料就可以从事数据科学工作。必需品是好奇心、勤奋工作的态度,还有本书。没错,就是本书!




推荐图书《机器学习实战

程序员不要烦!

推荐图书《深入浅出Node.js

Web前端都学点儿啥?



汇智网内容已经覆盖以下编程技术,发送相应的文字会收获相关课程信息:

Node.jsMongoDB、JavaScript、C、C#、PHP、Python、AngularjsIonic、React、UML、redis、mySQL、Nginx、CSS、HTML、Bootstrap、Flask、Gulp、Mocha、Git、Meteor、Canvas、zebra、Typescript、Material Design Lite、ECMAScript、Elasticsearch、Mongoose、jQuery、d3.js、django、cheerioSVG、phoneGap、jQueryMobile、Saas、YAML、Vue.js、webpack、Firebird,jQuery Easy UI,ruby,asp.net,c++,Express......



友情链接