如何成为一名数据科学家

我认为有几个大方面

1)学好 python 。

现在几乎所以公司的数据都可以 api 给你,而 python 的数据处理能力强大且方便。加之在 machine learning 的很多算法上 ,python 也独俏一方。另外,它的简明方便迅速迭代开发,15 分钟写完个算法就可以看效果了 。

除此之外 ,py 还有点酷酷的感觉。任何程序拿 matlab 和 c++ 都是可以写的,不过我真没认识过哪个 d 愿意自己把自己扔那个不酷的框框里:D

对不规则输入的处理也给 python 一个巨大的优势。通常来说,在我现在日常的工作里 ,所有的数据都是以纯文本但是非格式的形式存储的(raw text, unstructured data) 。问题在于,这些文本不可以直接当作各种算法的输入,你需要

分词 ,分句

提取特征

整理缺失数据

除掉异类(outlier)

在这些时候 ,python 可谓是神器。这里做的 1-4 都可以直接在 scikit-learn 里面找到对应的工具,而且,即使是要自己写一个定制的算法处理某些特殊需求 ,也就是一百行代码的事情。

简而言之,对于数据科学面临的挑战,python 可以让你短平快地解决手中的问题 ,而不是担心太多实现细节 。

2)学好统计学习

略拗口 。统计学习的概念就是“统计机器学习方法 ”。

统计和计算机科学前几十年互相平行着,互相造出了对方造出的一系列工具,算法。但是直到最近人们开始注意到 ,计算机科学家所谓的机器学习其实就是统计里面的 prediction 而已 。因此这两个学科又开始重新融合。

为什么统计学习很重要?

因为,纯粹的机器学习讲究算法预测能力和实现,但是统计一直就强调“可解释性”。比如说 ,针对今天微博股票发行就上升 20%,你把你的两个预测股票上涨还是下跌的 model 套在新浪的例子上,然后给你的上司看 。

Model-1 有 99%的预测能力 ,也就是 99%的情况下它预测对 ,但是 Model-2 有 95%,不过它有例外的一个附加属性——可以告诉你为什么这个股票上涨或者下跌。

试问,你的上司会先哪个?问问你自己会选哪个?

显然是后者。因为前者虽然有很强的预测力(机器学习) ,但是没有解释能力(统计解释) 。

而作为一个数据科学家,80%的时间你是需要跟客户,团队或者上司解释为什么 A 可行 B 不可行。如果你告诉他们 ,“我现在的神经网络就是能有那么好的预测力可是我根本就没法解释上来”,那么,没有人会愿意相信你。

具体一些 ,怎么样学习统计学习?

先学好基本的概率学 。如果大学里的还给老师了(跟我一样),那么可以从 MIT 的概率论教材1入手。从第 1 章到第 9 章看完并做完所有的习题。(p.s.面试 Twitter 的时候被问到一个拿球后验概率的问题,从这本书上抓来的) 。

了解基本的统计检验及它们的假设 ,什么时候可以用到它们 。

快速了解统计学习有哪些术语,用来做什么目的,读这本5。

学习基本的统计思想。有 frequentist 的统计 ,也有 bayesian 的统计 。前者的代表作有2 ,后者看3。前者是统计学习的圣书,偏 frequentist,后者是 pattern recognition 的圣书 ,几乎从纯 bayesian 的角度来讲。注意,2有免费版,作者把它全放在了网上 。而且有一个简易版 ,如果感觉力不从心直接看2,那么可以先从它的简易版开始看。简易版4是作者在 coursera 上开课用的大众教材,简单不少(不过仍然有很多闪光点 ,通俗易懂)。对于3,一开始很难直接啃下来,但是啃下来会受益匪浅 。

注意 ,以上的书搜一下几乎全可以在网上搜到别人传的 pdf。有条件的同学可以买一下纸制版来读,体验更好并且可以支持一下作者。所有的书我都买了纸制版,但是我知道在国内要买本书有多不方便(以及原版书多贵) 。

读完以上的书是个长期过程。但是大概读了一遍之后 ,我个人觉得是非常值得的。如果你只是知道怎么用一些软件包 ,那么你一定成不了一个合格的 data scientist 。因为只要问题稍加变化,你就不知道怎么解决了 。

如果你感觉自己是一个二吊子数据科学家(我也是)那么问一下下面几个问题,如果有 2 个答不上来 ,那么你就跟我一样,真的还是二吊子而已,继续学习吧。

为什么在神经网络里面 feature 需要 standardize 而不是直接扔进去

对 Random Forest 需要做 Cross-Validatation 来避免 overfitting 吗?

用 naive-bayesian 来做 bagging ,是不是一个不好的选择?为什么?

在用 ensembe 方法的时候,特别是 Gradient Boosting Tree 的时候,我需要把树的结构变得更复杂(high variance, low bias)还是更简单(low variance, high bias)呢?为什么?

如果你刚开始入门 ,没有关系,回答不出来这些问题很正常。如果你是一个二吊子,体会一下 ,为什么你跟一流的 data scientist 还有些差距——因为你不了解每个算法是怎么工作,当你想要把你的问题用那个算法解决的时候,面对无数的细节 ,你就无从下手了 。

说个题外话 ,我很欣赏一个叫 Jiro 的寿司店,它的店长在(东京?)一个最不起眼的地铁站开了一家全世界最贵的餐馆,预订要提前 3 个月。怎么做到的?70 年如一日练习如何做寿司。70 年!除了丧娶之外的假期 ,店长每天必到,8 个小时工作以外继续练习寿司做法 。

其实学数据科学也一样,沉下心来 ,练习匠艺。

3)学习数据处理

这一步不必独立于 2)来进行。显然,你在读这些书的时候会开始碰到各种算法,而且这里的书里也会提到各种数据 。但是这个年代最不值钱的就是数据了(拜托 ,为什么还要用 80 年代的“加州房价数据 ”?),值钱的是数据分析过后提供给决策的价值。那么与其纠结在这么悲剧的 80 年代数据集上,为什么不自己搜集一些呢?

开始写一个小程序 ,用 API 爬下 Twitter 上随机的 tweets(或者 weibo 吧。 。。)

对这些 tweets 的 text 进行分词,处理噪音(比如广告)

用一些现成的 label 作为 label,比如 tweet 里会有这条 tweet 被转发了几次

尝试写一个算法 ,来预测 tweet 会被转发几次

在未见的数据集上进行测试

如上的过程不是一日之功 ,尤其刚刚开始入门的时候。慢慢来,耐心大于进度 。

4)变成全能工程师(full stack engineer)

在公司环境下,作为一个新入职的新手 ,你不可能有优待让你在需要写一个数据可视化的时候,找到一个同事来给你做 。需要写把数据存到数据库的时候,找另一个同事来给你做。

况且即使你有这个条件 ,这样频繁切换上下文会浪费更多时间。比如你让同事早上给你塞一下数据到数据库,但是下午他才给你做好 。或者你需要很长时间给他解释,逻辑是什么 ,存的方式是什么。

最好的变法,是把你自己武装成一个全能工作师。你不需要成为各方面的专家,但是你一定需要各方面都了解一点 ,查一下文档可以上手就用 。

会使用 NoSQL。尤其是 MongoDB

学会基本的 visualization,会用基础的 html 和 javascript,知道 d36这个可视化库 ,以及 highchart7

学习基本的算法和算法分析 ,知道如何分析算法复杂度。平均复杂度,最坏复杂度 。每次写完一个程序,自己预计需要的时间(用算法分析来预测)。推荐普林斯顿的算法课8(注意 ,可以从算法 1 开始,它有两个版本)

写一个基础的服务器,用 flask9的基本模板写一个可以让你做可视化分析的 backbone。

学习使用一个顺手的 IDE ,VIM, pycharm 都可以 。

4)读,读 ,读!

除了闭门造车,你还需要知道其它数据科学家在做些啥。涌现的各种新的技术,新的想法和新的人 ,你都需要跟他们交流,扩大知识面,以便更好应对新的工作挑战。

通常 ,非常厉害的数据科学家都会把自己的 blog 放到网上供大家参观膜拜 。我推荐一些我常看的 。另外 ,学术圈里也有很多厉害的数据科学家,不必怕看论文,看了几篇之后 ,你就会觉得:哈!我也能想到这个!

读 blog 的一个好处是,如果你跟他们交流甚欢,甚至于你可以从他们那里要一个实习来做!

本文来自作者[幻柏]投稿,不代表格瑞号立场,如若转载,请注明出处:https://gree0731.com/ig/24956.html

(13)

文章推荐

  • 斗罗大陆之双生之唐txt

    《天若有琴(斗罗大陆同人,耽美向,慎入)》作者:白衣翩跹《(斗罗大陆)伴随[又名:当伊尔迷穿越斗罗]》作者:By堕落《[斗罗大陆]最后》作者:逆光之夏《[斗罗大陆]涩涩的爱》作者:爱唱歌的布鲁克《(斗罗)万花筒》作者:dy《(斗罗)曙光》作者:Morte-死亡《[斗罗大陆]哥,你输了》作

    2025年08月08日
    60
  • 高中英语选修七的知识点总结

    关于任何事物的知识都有五个层次或者要素:事物的名称、定义、形象,有关事物的智识或者知识,以及事物本身——这才是知识的真正目标。下面我给大家分享一些高中英语选修七的知识点,希望能够帮助大家,欢迎阅读!高中英语选修七的知识点1Ⅰ.常考单词必背1.desiren.渴望;愿

    2025年08月12日
    79
  • 以i 音结尾的汉字有哪些?

    以i结尾的汉字有很多,比如i,ai,ui,ei·····ei,ui结尾的有:第一声:杯悲吹催堆追非规龟辉徽亏虽威危巍?第二声:垂锤肥回葵奎逹睽雷眉煤为谁随唯围第三声:北匪菲轨鬼悔毁磊美每水尾委嘴腿伟第四声:背

    2025年08月16日
    143
  • 实测分析“微乐江西麻将小程序怎样免费开挂”(详细开挂教程)

    亲,微乐江西麻将小程序怎样免费开挂这款游戏可以开挂的,确实是有挂的,很多玩家在这款游戏中打牌都会发现很多用户的牌特别好,总是好牌,而且好像能看到-人的牌一样。所以很多小伙伴就怀疑这款游戏是不是有挂,实际上这款游戏确实是有挂的,添加客服QQ群【】安装软件. 微信打麻将是一款非常流

    2025年08月18日
    65
  • 英语四六级有必要考口语吗

    英语四六级口语考试的报考不是强制的。但是大家多考一个口语证书对以后就业是有很大好处的。所以建议大家还是报考一下。英语四六级口语考试一定要考吗英语四六级口语考试的报考不是强制的。但是大家多考一个口语证书对以后就业是有很大好处的。所以建议大家还是报考一下。而且自2016年12月起,参加四六级口试已无任何

    2025年08月19日
    92
  • 地下交通站有没有第三部

    有人问过导演这个问题导演的意思是想再拍一部成为三部曲从抗日初期抗战后期抗战胜利三个阶段但导演抱怨说如果演员不合适他也没多大兴趣第二部中演王金宝的演员是赞助商指定的导演就很不喜欢他所以等着吧也许时间长一点但一定会有的水根为什么换成金宝不知道会不会拍第三部..在网上看了

    2025年08月21日
    67
  • 教程辅助!“功夫川麻将开挂(透视)”详细开挂玩法

    教程辅助!“功夫川麻将开挂(透视)”详细开挂玩法>亲,功夫川麻将开挂这款游戏原来确实可以开挂,详细开挂教程1、起手看牌2、随意选牌3、控制牌型4、注明,就是全场,公司软件防封号、防检测、 正版软件、非诚勿扰。2022首推。全网独家,诚信可靠,无效

    2025年08月22日
    76
  • 实操教程“手机金花开挂是真的吗”其实确实有挂

    无需打开直接搜索微信:本司针对手游进行,选择我们的四大理由: 1、软件助手是一款功能更加强大的软件!无需打开直接搜索微信:2、自动连接,用户只要开启软件,就会全程后台自动连接程序,无需用户时时盯着软件。3、安全保障,使用这款

    2025年08月26日
    85
  • 少儿科普百科

    《中国少年儿童百科全书》浙江教育出版社1991年出版,林崇德主编、约200名科普作者参与编著。全书分为四卷,涉及60多个科学门类,5000多条目,近5000幅插图,计400多万字,是国内第一部大型少年儿童百科全书。《自然?环境》卷涉及宇宙的演化,大地的变迁,生物的进化,动植物的形态,人体的构造等

    2025年09月19日
    58
  • 香奈儿按摩面膜要洗吗?

    可能很多人平时没有很关注香奈儿的面膜,一般的人对香奈儿的香水和口红会比较了解,其实香奈儿的面膜也是非常不错的,比如说它们家的按摩面膜,用了香奈儿按摩面膜你会发现你的皮肤发生了很大的改变,那香奈儿按摩面膜要洗吗?香奈儿按摩面膜用完要洗脸吗?1、香奈儿按摩面膜要洗吗香奈儿按摩面膜,按摩完后是需要清洗面部

    2025年10月05日
    79

发表回复

本站作者后才能评论

评论列表(4条)

  • 幻柏
    幻柏 2026年01月27日

    我是格瑞号的签约作者“幻柏”!

  • 幻柏
    幻柏 2026年01月27日

    希望本篇文章《如何成为一名数据科学家》能对你有所帮助!

  • 幻柏
    幻柏 2026年01月27日

    本站[格瑞号]内容主要涵盖:生活百科,小常识,生活小窍门,知识分享

  • 幻柏
    幻柏 2026年01月27日

    本文概览:我认为有几个大方面1)学好 python。现在几乎所以公司的数据都可以 api 给你,而 python 的数据处理能力强大且方便。加之在 machine learning 的很...

    联系我们

    邮件:格瑞号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们