O'Relly那篇文章我也读过,里面说“ Data Scientists往往可以独立完成一条龙的完整分析过程:从数据提取,整合、并进行分层,进行统计或其他复杂的分析,创造引人注目的可视化诠释和效果,开发具有更宽广应用前景的数据工具。” 这句话其实我是同意的,剑指斜阳其实也有类似观点。但是现在排名第一的答案给出了一个“Data Researcher 更符合一个科学家的形象——专注地研究”的结论,我实在不能苟同。难道只有研究data才叫研究,研究企业就不叫研究吗?另外,Levin菠萝说“数据分析师和数据科学家,如果非要进行分类的话我认为区分在于初级的Date Creative和高级的Date Creative。例如初级的进行基础的相关、回归、聚类等统计分析,高级的进行机器学习、神经网络等高级挖掘分析”,这点就更加误人子弟,把回归、聚类归入初级分析,机器学习、神经网络归入高级分析,这本身在学术上就是错的。回归、聚类、神经网络都是机器学习的范畴——不要以为回归就是OLS,还有很多technic,优化方法如MCMC、MLE、Gradiant Descent、Gradient Boosting,取样如bootstrapping, bagging, ensemble,还可以修改cost function加penalty,从更广阔的角度来看,回归其实是神经网络的一个special case。