关于作品本身,就简单说几个点。 排版工作可能会有些繁琐,但是排版工作非常重要。如果这没有做好,即使有优秀的内容发也很可能被刷掉。所以希望大家注意细节,多点耐心。 作品对字数有一定的要求,大概不超过2.5w字。但这一部分有时会有变动。如我第一次参加时,校赛的2.5w突然变成了省赛的1.5w。但是个人认为不必太被字数所限制,但是一定要尽力精简语言与段落。 在完成作品的过程中,多主动和老师沟通吧。老师可能不会主动来找你,但是学生多主动,多问的话也是可以得到很好的帮助的。 这是很有趣的一个部分,但是也非常头疼。一般来说,数据分析方法与你的问卷设置以及目的都是吻合的,就是说根据你的目的和分析方法去设置你问卷的形式。有以下几点需要注意。 高级的统计方法总是让人感觉非常炫酷的,但是高级的方法不一定会适合你的数据,也不一定就能得到好的结果。就像经济学中的供求模型,简单的模型却解释了十分复杂的问题。用最简单的模型得到最真实深刻的结论才应该是我们追求的。Anyway,适合的才是最好的。 更精细准确的人群分类愈来愈成为分析的重心,在优秀作品中这成为了常态。因此我们应用聚类,PCA等方法试图将人群分类。这里想说的是如果细分是大家的目的的话,应该对问卷的形式设计进行考量,比如分类题向定量题的转变啥的。当然,分类题也是可以进行聚类的,但是相对定量题还是比较复杂一些。 即使考虑到上述问题,有时问卷的结果可能还是不尽人意。我们这次分析用因子分析合并卡方检验对人群进行分类并画像,尽管人群之间行为差异还是比较明显,但是基本特征却几乎没有差异。这样的结果使得实际市场中细分的难度并没有得到改善,精准营销依然大受阻碍。导致我们的分析成为了真正的“纸上谈兵”。针对这种情况,大家还是在问卷的设置上多下功夫吧。 越来越多的作品利用大数据与网络爬虫对作品进行补充。我对这方面并不是太熟悉,但还是把我不太成熟地想法与大家分享。 a.搜索网页及网站信息 经过尝试,这一部分工作还是有些用的。当时我们为了爬取淘宝的信息,便对这方面进行了了解。主要来说就是两种方法:一种是利用Python,这需要一些技术。经过了解,这部分的学习也不是很难,但问题在于淘宝有比较严格反扒机制,所以我们需要做后续的工作,否则我们得到数据的稳定性会较差。考虑到这些因素以及自身能力限制,我们放弃了这种方法。另一种是利用相关网站进行搜索。这种方法对你爬取的内容有一定的限制,但是容易上手,感觉也还可以接受吧。具体的有店透视(插件)以及八爪鱼(软件)可以使用。更多的大家可以上知乎啥的搜一搜。 b.情感与文本分析 这一部分大家可以利用各大指数如百度指数,微博指数等进行分析。具体的分析工具大家可以自行查询。可以使用“ 大数据导航 ”网站进行搜索。 数据分析其实是个比较严谨的过程,数据分析中的逻辑是一种美感。但是在分析过程中希望大家多思考,不要太死板的套用模板啥的。比如尝试着对数据进行变形啥的以提升与数据方法的匹配度。当然,变形这一部分应用的不是很多,只是举个例子。 我影响比较深刻的是关于ROC曲线。我们通常认为ROC曲线下面积越大越好,即预测的准确度越高。但面对实际问题,我们对于真阳性与真阴性的期望程度有时是不一样的。因此在ROC曲线下面积可能不是非常令人满意的时候,可以多联系实际问题进行思考与解释。遇到问题也可以查查文献啥的。 本来想像之前做一个流程图,但是有点懒得弄了。这次实际应用到了PLS-PM模型、逻辑回归、因子分析(人群画像)这些方法,顺便也了解了一些结构方程模型(这个应用率很高)。针对数据分析,参考的数目是《R语言多元统计与建模》,个人感觉用来快速查找一些统计方法还是非常不错的。 差不多到这里结束了,具体分析方法没时间写了。Anyway,有机会一起交流好了。