随着大数据时代的来临,数据的价值已经被越来越多的人重视,数据源以及数据获取渠道的重要性也日益凸显。那,我们究竟可以从什么渠道获取数据呢?结合自己经验,对这方面进行一定的阐述。获取数据方面主要可以从两个渠道进行:自有数据源以及外部数据。
一、自有数据源
数据量级日益增大,越来越多的数据是以数据库的形式进行储存。如果想要获取自有数据源,则必须会使用SQL进行数据的调取工作。
SQL除了增删改之外,最常用的关键字都是围绕Select进行,包括Where,From,Group By,Order By,Having,Like,Sum,As,Distinct,Join,Limit等关键字。
另外,还需要注意不同的数据库兼容性不同。
二、外部数据源
1)网页爬取数据
如果学习了Python,那么就可以对网站上的一些数据进行爬取,譬如京东评论数据、大众点评评论数据等。
2)国家统计局数据
国家级别的数据源,包括我们国家经济民生的各个方面,可以从月度、季度以及年度等维度进行数据查阅工作。
3)百度指数数据
百度系产品,可以帮助洞察某个关键字在某一时间端内被关注的情况。通常可用作趋势分析、人群洞察等。当然,除此之外,还有搜狗指数、360指数等搜索指数产品。
4)腾讯TBI指数
腾讯系产品,帮助洞察互联网的热点信息,并可以了解大致行业趋势以及人群特征。
5)阿里指数
阿里系产品,依靠阿里自有天猫及淘宝等交易数据,是我国比较权威的大数据平台。
除此以外,还有爱奇艺指数、微信指数等大数据产品。