目录
在之前的文章里介绍了如何通过直方图来可视化等位杂合碱基的比例来判断物种的染色体倍数性。在本文里会继续向下挖掘,介绍如何可视化染色体上的拷贝数变化(CNVs)。
和前文一样的操作,使用包自带的数据。
我们需要去除过高和过低深度的数据。和前文的操作一样,提取vcf文件里的深度数据"AD"。
然后过滤出10%~90%的数据,当然此处可以根据实际情况进行微调。然后对第一种出现频率最高的碱基进行可视化。(一般情况下一个位点上会有两种碱基,具体参考前文。)
同样也可以对出现频率第二高的碱基进行同样的操作,这里节约篇幅就省略了。
为了避免复杂的基于AD比例的模型假设,程序里设计了非参数估计法来计算峰值。计算完了以后可以直接对染色体进行拆分以后可视化进行校验。
根据尺寸把染色体分割成合适的大小
然后用 freq_peak 函数计算峰值。并对数据进行处理,去掉负数和Na值。
计算到此为止,可以可视化实际数据来验证计算的正确性。
仔细想一下,峰值计算的结果其实就是CNV的结果。这里根据窗口大小把染色体分成了若干段。(那么是不是可以给每一段 CDS进行细分然后计算出每一个CDS的具体数字呢????)
当然也可以把所有样本组合到一起。
刚接触R语言一周,和matab不同R作用于数据挖掘的库很多,详解见 R语言数据挖掘包 ,下面简介文本分析经常使用到的三个包 tm 为文本挖掘提供综合性处理 Rwordmsg 进行中文分词 wordcloud 统计词云 以第三届泰迪杯A题提供的数据集国美-Sheet1进行文本分析 : 第三届泰迪杯 转化为txt的数据集如下图所示:
生成词云:
关于论文怎么写。标准步骤如下 1、论文格式的论文题目:(下附署名)要求准确、简练、醒目、新颖。 2、论文格式的目录 目录是论文中主要段落的简表。(短篇论文不必列目录) 3、论文格式的内容提要: 是文章主要内容的摘录,要求短、精、完整。...
《基于R语言数据挖掘的统计与分析》百度网盘pdf最新全集下载:链接:
目录
vcf数据包含了所有的等位对立基因的信息,这样就可以帮助我们判断染色体的倍数。比方说有一个位点的碱基是A/T,测序覆盖率为20, 如果这个物种是二倍体,那么A,T的出现概率就是(50%),会各自出现10次,如果是3倍体,那么A会出现13次,T会出现7次,当然也有可能相反。当把所有的点位集合在一起的时候,我们就可以判断这个物种的倍数体了。
用包里的自带数据,有疑问的小盆友可以查阅之前的文章,这里就不做赘述了。
高通量数据测序可以保证每一个位点都经过很多次的读取,这样就相当于每一个等位基因都被测序过了差不多相等的次数。假设我们对一个二倍杂合体进行了覆盖率为30的测序,那么每一条染色体都被测了15次。当然真实情况不可能正好是这个数字,毕竟测序的时候会发生一定概率的错误。
假设我们用覆盖率为30给一个三倍杂合体进行测序,某基因位点为A/A/T,那么,A和T出现的期待值将是20和10。当某个基因位点的组合是A/G/C时,那么A,G,C就会各自出现10次。
FORAMT里的AD表示对立基因的各自出现的次数。所以我们可以提取AD数据。
一般的SNP Caller都会默认双倍体检验,也就是出现两种对立基因型。所以可以计算每种基因的出现概率。
然后用直方图可视化一下。
可以发现,大多数都是纯合,所以需要去掉纯合的部分。
我们发现峰值出现在了1/2,说明这个物种时二倍体,和预期的一样。
然而这里有一个小小的问题,Fequency几乎从0到1横跨整个横坐标,这个明显不合理,需要进行改善。
我们可以通过等位对立深度(AD)的信息来改善刚才提到的问题。
我们可以看到80%的数据分布在了19和75之间。然后再靠近40和60点的地方出现了两个峰,这分别代表杂合峰和纯合峰。然后整个数据还拖着一个尾巴,最长的地方超过了100,这表示部分区域包含了着非常高的拷贝数(CNVs)。此处的目的是为了可视化倍数体,所以选择100以下15%~95%的数据。
回想一下之前文章里介绍过的用箱图做可视化的内容,我们也可以通过同样的方法来确认过滤数据的效果。
看一下过滤后的结果。
果然好看很多。
最后再回到一开始,看倍数体的可视化效果。
结果明显干净易懂好多。
有同学会问,那么不是二倍体的话会出现什么样的结果呢。数据包的样本里正好有一个三倍体。
可以看到两个峰出现在了1/3,2/3处。结果和实际完美匹配。