您当前的位置:首页 > 发表论文>论文发表

r语言数据挖掘期末论文

2023-12-08 21:56 来源:学术参考网 作者:未知

r语言数据挖掘期末论文

关于论文怎么写。标准步骤如下 1、论文格式的论文题目:(下附署名)要求准确、简练、醒目、新颖。 2、论文格式的目录 目录是论文中主要段落的简表。(短篇论文不必列目录) 3、论文格式的内容提要: 是文章主要内容的摘录,要求短、精、完整。...

R语言 数据挖掘-文本分析(1)

刚接触R语言一周,和matab不同R作用于数据挖掘的库很多,详解见 R语言数据挖掘包 ,下面简介文本分析经常使用到的三个包 tm 为文本挖掘提供综合性处理 Rwordmsg 进行中文分词 wordcloud 统计词云 以第三届泰迪杯A题提供的数据集国美-Sheet1进行文本分析 : 第三届泰迪杯 转化为txt的数据集如下图所示:

生成词云:

用R语言对vcf文件进行数据挖掘.11 CNV分析

目录

在之前的文章里介绍了如何通过直方图来可视化等位杂合碱基的比例来判断物种的染色体倍数性。在本文里会继续向下挖掘,介绍如何可视化染色体上的拷贝数变化(CNVs)。

和前文一样的操作,使用包自带的数据。

我们需要去除过高和过低深度的数据。和前文的操作一样,提取vcf文件里的深度数据"AD"。

然后过滤出10%~90%的数据,当然此处可以根据实际情况进行微调。然后对第一种出现频率最高的碱基进行可视化。(一般情况下一个位点上会有两种碱基,具体参考前文。)

同样也可以对出现频率第二高的碱基进行同样的操作,这里节约篇幅就省略了。

为了避免复杂的基于AD比例的模型假设,程序里设计了非参数估计法来计算峰值。计算完了以后可以直接对染色体进行拆分以后可视化进行校验。

根据尺寸把染色体分割成合适的大小

然后用 freq_peak 函数计算峰值。并对数据进行处理,去掉负数和Na值。

计算到此为止,可以可视化实际数据来验证计算的正确性。

仔细想一下,峰值计算的结果其实就是CNV的结果。这里根据窗口大小把染色体分成了若干段。(那么是不是可以给每一段 CDS进行细分然后计算出每一个CDS的具体数字呢????)

当然也可以把所有样本组合到一起。

用R语言对vcf文件进行数据挖掘.2 方法简介

目录

vcfR 可以直接读取vcf格式的数据。如果同时读取参照序列fasta格式的序列文件和gff格式文件的注释文件还可以获取更完整的信息(此步骤并非必须,可以只读取vcf数据)。在此处便于重复用到了 pinfsc50 包。这个包里是植物致病微生物的基因序列测序结果。包含了一个vcf文件,一个fasta文件和一个gff文件。

这里用到参照序列的数据。

当这些数据被读取到内存的时候就可以开始对染色体名字或者其它一些东西进行修改了。由于 vcfR 更擅长对的单独染色体进行分析,所以当你的基因过大或者有很多样本的时候,建议对数据进行拆分。

读取完数据以后就可以建立 chromR ,来对数据进行详细的分析。

首先对数据进行初步的可视化,

我们在上面的图里得到很多信息,比方说测序深度(DP)的峰在500,但是拖着尾巴,这个尾巴表示数据里包含着CNV信息。然后比对质量(MQ)的峰值在60,于是我们可以以60为中心对数据进行过滤。
使用 masker 可以对数据进行过滤标记。然后可视化过滤以后的数据。

是不是顺眼多了。当然我们也可以看一下SNP的分布情况。注意右下角的图。

用 chromoqc() 可以对数据进行更完整的可视化。包括外显子内含子的分布,GC含量的分布等等。

最后可以用函数 write.vcf() 把数据输出成新的vcf文件。

相关文章
学术参考网 · 手机版
https://m.lw881.com/
首页