生物信息学我有来头
1,序列比对(Sequence Alignment) 序列比对的基本问题是比较两个或两个以上符号序列的相似性或不相似性.从生物学的初衷来看,这一问题包含了以下几个意义:从相互重叠的序列片断中重构DNA的完整序列.在各种试验条件下从探测数据(probe data)中决定物理和基因图存贮,遍历和比较数据库中的DNA序列比较两个或多个序列的相似性在数据库中搜索相关序列和子序列寻找核苷酸(nucleotides)的连续产生模式找出蛋白质和DNA序列中的信息成分序列比对考虑了DNA序列的生物学特性,如序列局部发生的插入,删除(前两种简称为indel)和替代,序列的目标函数获得序列之间突变集最小距离加权和或最大相似性和,对齐的方法包括全局对齐,局部对齐,代沟惩罚等.两个序列比对常采用动态规划算法,这种算法在序列长度较小时适用,然而对于海量基因序列(如人的DNA序列高达109bp),这一方法就不太适用,甚至采用算法复杂性为线性的也难以奏效.因此,启发式方法的引入势在必然,著名的BALST和FASTA算法及相应的改进方法均是从此前提出发的. 2, 蛋白质结构比对和预测 基本问题是比较两个或两个以上蛋白质分子空间结构的相似性或不相似性.蛋白质的结构与功能是密切相关的,一般认为,具有相似功能的蛋白质结构一般相似.蛋白质是由氨基酸组成的长链,长度从50到1000~3000AA(Amino Acids),蛋白质具有多种功能,如酶,物质的存贮和运输,信号传递,抗体等等.氨基酸的序列内在的决定了蛋白质的3维结构.一般认为,蛋白质有四级不同的结构.研究蛋白质结构和预测的理由是:医药上可以理解生物的功能,寻找dockingdrugs的目标,农业上获得更好的农作物的基因工程,工业上有利用酶的合成.直接对蛋白质结构进行比对的原因是由于蛋白质的3维结构比其一级结构在进化中更稳定的保留,同时也包含了较AA序列更多的信息.蛋白质3维结构研究的前提假设是内在的氨基酸序列与3维结构一一对应(不一定全真),物理上可用最小能量来解释.从观察和总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构.同源建模(homology modeling)和指认(Threading)方法属于这一范畴.同源建模用于寻找具有高度相似性的蛋白质结构(超过30%氨基酸相同),后者则用于比较进化族中不同的蛋白质结构.然而,蛋白结构预测研究现状还远远不能满足实际需要. 3, 基因识别,非编码区分析研究. 基因识别的基本问题是给定基因组序列后,正确识别基因的范围和在基因组序列中的精确位置.非编码区由内含子组成(introns),一般在形成蛋白质后被丢弃,但从实验中,如果去除非编码区,又不能完成基因的复制.显然,DNA序列作为一种遗传语言,既包含在编码区,又隐含在非编码序列中.分析非编码区DNA序列目前没有一般性的指导方法.在人类基因组中,并非所有的序列均被编码,即是某种蛋白质的模板,已完成编码部分仅占人类基因总序列的3~5%,显然,手工的搜索如此大的基因序列是难以想象的.侦测密码区的方法包括测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等. 4, 分子进化和比较基因组学 分子进化是利用不同物种中同一基因序列的异同来研究生物的进化,构建进化树.既可以用DNA序列也可以用其编码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化,其前提假定是相似种族在基因上具有相似性.通过比较可以在基因组层面上发现哪些是不同种族中共同的,哪些是不同的.早期研究方法常采用外在的因素,如大小,肤色,肢体的数量等等作为进化的依据.近年来较多模式生物基因组测序任务的完成,人们可从整个基因组的角度来研究分子进化.在匹配不同种族的基因时,一般须处理三种情况:Orthologous: 不同种族,相同功能的基因;Paralogous: 相同种族,不同功能的基因;Xenologs: 有机体间采用其他方式传递的基因,如被病毒注入的基因.这一领域常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现. 5, 序列重叠群(Contigs)装配 根据现行的测序技术,每次反应只能测出500 或更多一些碱基对的序列,如人类基因的测量就采用了短枪(shortgun)方法,这就要求把大量的较短的序列全体构成了重叠群(Contigs).逐步把它们拼接起来形成序列更长的重叠群,直至得到完整序列的过程称为重叠群装配.从算法层次来看,序列的重叠群是一个NP-完全问题. 6, 遗传密码的起源 通常对遗传密码的研究认为,密码子与氨基酸之间的关系是生物进化历史上一次偶然的事件而造成的,并被固定在现代生物的共同祖先里,一直延续至今.不同于这种"冻结"理论,有人曾分别提出过选择优化,化学和历史等三种学说来解释遗传密码.随着各种生物基因组测序任务的完成,为研究遗传密码的起源和检验上述理论的真伪提供了新的素材. 7, 基于结构的药物设计 人类基因工程的目的之一是要了解人体内约10万种蛋白质的结构,功能,相互作用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗.基于生物大分子结构及小分子结构的药物设计是生物信息学中的极为重要的研究领域.为了抑制某些酶或蛋白质的活性,在已知其蛋白质3级结构的基础上,可以利用分子对齐算法,在计算机上设计抑制剂分子,作为候选药物.这一领域目的是发现新的基因药物,有着巨大的经济效益. 8.生物系统的建模和仿真 随着大规模实验技术的发展和数据累积,从全局和系统水平研究和分析生物学系统,揭示其发展规律已经成为后基因组时代的另外一个研究 热点-系统生物学。目前来看,其研究内容包括生物系统的模拟(Curr Opin Rheumatol,2007,463-70),系统稳定性分析(Nonlinear Dynamics Psychol Life Sci,2007,413-33),系统鲁棒性分析(Ernst Schering Res Found Workshop, 2007,69-88)等方面。以SBML(Bioinformatics,2007,1297-8)为代表的建模语言在迅速发展之中,以布尔网络 (PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、随机过程(Neural Comput,2007,3262-92)、离散动态事件系统等(Bioinformatics,2007,336-43)方法在系统分析中已经得到应 用。很多模型的建立借鉴了电路和其它物理系统建模的方法,很多研究试图从信息流、熵和能量流等宏观分析思想来解决系统的复杂性问题(Anal Quant Cytol Histol,2007,296-308)。当然,建立生物系统的理论模型还需要很长时间的努力,现在实验观测数据虽然在海量增加,但是生物系统的模型辨 识所需要的数据远远超过了目前数据的产出能力。例如,对于时间序列的芯片数据,采样点的数量还不足以使用传统的时间序列建模方法,巨大的实验代价是目前系 统建模主要困难。系统描述和建模方法也需要开创性的发展。 9.生物信息学技术方法的研究 生物信息学不仅仅是生物学知识的简单整理和、数学、物理学、信息科学等学科知识的简单应用。海量数据和复杂的背景导致机器学习、统 计数据分析和系统描述等方法需要在生物信息学所面临的背景之中迅速发展。巨大的计算量、复杂的噪声模式、海量的时变数据给传统的统计分析带来了巨大的困难, 需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。 10, 生物图像 没有血缘关系的人,为什么长得那么像呢? 外貌是像点组成的,像点愈重合两人长得愈像,那两个没有血缘关系的人像点为什么重合? 有什么生物学基础?基因是不是相似?我不知道,希望专家解答。 11, 其他 如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法.从现在的发展不难看出,基因工程已经进入了后基因组时代.我们也有应对与生物信息学密切相关的如机器学习,和数学中可能存在的误导有一个清楚的认识.
光从基因表达谱找有异常表达的基因也不全面。做出来的基因表达谱往往有很多基因存在差异,有的可能是一些下游的免疫生物学反应,有的可能是误差或个体差异(尤其是做的数量少时),剩下的可能才有加以考虑的价值。 另外,有时疾病易感基因本身表达并无改变,而是通过调控其它基因发挥作用。所以,致病基因的寻找应从多种途径着手。 一孔之见,如有谬误之处,请大家指教。 多谢verygood 兄,我的第一步可能只能做到表达谱的改变这一层次,如果有机会做下去的话,如你所言,应该从各种途径全面考虑。我现在的想法是以表达谱基因芯片技术为核心方法,做出患者和正常人小梁细胞基因表达谱的差异的总体信息,如maxon和你所说,这样可能找到新的致病相关基因,也可能不行,我想着起码是一个方面吧(不知对不对)。 我目前所能考虑的是如何组织自己的思路,来吧这个工作做好。还有几个问题请教: 1.基因文库的建立方法中,比如有一篇文章中选了1118个基因进行研究,通过BLAST,分成了已知基因、已知序列、未知基因等几类,我不明白他们是如何从基因文库(提取细胞全mRNA逆转录来的)中选定的?(还是从别的地方查到的?),我理解好像是直接测序,请问是如何从基因文库中找出(分离)这些基因一一测序的? 2.如何使用BLAST?比如同一文章中所说的已经测定出的1118个小梁细胞的表达谱基因序列我如何能查到?能给我讲解一下吗?太感谢了 有没有注意到一个问题,基因芯片只能检测已知的基因或序列,对于那些未知的则无能为力,一孔之见. Andrew说得不错,不过芯片中的基因数也在随对基因研究的深入而在不断增加。对普通的研究来说,主要的已知通路基本已能包括。 多谢指教。有能回答我上面几个问题的吗?我还是有些不明白,看了一天资料也没有明白。 请问:如果我用一个正常群体的基因表达谱cDNA定做了一个芯片(含已知的1118个基因),在与患者cDNA样品的杂交中发现有一个基因表达下调了或者不表达,其原因是什么呢?是真的没有表达还是别的? 多谢多谢 样本是否一致?比如血细胞,其细胞亚群是否有可比性? 有对照吗? 样本是随机样本,小梁细胞是均一的内皮细胞。至于对照,你指的是阴性对照、阳性对照还是转录的内对照? 小弟所知甚少,低级错误也可能犯,请多多指教。 除去实验和DNA芯片误差外,在与患者cDNA样品的杂交中发现有一个基因表达下调了或者不表达,需要用RT-PCR进行验证。其表达的下调或不表达,可能是受到其上游基因的调控,也可能是基因本身结构有改变,如无义突变可检测到表达的下降。对这些经RT-PCR证实后,应该进行测序,察看这些基因是否有结构的异常。 在天天站长和各位战友的帮助下,我对现在所申请的课题从无知到略懂,终于完成了自然科学基金申请书的写作,在明天,我们的这份凝结着大家的汗水和智慧的申请书就要送出去之前,对各位这几天来的帮助表示诚挚的感谢,尽管这是我第一次写这样的申请,尽管几乎没有中的可能,我还是觉得自己学到了很多东西,也结识了很多好朋友,真诚的感谢给了我这个机会! 我把这份申请的正文部分放在了附件里了,希望感兴趣的朋友可以看一下,提一些宝贵意见,因为我认为这样的一个课题还是很值得去做的,尽管我们可能没有这个机会和能力去做。 再次感谢大家啦! () 恭祝申请成功!! 谢谢天天站长的指教,谢谢各位战友。 近日科研基金开始申报,老板急命申请课题。由于对基础刚刚接触,故请教站长以及各位战友。 1目前收集到一少见的单基因病(癫痫方面),在国内未见临床和基础报道。临床工作,包括留取血样已经完成。 2本病自从98年以来,致病基因得到了定位和克隆,但存在遗传异质性,相同的致病基因的突变位点也不相同。多篇文章发表在nature genetic等权威杂志上。最新的研究显示,仍有其他未知的致病基因。 3合作实验室,有曾经成功的定位和克隆了一例致病基因的经验。 我们申请的目的是致病基因的定位和克隆,并有望发现新的致病基因。 想请教各位: 1在目前仅仅掌握临床资料的情况下,能否提出申请? 2还需要做那一方面的工作? 2如果可以,可能申请失败的原因是什麽? 谢谢各位,急切盼望指教!谢谢 如果是单基因疾病,那要看你收集的家系怎么样了。另一个问题主要是你的临床诊断正确与否。我不是临床的,这个临床诊断事关重大,如果有些是诊断错误或分型有误的,很有可能导致无法discover disease gene 单基因疾病这方面的技术策略已经很成熟,有很多文献可以参考。国内也有多家研究机构在做。 我想研究下某个基因SNP与一种疾病的关联。国外已有报道在2个位点上有联系。那么我是进行RFLP分析,还是用SNP分析? 各位大侠,我最近在做一个X染色体连锁遗传家系的疾病相关基因的定位,现在已用两个位点的MARKER(STR)做了基因组扫描,但是在连锁分析时遇到了困难,我用的是LINKAGE(version ). 我想请教各位在进行连锁分析时,性连锁与常染色体连锁遗传参数设置有何不同?急盼各位予以赐教,不胜感激! 答无事转转 我想研究下某个基因SNP与一种疾病的关联。国外已有报道在2个位点上有联系。那么我是进行RFLP分析,还是用SNP分析? RFLP是最早期的遗传标记(第一代),随着遗传学的发展和测序片段的不断增多,已出现了第二代、第三代遗传标记。RFLP通过酶切作用进行分析,操作简单,花费不多,但特异性差,有被淘汰的趋势;SNP定位明确,相对花费较大,对其分析可以通过测序、小测序(Snapshot)、荧光探针、SNP芯片等方法。 具体行RFLP分析,还是用SNP分析看你的研究目标和经济实力。 请教verygood,能否介绍一下小测序(snapshot)? 我最近想检测某基因与疾病的关系,外显子较多(20),在其他疾病中已有突变热点(9、11、13、17exon),但我要研究的病未见报道。请问我应对所有外显子测序吗? coldant wrote: 请教verygood,能否介绍一下小测序(snapshot)? 我最近想检测某基因与疾病的关系,外显子较多(20),在其他疾病中已有突变热点(9、11、13、17exon),但我要研究的病未见报道。请问我应对所有外显子测序吗? Snapshot为小测序反应,其原理简单地说是首先扩增包含SNP在内的一段DNA模板,再对PCR产物进行纯化,加入带有不同荧光的ddNTP和中间探针(所谓中间探针即SNP前20个bp左右寡核苷酸序列,探针与ddNTP按照模板序列结合,因为是ddNTP,其后不能再延伸,而结合的ddNTP反应的就是SNP情况),再纯化一下进行电泳,根据不同的荧光可以判断相应SNP基因型。 该方法适用于对已知SNP等位基因型进行确认,对探针要求不高;但操作步骤多,大规模应用较为困难(采用基于毛细管的测序方法,如ABI3100测序仪系列时,相对工作量小些)。 检测某基因与疾病的关系,外显子较多(20),在其他疾病中已有突变热点(9、11、13、17exon),建议你先研究一下这些位点。当然如果基因序列很短,也可以直接测序,因为目前发现的SNP或mutation毕竟还只有预计值的2%左右。 Good luck 谢谢verygood:) 最近忙着论文答辩的事情。我对于这方面完全是菜鸟,但是老板说要有新意,同学给出了个这样的主意。 目前已经提取DNA,进行基因分型。但是我希望测序进行确定。上面提到的SNAPSHOT是小型测序,我已经确定了突变位点,片段在300bp左右,是否可以全部测序? 另外是全部的样本测序还是就挑选几个杂合子和纯合子测就可以证明?这方面的资料在哪里有介绍?我还是新手:( 无事转转 wrote: 谢谢verygood:) 最近忙着论文答辩的事情。我对于这方面完全是菜鸟,但是老板说要有新意,同学给出了个这样的主意。 目前已经提取DNA,进行基因分型。但是我希望测序进行确定。上面提到的SNAPSHOT是小型测序,我已经确定了突变位点,片段在300bp左右,是否可以全部测序? 另外是全部的样本测序还是就挑选几个杂合子和纯合子测就可以证明?这方面的资料在哪里有介绍?我还是新手:( 如果只是300bp,且标本不多的话,还是直接测序好,因为不仅可以明确已知的SNP基因型,还可能顺带发现一些文献未报道过的,这也就是说所有标本都要测序。 如果只想对已知的那些SNP进行基因分型,你可以采用SNAPSHOT方法,当然亦可以用RFLP,只是特异性差些,所得的条带不一定与目标SNP不同等位基因有关,可能切到染色体其他区域。 这方面到没有一定的资料,我们也是做过以后才逐渐理解的,具体采用何种技术还是因地制宜吧。 verygood wrote 检测某基因与疾病的关系,外显子较多(20),在其他疾病中已有突变热点(9、11、13、17exon),建议你先研究一下这些位点。当然如果基因序列很短,也可以直接测序,因为目前发现的SNP或mutation毕竟还只有预计值的2%左右。 谢谢verygood老师。我研究的基因编码区2930bp,mRNA5084bp,基因全长80kb。本打算直接测序,但病人组18例(石蜡),对照组20例(外周血DNA行吗?),费用可能要6万!!!,所以现在想改成PCR-SSCP加异常条带测序,您看行吗? verygood wrote: 如果只是300bp,且标本不多的话,还是直接测序好,因为不仅可以明确已知的SNP基因型,还可能顺带发现一些文献未报道过的,这也就是说所有标本都要测序。 如果只想对已知的那些SNP进行基因分型,你可以采用SNAPSHOT方法,当然亦可以用RFLP,只是特异性差些,所得的条带不一定与目标SNP不同等位基因有关,可能切到染色体其他区域。 这方面到没有一定的资料,我们也是做过以后才逐渐理解的,具体采用何种技术还是因地制宜吧。 测序以后的结果要分析突变有什么软件检测呢?另外的统计学分析是不是有专门的生物统计学书有相关的介绍?还是就是普通的统计就可以了? To coldant : 对于初步研究,您的方法应该可行。 To 无事转转: 测序以后的结果分析突变主要通过序列比对初筛,可以利用Blast进行。不过确定是否确实为突变需要谨慎,应扩大样本再进行分型研究。 作疾病相关研究,你的case 和control太少了。一般国内期刊好像也要200对200,国外一般性期刊需要400-500对500左右。一流的杂志一般都是至少1000对1000的。由于你经费不足,你不可能作测序,你还是直接选用已知的位点做。因为这个基因跟多种疾病相关,说明这个基因很保守,很有可能跟你所研究的疾病相关,就算没有相关,通过与年龄、性别、该疾病的危险因素综合分析(就是玩数字游戏),一般总能发文章的。 寻找疾病相关基因的SNP,目前主要是直接测序(外周血抽提的DNA,而不是组织),通过对比病人和正常人(无该疾病的人)该基因序列,搜寻SNP。verygood所说的blast,实际上并不适用。 你可对目标SNP所在区域设计一对prime1,使得该SNP位于其中,PCR长度500bp左右。同时在PRIMER1覆盖的区域内,再设计一对PRIMER2。PRIMER2其中一个引物的3‘最后一个碱基必需是与目标SNP所在位点的正常碱基互补,如此,若病人在此位点突变,将导致PRIMER2一对引物不能扩增。另外PRIMER2与PRIMER1至少相距100多bp,PRIMER2产物为200多BP。这样,在一个PCR反应中同时放入这2对引物,就可以得到4个片段(在设计引物时,必须使得这4个片段的长度不同,以便电泳时区别),而含有目标SNP的个体,则只有3个片段,通过电泳,就可以确定是否该个体有突变。 这个方法具体的名称我忘了。希望能对你有所帮组。 maxon wrote: 寻找疾病相关基因的SNP,目前主要是直接测序(外周血抽提的DNA,而不是组织),通过对比病人和正常人(无该疾病的人)该基因序列,搜寻SNP。verygood所说的blast,实际上并不适用。 你可对目标SNP所在区域设计一对prime1,使得该SNP位于其中,PCR长度500bp左右。同时在PRIMER1覆盖的区域内,再设计一对PRIMER2。PRIMER2其中一个引物的3‘最后一个碱基必需是与目标SNP所在位点的正常碱基互补,如此,若病人在此位点突变,将导致PRIMER2一对引物不能扩增。另外PRIMER2与PRIMER1至少相距100多bp,PRIMER2产物为200多BP。这样,在一个PCR反应中同时放入这2对引物,就可以得到4个片段(在设计引物时,必须使得这4个片段的长度不同,以便电泳时区别),而含有目标SNP的个体,则只有3个片段,通过电泳,就可以确定是否该个体有突变。 这个方法具体的名称我忘了。希望能对你有所帮组。 呵呵,我指的是借用blast来方便序列的比对,当然applied biosystems有更好的软件,不过您如未购买相应仪器则很难获得。 至于标本量的多少,确实是越多越好。对于相对危险度为2的致病位点来说,case-control各1000例检测效能才能达到100%,病例数减少则检测效能也随之降低。但对于初步研究,还不清楚该位点是否有研究疾病有关就大规模投入,有可能颗粒无收。 供参考。 今天基康公司建议我直接测序,把样本4个一组形成一个“pool?”来测,节省经费。他们本来的建议是正常和病人各用4例分别形成1个“pool”来找SNP,然后用公司的TAG MAN(一种新技术)大规模检测SNP,但我没有这么多病人标本。所以只好只是测序。 请大侠看看这样好吗?如果我总共25例病人分成6个“pool”测序再分析可以吗? 先谢谢了。 maxon wrote: 寻找疾病相关基因的SNP,目前主要是直接测序(外周血抽提的DNA,而不是组织),通过对比病人和正常人(无该疾病的人)该基因序列,搜寻SNP。verygood所说的blast,实际上并不适用。 你可对目标SNP所在区域设计一对prime1,使得该SNP位于其中,PCR长度500bp左右。同时在PRIMER1覆盖的区域内,再设计一对PRIMER2。PRIMER2其中一个引物的3‘最后一个碱基必需是与目标SNP所在位点的正常碱基互补,如此,若病人在此位点突变,将导致PRIMER2一对引物不能扩增。另外PRIMER2与PRIMER1至少相距100多bp,PRIMER2产物为200多BP。这样,在一个PCR反应中同时放入这2对引物,就可以得到4个片段(在设计引物时,必须使得这4个片段的长度不同,以便电泳时区别),而含有目标SNP的个体,则只有3个片段,通过电泳,就可以确定是否该个体有突变。 这个方法具体的名称我忘了。希望能对你有所帮组。 呵呵,谢谢了。我在相关文献上看到的是设计2个引物(突变和未突变的),另外反义引物相同。正常对照组设计的引物很象你所谈到的PROMER2。我就纳闷为什么这样做? verygood wrote: To 无事转转: 测序以后的结果分析突变主要通过序列比对初筛,可以利用Blast进行。不过确定是否确实为突变需要谨慎,应扩大样本再进行分型研究。 确定是不可能做出结论,只是提出个展望。测序以后可以用SEQUENCEMAN软件分析,但是后面我想加个RFLP,按照相关文献报道来进行。这样分析起来好象就有更多的数据支持。 coldant wrote: 今天基康公司建议我直接测序,把样本4个一组形成一个“pool?”来测,节省经费。他们本来的建议是正常和病人各用4例分别形成1个“pool”来找SNP,然后用公司的TAG MAN(一种新技术)大规模检测SNP,但我没有这么多病人标本。所以只好只是测序。 请大侠看看这样好吗?如果我总共25例病人分成6个“pool”测序再分析可以吗? 先谢谢了。 呵呵,你也是在基康做吗?他们好象是用探针来检测SNP啊。我听说探针的准确性不如直接测序。不知道他们和你提出的是什么样的建议?:) maxon wrote: 作疾病相关研究,你的case 和control太少了。一般国内期刊好像也要200对200,国外一般性期刊需要400-500对500左右。一流的杂志一般都是至少1000对1000的。由于你经费不足,你不可能作测序,你还是直接选用已知的位点做。因为这个基因跟多种疾病相关,说明这个基因很保守,很有可能跟你所研究的疾病相关,就算没有相关,通过与年龄、性别、该疾病的危险因素综合分析(就是玩数字游戏),一般总能发文章的。 5555555,可是我收集不到这么多的病例呀,经费也有限。 您说的直接做已知位点是什么方法啊?另外您有看过《生物学统计》这样的书吗?听说参照它就可以进行相关的分析了。上海哪个图书馆或是书店有呀? 具体什么方法我忘了。统计学主要就是T检验和X2 多态性分析方法有两大类: 其一,基于家系分析,主要采用连锁不平衡方法。 其二,基于case-control,如maxon所言,主要就是T检验和X2 。但是应注意control是否能代表所抽样的群体。因抽样错误而导致的假阳性结果在早期文献中比比皆是,这已逐渐引起大家的关注。 无事转转wrote: 呵呵,你也是在基康做吗?他们好象是用探针来检测SNP啊。我听说探针的准确性不如直接测序。不知道他们和你提出的是什么样的建议?:) 看样子无事转转做的工作与我的很相似,可以多多交流! 基康公司建议:病人与对照各25例(病人只收集到25例),4例一组形成一个“pool”,PCR扩增所以外显子,直接测序。(节省费用) 申能公司建议:对每个病人进行扩增,直接测序,与genbank比较(不设对照组,费用18000元/10例) 北京鼎国公司:PCR-SSCP,(正常,病人各25例) 请verygood,maxon,无事转转等战友们参谋参谋,哪个可行? 申请斑竹们帮助。 coldant wrote: 看样子无事转转做的工作与我的很相似,可以多多交流! 基康公司建议:病人与对照各25例(病人只收集到25例),4例一组形成一个“pool”,PCR扩增所以外显子,直接测序。(节省费用) 申能公司建议:对每个病人进行扩增,直接测序,与genbank比较(不设对照组,费用18000元/10例) 北京鼎国公司:PCR-SSCP,(正常,病人各25例) 请verygood,maxon,无事转转等战友们参谋参谋,哪个可行? 申请斑竹们帮助。 我病例30,对照12。人家的建议是直接测序。我想测序以后再做个RFLP,因为是要写论文,所以内容不可以少。
这个要自己想清楚了,本人是10年生物学研究生毕业,感觉工作不是很好找。如果是大学老师的话,一般需要时博士在读或者毕业,而且据我所知待遇也不怎么高,我的导师也就3000多吧,我们是211工程学校,可能学校不同情况也不一样。说实话考研不难考,只要你英语过线,考博比考研还简单,就是传说中的好进不好毕业,毕业需要发表论文,硕士一篇,博士三篇,好的学校对论文的质量还有具体要求。个人认为要是你刚开始当老师的话,还是踏实的干段时间,考研没有你想象的那么有用,特别是生物。当然,这个还是要你自己决定。
该分析工具的网址如下 FGENESH - HMM-based gene structure prediction 进入该网址之后,输入该基因的fasta序列,关于目标基因的fasta序列,即为所示,我们以小麦中的基因为例分析。 根据所示,将fasta序列输入进去,选择小麦(triticum aestivum),然后search。图3展示了分析结果,可以看到我们这个序列比对到了正义链,因为我们用的例子是该基因的转录本,所以只包括黄色的部分,即CDSo序列,这也和我们使用的转录本相吻合。下面的是该基因对应的mRNA序列,同样也是1152bp,最下面的是将该mRNA翻译为蛋白质的序列。同样选择好序列和物种,搜索,等待结果。 图5是分析结果,一共鉴定了10个基因,21个外显子,由于篇幅所限,我们只展示了前几个,但是统计的话,正好能对上数目。 图6是紧接上图的具体的序列分析,总共包含10个基因。图8可以看到该基因在拟南芥中的同源基因,具体的生物学注释,就要看自己对这个基因的了解程度了。
110 浏览 4 回答
326 浏览 7 回答
269 浏览 8 回答
335 浏览 7 回答
214 浏览 5 回答
347 浏览 3 回答
347 浏览 3 回答
173 浏览 3 回答
342 浏览 3 回答
112 浏览 3 回答
82 浏览 5 回答
311 浏览 5 回答
306 浏览 4 回答
96 浏览 5 回答
285 浏览 2 回答