DNA甲基化是一种重要的表观遗传修饰,与组蛋白修饰等在转座子沉默、基因表达调控、基因组印记等生物学过程中起到重要的作用。哺乳动物细胞中DNA甲基化主要发生在CpG双核苷酸上,而植物中则存在较大比例的non-CpG(即CHG和CHH,H代表A、C或T碱基)甲基化。异常的DNA甲基化会导致发育异常、癌症、重大疾病。因此,DNA甲基化研究对于深入理解基因表达、个体发育及疾病的发生、发展的机制具有重要意义。
特定物种高精确度DNA甲基化修饰模式的分析,在表观基因组学研究中具有里程碑式的意义,并为细胞分化、组织发育等基础机制研究,以及动植物育种、人类健康与疾病等研究奠定理论基础。
实验流程
① 样品提取DNA后,电泳检测DNA浓度及完整性,检测合格后进入建库流程。
② 使用超声随机打断DNA至200bp左右,经过末端修复,加碱基A,加测序接头后,使用重亚硫酸盐将DNA片段中未甲基化的C转换为U,再经过片段筛选和PCR扩增,完成DNA甲基化文库的制备。
③ 构建好的文库经过文库质控合格后,再进行测序。
测序方案
① 测序策略PE150。测序平台一般选择Illumina。
② 测序深度30×,即基因组大小×30倍的数据量。
③ 一般推荐库容不超过200G。
信息分析流程
实验和分析需要注意哪些问题呢?
Q:DMC、DMR的定义?
DMC(Differentially Methylated Cytosine):差异甲基化C位点,覆盖深度至少为10,甲基化水平差值大于20%的甲基化C位点。
DMR(Differentially Methylated Region):差异甲基化区域,单个位点覆盖深度至少为10,包含至少1个差异甲基化的C位点,至少3个CpGs(CG位点)以及平均甲基化水平差异大于20%的差异区域。
Q:CpG islands和CpG shores的定义?
CpG岛(CpG islands):GC含量大于50%,长度超过200bp的DNA区域。CpG岛主要位于基因的启动子(promotor)和第一外显子区域,主要是保护housekeeping基因。启动子CpG岛与分化过程中激活基因表达相关,甲基化的CpG岛与基因抑制相关。
CpG shores:CpG密度相对较低,CpG岛周边距离2kb以内的区域。癌症与全基因组甲基化模式的改变紧密相关。CpG shores区域的低甲基化导致染色体重排和致癌基因的激活,导致癌细胞中整个基因组甲基化C减少。
Q:DNA甲基化研究对物种及基因组有何适用性?
并不是所有的物种都适用于DNA甲基化研究,例如果蝇、线虫等较为低等的生物因其缺乏甲基化转移酶极少或不发生甲基化;另外基因组最好拼接到染色体水平以获取完整的甲基化信息。
针对人、小鼠、大鼠等脊椎哺乳动物,其甲基化主要发生于CpG二核苷酸上,分析结果可见CG序列背景下的甲基化C占主导地位;而植物中不同C背景的位点分布差异不大。
Q:DNA甲基化分析中对C的覆盖度有什么要求?
一般要求1×胞嘧啶的比例在80%以上,5×胞嘧啶的比例在50%以上。
Q:哪些C真正的用于下游的分析?
筛选覆盖度5×及以上、经过二项式检验和校正的C。
Q:甲基化水平是如何计算的?
对于单个C来说其甲基化水平计算方法为支持该C为甲基化的reads数目与该位点覆盖度的比值;针对一个基因或指定区域,其甲基化水平计算方法为该区域中满足条件C的甲基化水平之和与C的数目比值。
Q:一个DMR为什么会对应多个基因?
DMR是全基因组范围内寻找的,其发生位置是未知的,当一个DMR鉴定出来后可能跨越了多个基因,即与2个或以上的基因存在位置上的重叠,故而单个DMR会与一个或多个基因存在交叠;此外一个DMR可能跨越了同一个基因上不同的功能区域,如DMR同时与同一个基因的外显子和内含子存在重叠。
Q:WGBS可以研究哪些碱基的甲基化?
DNA中常见的甲基化修饰碱基包括4mC、5mC、6mA等。WGBS可以研究的是5mC修饰。5mC是胞嘧啶的5位碳原子上多了一个甲基,是真核生物基因组中常见的甲基化修饰类型。4mC即为胞嘧啶的4位氮原子上多了一个甲基;6mA则是腺嘌呤的6位氮原子上多了一个甲基。4mC和6mA是细菌、原核生物等基因组中常见的甲基化修饰类型;6mA目前在真核生物小鼠、猪、斑马鱼中也有研究,属于真核生物界的甲基化修饰新类型。
Q:WGBS可以检测无参考基因组的物种甲基化位点吗?
WGBS只能适用于有参考基因组的物种,且其强烈依赖于基因组的完整程度和组装质量。基因组质量的好坏会直接影响其后续的分析结果,因此BS更适合有较完整基因组信息(至少组装到染色体水平)的物种。
Q:WGBS需要生物学重复吗?
通常生物学重复建议3个以上,至少为2个。这样的标准能够保证结果的可信度。
Q:WGBS需要多大的样品量?
在Bisulfite处理DNA之前需要对DNA进行打断和长度选择,因此WGBS需要的样品量一般需要5μg左右。而安诺优达通过持续研发,正常建库仅需要1μg左右的基因组DNA,即可获得质量合格的文库。综合考虑投入和产出的稳定性,至少需要500ng DNA建库。
Q:怎么计算C-T转化率?
在进行重亚硫酸处理前,我们要在样品中加入一定比例的λDNA作为对照。λDNA中所有C都是未甲基化的,因此经过重亚硫酸盐处理后,理论上所有的C都应该最终转换为T。但是实际上会出现系统误差,导致有些C未转化成T,这样就会出现一个错误率(Error rate)的概念,Error rate =λDNA上碱基测为C的次数/C位点总测序次数;那么1-Error rate=C-T转化率。客户需要用建库测序项目数据进行分析时,可以自行下载λDNA 序列(点击阅读原文即可下载)。
有些情况下,客户会利用样本中未甲基化修饰的DNA作为参考计算C-T转化率,如利用植物的叶绿体DNA等,这也是文章中有时用到的方法。从理论上来说,叶绿体或线粒体基因组的甲基化水平很低但并非绝对为0,而且比对也难免出现误判,故这种方法得到的结果可能略低于λDNA计算法。
Q:Bisulfite 处理后C-T转化率正常范围是多少?
目前我们的实验流程很成熟,能保证Bisulfite处理后非甲基化C的C-T转化率在99%以上,多数时候在99.5%以上,确保Bisulfite对DNA的处理达到生物信息分析要求。用叶绿体DNA或其他样本中未甲基化DNA作为标准,计算得到的转化率可能与利用λDNA计算的结果有极小的出入。这些方法都有文章使用,客户可以根据需求进行选择。
Q:怎样判定位点的甲基化信息?
位点是否发生甲基化,由位点是否发生C-T转换和测序深度综合判定,安诺默认5 X。如果该C位点支持甲基化的reads数大于等于设定阈值,则判断为甲基化的C。
下面我们来看看为什么要来安诺做WGBS吧!
安诺WGBS的项目经验丰富,疑难物种数据优秀!
安诺基因WGBS有丰富的项目经验,包括人、小鼠、大鼠、蜜蜂、拟南芥、白菜、白桦、番茄、油松、水稻、玉米、牛、绵羊、山羊、猪、鸡、鸭等。
安诺WGBS的项目周期有保证!
N≤24个,3周!
WGBS分析紧跟科研需求!
01 转移元件甲基化分析
代表物种:苹果、玉米、油松
应用场景:育种研究、复杂性状解析
横轴表示7个不同的转录元件区,纵轴表示特定区域各位点的平均甲基化水平;TSS为基因的转录起始位点。
02 多组学联合分析
代表物种:哺乳动物、模式物种等
应用场景:复杂性状解析、定位关键基因
使用circos图可以展示染色体位置、DNA甲基化水平、转座子数量、基因数量、高甲基化DMR、低甲基化DMR以及转录组、ATAC等多组学数据的信号分布。
03 变异甲基化图谱分析
代表物种:哺乳动物、人肿瘤样品等
应用场景:复杂性状解析、定位关键基因、肿瘤形成机制分析
从外往内,第一圈为染色体名称。第二圈和第三圈为不同类型的SV,第二圈的深蓝色代表缺失,深绿色代表插入,深红色代表扩增(浅蓝,浅绿,浅红为对应的背景色),第三圈的红色代表倒位,紫色代表染色体间易位。
关于安诺优达
安诺优达基因科技成立于2012年,总部位于北京,在北京、义乌、上海设立医学检验实验室,是中国基因行业的平台型企业。安诺优达一直深耕人类医学健康和生命科学研究两大领域,建立了专业的检测与数据分析平台,积极推动基因科技的产业化应用,助力生命科学发展。
在科技服务领域,安诺优达通过多组学技术,和国内外高校院所和研发机构广泛开展科研合作,已在 Nature、Science、Cell、Nature Genetics 等期刊合作发表文章上百篇。目前在单细胞多组学、空间转录组学、转录调控、三代测序、复杂基因组组装、泛基因组组装、单基因病研究、肿瘤致病机制探究等研究领域,安诺优达已形成特色技术优势,为生命科学研究提供优质的整体解决方案。