SCI论文解读(7):DESE:基于基因选择性表达估算复杂表型原发组织和易感基因的方法

发布单位: 广东省医学会医学科研实验室建设与管理学分会  /  阅读:1630 次  /  2021/4/6 8:34:47

蒋琳,生物信息学方法学研究,中山大学中山医学院博士毕业,现入职广东省人民医院医学研究部。曾任中山大学中山医学院助理研究员,香港大学医学院基因组研究中心研究助理。以人类疾病遗传定位计算方法创新为主要研究方向,在癌症驱动基因定位和复杂表型原发组织定位方面提出了高效能的新方法,不仅丰富了现代遗传学定位方法的理论,也为实例研究节省了大量的资金和时间。发表SCI论文5篇,其中以第一位共一作者在Genome BiologyNucleic Acids Research期刊发表方法学创新论文2篇。

1.引言

准确鉴定遗传性复杂疾病的病理原发组织或细胞类型是当下基础医学领域的难点之一。本研究基于易感基因倾向于在原发组织有选择性表达的假设,研发了一套估算复杂疾病或性状的原发组织和易感基因的综合统计分析方法,并已实现在基因组定位分析软件平台KGG,供科研工作者免费下载使用,网址为http://grass.cgs.hku.hk/limx/kgg/

2.方法简介

本研究研发了一种基于基因的组织特异性表达估算复杂疾病或性状驱动组织的全新统计学方法(DESE)DESE通过比较易感基因在各个组织相对极高或极低的特异表达估算出疾病或性状驱动组织,并能利用推断驱动组织反过来更准确地定位表型的驱动基因。该方法的核心框架由三部分分析循环迭代组成,分别为:基于有效卡方检验的基因水平的条件关联分析、根据条件关联分析的疾病或性状相关基因的特异表达估算驱动组织、根据基因在驱动组织中的特异表达对易感基因排序。DESE的循环迭代策略利用数据驱动的思路解决了复杂表型易感基因和原发组织的不确定性问题。

  该方法的输入为GWAS显著关联P值和基因在各个组织中的表达量水平。三部分循环运行,直到生成稳定的特异表达组织列表和含统计显著P值的易感基因列表,循环过程详见图1

DESE的强大效能源自于4大技术创新:基因组织特异表达与基因关联分析相整合、鲁棒回归z-score方法准确量化基因组织特异表达、考虑到转录本水平表达量的精度、以及基于数据驱动的迭代排除不确定性干扰。

3.对比验证及应用

在对比验证中,DESE比同类方法效能强大,基于转录本水平时在大部分情况下产生的P值最显著,不仅能准确探测原发组织还能对易感基因进行精细定位。该系统被应用到了6个代表性的复杂疾病或性状,发现了多个新的原发组织细胞或细胞类型(图2)。例如,发现肺可能是风湿性关节炎紧密相关的病理组织,这也与风湿性关节炎和很多肺病具有高共病性的临床观察一致。

  重新精细定位复杂疾病或性状的易感基因是DESE特有的功能,通过对6种复杂疾病或性状重新定位易感基因列表,验证了组织特异表达基因水平条件关联分析探测的显著基因比普通基因水平条件关联分析的探测结果,不仅具有更高的真阳性率而且大幅提升了发现数量,因为整合基因在驱动组织的特异表达能从功能上发掘复杂表型相关基因,明显提升了定位复杂表型真实驱动基因的效能,使探测结果更可信。

Fig. 2 Driver tissues estimated by DESE and two exiting methods in six representative complex diseases/traits. Note: Each row shows one disease/trait. The first, second, and third columns show the estimated driver tissues according to GTEx transcript-level, GTEx gene-level, and GEO gene-level selective expression respectively. The bar denotes the averaged -log10(p) based on selective expression of four different measures. The -log10(p) based on each selective expression measure is denoted by a line. The fourth column shows estimated driver tissues by Ongen et al.s method, which is extracted from Supplementary Table 5 of their published paper. The fifth column shows estimated driver tissues by the LDSC-SEG method, which is extracted from Supplementary Table 6 of their published paper. The pink horizontal denotes the significance level. The tissues are classified into 15 groups according to anatomy. The tissues are sorted by the averaged -log10(p) on y axis in descending order. SCZ schizophrenia, BD bipolar disorder, CAD coronary artery disease, RA rheumatoid arthritis, TC total cholesterol.

4.讨论与总结

DESE的技术核心是将基因特异表达和表型条件关联两类数据无缝整合,通过迭代的方式使得这两类独立数据相互支撑印证、逐步减少噪声信号,最终准确地鉴别易感基因和病原组织。我们提出的鲁棒回归z-score方法将表达量均值的标准误整合到计算组织特异表达之中,模拟时的P值最接近均匀分布,克服了现有方法的不足,所以很大程度地促进了估算特异表达基因的统计推理。

值得一提的是,DESE用实验验证了一直难以证明的假设,复杂疾病的易感基因更倾向于在复杂表型原发组织有选择性表达。DESE也发现了一些新的在疾病相关组织有特异表达和GWAS条件关联分析中显著的基因,虽然目前还没有生物功能实验验证,但可能是有待发现的新易感基因,为研究复杂疾病成因和治疗方案提供了新思路和理论依据。

原文链接:

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1801-5 (Genome Biology, IF = 10.806)

 

特别鸣谢:

 

本文转自:GD省医公共实验室公众号:

 

欢迎投稿:MLCMGD@163.com