Nature 汉族最大人群规模相关基因疾病风险

Chen, HH., Chen, CH., Hou, MC.et al. Population-specific polygenic risk scores for people of Han Chinese ancestry. Nature (2025). https://doi.org/10.1038/s41586-025-09350-y TPMI 是目前已公开发表并可用于系统遗传分析的最大规模汉族人群GWAS资源。
关键词:polygenic risk score, PRS; Han Chinese ancestry; population-specific genetic architecture; phenome-wide GWAS;Taiwan Precision Medicine Initiative, TPMI; precision medicine; genetic risk prediction
.
主要研究结果
1. 研究总体设计与分析范围 研究基于 台湾精准医学计划(Taiwan Precision Medicine Initiative, TPMI)的 463,447 名汉族个体,结合电子病历信息,进行了全表型 GWAS(phenome-wide GWAS)分析。一共分析了 695 个疾病表型和 24 个定量性状,范围涵盖代谢、免疫、感染、肿瘤、心血管等主要疾病类型。

2. GWAS主要发现
在整个 GWAS 分析中,研究共检测到 2656个独立的变异–性状关联信号,其中 95个为首次报道的新发现。 这些新信号涉及 50 个疾病表型和 7 个定量性状,反映出汉族人群中一些独特的遗传结构。

代表性新发现:

3. 遗传力与共定位(Colocalization)分析
研究进一步用 LDSC 方法估算了性状的 SNP 遗传力。代谢和眼科相关性状的遗传力较高,比如: 身高(h²=0.32)、BMI(0.22)、HDL胆固醇(0.19)酒精依赖(0.21)、开角型青光眼(0.16) 在基因层面上,有 329 个基因对性状遗传力贡献显著,其中不少表现出“多效性”(pleiotropy)。例如 APOE 同时与脂质代谢和阿尔茨海默病相关,ABCG2同时影响尿酸水平和痛风。结合 GTEx、MAGE 以及日本eQTL 数据的共定位分析,研究共找到 391 个可能通过基因表达影响表型的基因。

4. 遗传相关性与表型聚类
通过计算性状间的遗传相关(rg),作者发现疾病可以分成三个遗传聚类:
1. 心血管–代谢类:包括 2 型糖尿病、高血压、血脂、BMI 等
2. 免疫与感染类:如系统性红斑狼疮、银屑病、乙肝等
3. 肾脏功能类::尿酸、肌酐、尿素氮、痛风、慢性肾病 这说明很多疾病在遗传基础上是相互联系的,比如代谢疾病之间的重叠风险非常明显。

5. 多基因风险评分(PRS)模型性能
作者利用五种算法(LDpred2、Lassosum2、PRS-CS、SBayesR、MegaPRS)构建 PRS 模型,其中 LDpred2 效果最好。
在 265 个疾病模型中,有 105 个达到显著水平(AUC > 0.55, P < 0.05)。其中表现较好的疾病包括:
1. 强直性脊柱炎(AUC ≈ 0.81)
2. 银屑病(≈ 0.71)
3. 系统性红斑狼疮(≈ 0.70)
4. 2型糖尿病(≈ 0.64)
5. 乙型肝炎(≈ 0.65) 36 个性状的 PRS 模型解释了其 SNP 遗传力的一半以上,说明模型性能已经非常接近理论极限。

6. 多性状PRS(PRSmix⁺)的优化效果
为了利用疾病间遗传重叠,研究开发 PRSmix⁺模型,将同一聚类内疾病的PRS信号联合训练。

多性状建模显著提升预测效能(P = 1.07×10⁻¹³)。
7. 跨人群验证(External Validation)
研究还在不同数据集上验证了模型的普适性:
1. 台湾生物银行(TWB):AUC 0.55–0.71
2. 英国生物银行东亚样本(UKB-EAS):AUC 0.56–0.63
3. All of Us 东亚样本:AUC 0.52–0.71 结果显示汉族特异性模型在东亚样本中表现稳定,并且整体优于用欧洲人群构建的PRS模型,证明了人群特异性的重要性。
8. 遗传风险与总体健康(PheWAS层面)
研究者进一步分析了 131 个PRS模型与总体健康指标(就诊次数、住院天数)的关系。结果发现:
1. 遗传风险可以解释 约8.5%的就诊次数和 约10%的住院时间变异。
2. 尤其是心血管代谢类风险贡献最大。这说明多基因风险不仅能预测单一疾病,也反映了个体整体健康状况。
文章的亮点:
1. 样本规模巨大(>50万),为汉族人群建立了目前最全面的全表型基因组数据库。
2. 首次系统地构建并验证了汉族人群的特异性多基因风险评分模型,性能媲美或优于欧洲裔模型。
3. 发现95个全新遗传关联位点,其中部分为汉族特有低频变异。
4. 将疾病聚类和多性状PRS结合,提高了预测精度,展示了跨疾病遗传风险的潜在临床价值。
5. 模型在多个人群数据集中验证,具有较强的外部可迁移性。
数据可用性
所有表型GWAS数据可从https://pheweb.ibms.sinica.edu.tw/phenotypes获得。
爱自己!!!做科研!!! 每文格言“亚马逊创始人贝索斯曾问过巴菲特:你的投资策略很简单,为什么没人能复制你呢?巴菲特回答说:“因为很少有人愿意慢慢变富。””如果有用,关注楼主GBhouse,点赞+讨论,攻击型人格请请请不要关注和阅读!!!
















































