多模型智慧碰撞:mLLMCelltype 引领单细胞注释新纪元
单细胞 RNA 测序(scRNA-seq)数据的细胞类型注释是将大量细胞数据转化为生物学见解的关键步骤。早期的注释方法需要人工专家将每个细胞簇中高表达基因与文献中的经典细胞类型标记基因进行比较,这一过程耗时且需要专业知识。随着数据集扩展到跨多种组织的数百万个细胞,手动方法变得越来越难以处理。尽管过去十年提出了各种计算方法,包括监督学习、无监督学习和基于知识的方法,但注释准确性仍远未达到最佳,尤其是对于研究较少的组织类型。
最近,基于大型语言模型(LLM)的方法如 GPTCelltype 显示出提高注释准确性的前景,但这些方法依赖于特定 LLM 总结的先验生物学知识,容易受到个体模型偏差的影响,并且缺乏足够的不确定性量化。对此有研究者开发了一个迭代的多 LLM 共识框架 mLLMCelltype,用于 scRNA-seq 数据的细胞类型注释。其研究《Large Language Model Consensus Substantially Improves the Cell Type Annotation Accuracy for scRNA-seq Data》目前发表在预印本平台bioRxiv上。
研究方法
研究人员首先通过差异表达分析确定每个细胞簇的标记基因,然后将这些标记基因列表连同组织背景信息一起输入多个 LLM,每个 LLM 独立地为每个簇提出初步的细胞类型注释,并基于标记基因证据提供生物学推理。
对于缺乏立即高共识的簇,框架启动迭代审议过程,LLM 共享结构化的论点,讨论特定标记的重要性,考虑潜在的通路参与,并评估组织背景如何影响细胞身份,每个 LLM 通过权衡同行提供的证据和推理来完善其分类,专用的共识检查器 LLM 在每轮之后评估参与模型之间的一致性程度,如果达到共识,则过程终止,得出最终注释和置信度分数,否则,审议继续进行或标记为模糊不清。

图1:mLLMCelltype 框架的描述
实验结果
研究者在多种数据集上对 mLLMCelltype 进行了评估,包括 Tabula Sapiens、Human Cell Landscape、Mouse Cell Atlas、Genotype-Tissue Expression(GTEx)跨组织数据、Human BioMolecular Atlas Program(HuBMAP)scRNA-seq 数据、Human Lung Cell Atlas(HLCA)以及专门的数据集,如 B 细胞淋巴瘤(BCL)和来自结肠及肺部的癌症数据集。实验结果显示,mLLMCelltype 在所有组织类型上的平均注释准确率为 77.3%,而 GPTCelltype 的准确率为 61.3%(图2a)。特别是在一些具有挑战性的数据集上,如前列腺(GTEx)(86.0% vs 48.0%,+38.0%)、食道(GTEx)(87.3% vs 52.5%,+34.8%)和肺(GTEx)(84.8% vs 52.2%,+32.6%),mLLMCelltype 显示出显著的改进(图2a)。
此外,研究者还对 mLLMCelltype 与 popV 进行了比较。在具有挑战性的人类发育胸腺数据集上,mLLMCelltype 的注释准确性比 popV 提高了 10.6%;在肺细胞图谱(LCA)上,mLLMCelltype 的准确性提高了 13.17%。与 popV 相比,mLLMCelltype 不需要预训练或参考数据集,使其在标准硬件上能够高效运行(图2b)。

图2:跨多样化数据集的性能评估
鲁棒性分析
为了系统地评估框架的鲁棒性,研究者设计了四种类型的标记基因扰动:管家基因注入、错误细胞类型标签注入、随机基因注入和标记基因随机丢失。在每种扰动类型下,研究者测试了从 0% 到 50% 的噪声水平,以 10% 的增量递增。结果表明,mLLMCelltype 在所有扰动类型下均显示出比 GPTCelltype 更高的鲁棒性。例如,在管家基因注入扰动下,mLLMCelltype 每 10% 噪声水平的准确性下降仅为 4.5%,而 GPTCelltype 为 8.5%;在错误细胞类型标记注入扰动下,mLLMCelltype 的下降为 10%,而 GPTCelltype 为 16.5%。

图3:在多LLM共识框架下系统评估标记基因的扰动鲁棒性
层级注释策略
为了处理具有层次结构的数据集,如综合细胞图谱和大型参考数据集,研究者还提供了一种可选的扩展方法,用于跨多个粒度级别的层次细胞类型注释。该策略通过利用多个聚类分辨率和专门的标记基因集来工作。用户需要生成一个层次聚类结构,可以通过运行 Leiden 聚类算法在逐渐提高的分辨率下实现。对于每个层次中的每个簇,计算两种类型的标记基因:全局标记基因和姐妹标记基因。全局标记基因通过将每个簇与其他所有簇进行比较得出,而姐妹标记基因通过比较具有相同父簇的簇得出。该框架然后应用顺序注释过程,利用专门的提示将父细胞类型的注释作为上下文,同时评估姐妹标记基因的鉴别能力。

图4:层级注释策略
未来方向
尽管 mLLMCelltype 框架通过多 LLM 共识显著减少了单模型幻觉,但仍可能产生“集体错误”,如果模型共享类似的训练偏差或收敛于错误的推理。未来的研究方向应集中在开发更复杂的方法来检测潜在的集体错误,如集成结构化的外部知识库,开发受自一致性方法启发的高阶推理评估系统等。
互动福利:你对mLLMCelltype有什么看法?留言区讨论,点赞的同学可私信领取原文PDF!