中医中药数据挖掘——频率,剂量分析,关联规则,聚类,因子及复杂网络分析

新型肺炎来势汹汹,让人措手不及。中医在这场疫情中大放异彩,迎来了又一个春天。学中医的小伙伴会越来越多,数据挖掘由于不用做实验,甚至只要查阅文献就能做出一篇硕士或博士论文,而且由于内容极其丰富,根本不用担心论文字数不够,越来越受到喜爱,本文就我多年分析经验,大概来梳理一下这类文章的一个过程及套路,希望大家杜能顺利毕业!同时文中给了数据整理的格式,供大家参考!
一般来说,这类文章包括了:用药频率分析、用药剂量分析、药物的性味归经和功效分析、关联规则分析、聚类分析、因子分析以及复杂网络分析。通常,一篇硕士论文这些内容已经足够了。假如时博士论文,建议再加个网络药理学分析,以及分子对接,有条件的同学还可以加个GEO数据挖掘加以验证。
1、药频率分析
用药频率分析是最基本的分析,一般来说需要算出每个药物使用的频次、频率及置信度等指标,其中,频次指的是用药的次数,频率就是这个药物的频次除以所有药物频次之和,而置信度就是这个药物频次除以挖掘的药方数量,比如,我挖掘了100个处方,总共40个药物,这40个药物用药频次之和是1000,甘草这个药物有80个处方用,那么频次就是80,用药频率就是80/1000=8%,置信度就是80/100=80%。整理后具体格式见下表:
也可以柱状图的形式来表示:
对于需要再美观一点的同学,也可以用词云来表示哦:
2、用药剂量分析
需要分析剂量的同学,也可以计算每个药物的平均剂量,最大最小剂量,标准差,每个药物的剂量分布图等内容,其中,假如标准差越大,说明这个药使用的剂量越分散,用法越多。
每个药物的剂量分布图见下图:
3、药物的性味归经和功效分析
药物的性味归经和功效分析也是比较重要的内容,这部分做起来比较麻烦,但是可以绘制出雷达图,效果还是非常不错的:
四气分析
四气雷达图
五味分析
五味雷达图
功效分析
4、关联规则分析
关联规则是非常重要的内容,他能看出用药的规律,一般来说要绘制关联规则网络图,具体如下:
关联规则网络图
还可以计算出用药组合,哪几个药物一起用了多少次等内容。
5、聚类分析
聚类分析是一种无监督算法,可以总结出药物分为多少类,对用药规律进行总结,具体如下:
聚类树状图
6、因子分析
因子分析是一个探索性分析,有利于找到用药规律,一般做因子分析之前要做KMO 和巴特利特检验,具体如下:
提取公因子,进行总结
碎石图
7、复杂网络分析
复杂网络分析有利于找出核心药物,便于下一步的网络药理学分析,一般结果如下:
复杂网络图
以上内容完成,再加上中医专业理论知识,硕士毕业没问题!网络药理学及其他内容下期再说!
最后编辑于 2020-08-18 · 浏览 1.3 万