首页丁香园病例库全部版块

我的关注

没有关注版块，去热门逛逛吧

热门

热门

心情驿站39 条热帖，今日新增 6 条

危重急救18 条热帖，今日新增 1 条

行业动态18 条热帖，今日新增 2 条

消化内科10 条热帖已更新

普通外科8 条热帖已更新

泌尿外科7 条热帖已更新

皮肤性病7 条热帖已更新

求职职场6 条热帖已更新

修复重建和烧伤整形5 条热帖，今日新增 1 条

骨科5 条热帖已更新

临床内科

临床内科

心血管1 条热帖已更新

呼吸胸外2 条热帖已更新

神经内外2 条热帖已更新

肿瘤医学最近热帖已更新

内分泌最近热帖已更新

肾脏内科最近热帖已更新

精神心理最近热帖已更新

风湿免疫最近热帖已更新

血液病最近热帖已更新

消化内科10 条热帖已更新

感染最近热帖已更新

临床外科

临床外科

心血管1 条热帖已更新

呼吸胸外2 条热帖已更新

神经内外2 条热帖已更新

肿瘤医学最近热帖已更新

泌尿外科7 条热帖已更新

普通外科8 条热帖已更新

修复重建和烧伤整形5 条热帖，今日新增 1 条

耳鼻咽喉头颈外科最近热帖已更新

骨科5 条热帖已更新

临床妇儿

临床妇儿

妇产4 条热帖已更新

儿科1 条热帖已更新

临床其他

临床其他

危重急救18 条热帖，今日新增 1 条

影像核医学1 条热帖已更新

中医最近热帖已更新

皮肤性病7 条热帖已更新

临床检验最近热帖已更新

超声医学最近热帖已更新

麻醉疼痛最近热帖已更新

康复医学最近热帖已更新

护理最近热帖已更新

社区全科最近热帖已更新

临床病理最近热帖已更新

口腔最近热帖已更新

眼科2 条热帖已更新

公共卫生最近热帖已更新

考试深造

考试深造

论文写作最近热帖已更新论文写作投稿统计与作图医学英语基金申报开题

本科考研2 条热帖已更新考研本科教育

考博留学1 条热帖已更新考博留学考试

执业考试最近热帖已更新

规培最近热帖已更新

职称晋升最近热帖已更新

行业讨论

行业讨论

行业动态18 条热帖，今日新增 2 条

求职职场6 条热帖已更新

心情驿站39 条热帖，今日新增 6 条

科研医药

科研医药

基础科研细胞生物与生物信息微生物与免疫实验动物与生化组胚细胞技术与形态遗传核酸基因技术蛋白质和糖学实验室建设与采购

医药研发与应用1 条热帖已更新合理用药新药信息药理及临床试验药物化学分析技术制剂技术生物制药

其他

其他

学习交流互助专区

更多内容

常用

登录

丁香园社区统计与作图帖子详情

R语言教程：缺失值处理脚本

发布于 2024-11-17 · 浏览 258 · IP 宁夏宁夏

墨点星沟 +5丁当

一、方法介绍

今天给大家带来脚本是缺失值处理的。为什么说这一块呢？因为我经常看到大家在用excel对缺失值进行插补，这种也是一个很好的方法，但是比较耗费时间，换句话来说性价比极低。有没有好办法呢，答案是肯定有！！

python的Numpy库中pd.fillna函数就可以搞定，语言非常简洁、方便！看到这里你是不是突然紧张一下，这一期不会是上python教程吧。哈哈哈，我个人不是特别喜欢python的语法，所以也只是在上机器学习中上python（因为python跑的更快一些），所以这一期咱们还是用R。说到缺失值，不得不提缺失值的类型，随机缺失（MAR，Missing at Random）、完全随机缺失（MCAR，Missing Completely at Random）、非随机缺失（MNAR，Missing not at Random），因为每一种缺失类型对应着不同的填补方法，一般情况下缺失数据属于随机缺失、完全随机缺失，也只有这两种类型的据能够填补，至于自己数据属于哪一类网上很多教程，本文不再阐述啦。因为我赶着打酱油去。

在R语言中，据我所知好像没有包可以快速帮我们去填补一些缺失数据（当然一些基于算法的插补除外），因此对我们来说十分的不便利。基于此，我写了几个小脚本可供大家使用。

二、操作代码

删除法即个案的所有变量中只要存在缺失值，即将变量进行删除。这个比较简单，R里面有函数可以实现。代码如下

2、一次性平均数、中位数、众数插补

在R里面没有现成的包可以这样做，如果有麻烦告诉我一下谢谢！！所以这里我自己写了一套脚本，无偿给大家。

参数含义：

data: 传入的数据

id_junshu,id_zhongweishu,id_zhongshu：分别是要插补均数、中位数、众数所在的列（传入变量名或者变量所在的列号）

三、使用方法

运行以上所有代码：

1.我有一组数据，我想用均数插补第1,2列，中位数插补第4,5，众数插补第8,9列，那么应该这样写：

data=m_impute(data,id_junshu=c(1,2),id_zhongweishu=c(4,5),id_zhongshu=c(8,9))

2.我有一组数据，我想用均数插补第1列，中位数插补第4,5列，众数插补第8,9列，那么应该这样写：

data=m_impute(data,id_junshu=1,id_zhongweishu=c(4,5),id_zhongshu=c(8,9))

3.我有一组数据，我想用均数插补第1,2,3列,那么应该这样写：

#数字换成变量名也是可以的，大家大胆往里面传，如果错误的话我写了校对模块。

如果你不会R也没事，我写了可视化操作工具，使用方法参考下一篇

最后编辑于 2024-11-17 · 浏览 258

回复收藏8

默认最新

分享帖子

分享到微博

分享到微信

认证

医师认证达人申请

返回顶部