第16期 R语言数据处理核心!管道符用法详解

R语言学习tidyverse包不可避免的就是管道符的大量使用。让结构更加优雅,同时也让流程脉络更加清晰

管道符是个很简单的东西,但也确实能改变编程风格,一上手就知道咋回事了,不需要专门学习

1 图示

管道符及数据处理

2 管道符介绍及用法说明

管道 %>% 来自于 Stefan Milton Bache 开发的 magrittr 包。因为 tidyverse 中的包会自动加载 %>%,所以通常你无须显式地加载 magrittr。加载tidyverse后即可直接使用

管道符的作用是省去中间步骤,将前一步的结果,作为后一步的输入(第一个参数是data,tidyverse的框架下大部分都可以满足要求)。保证了数据的一致和思路的清晰。使得整合式数据处理成为可能

不使用管道符

  • 代码中充斥着大量不必要的变量。
  • 你必须在每一行代码中小心翼翼地修改变量后缀

使用管道符

  • 减少了中间变量
  • 避免因为代码行数过多,出现运行间断。数据多次进行重复处理的情况

3 管道符的在tidyverse下的具体实现

代码说明

  • 只提供展示,不提供原数据,具体数据为个人之前使用过的
  • 只展示管道符可以实现的功能和流程,具体函数说明需要个人积累
  • 功能仅摘取我一次完整数据处理过程中展示的脉络功能,其它更多操作未涉及

数据导入及变量选择

使用mutate批量转换变量的数据类型

使用正则表达式批量进行变量重命名

图示的是删除变量中括号内的内容

使用rename进行变量重命名

使用mutate进行变量的重编码

使用pivot系列函数实现结构重组(重要的整洁化)

使用group_by+summarise实现分组汇总

结合baseR语法,进行数据的展示

结合ggplot2语法,进行可视化

使用join系函数进行数据框的匹配

实现批量建模,参考后续purrr包用法

数据的导出

bruceR包函数导出