Skip to content

使用 R 语言进行数据分析

R 语言是数据分析和数据挖掘的理想选择,提供了丰富的统计和可视化工具,如dplyrggplot2等包,适用于数据清洗、探索性数据分析(EDA)、建模和预测等任务。R 还支持机器学习和深度学习,通过caretrandomForest等包可以实现多种算法,便于在科研、金融和商业等领域开展高效的数据挖掘分析。因此本系统提供了使用 R 语言进行分析的方法。

注意:系统暂不支持使用 R 语言自动调度,尽可用于本地分析

一、下载及安装

1、访问 R 官网

打开浏览器,访问 R 的官方网站 https://www.r-project.org/

2、进入下载页面

在官网首页,找到并点击“Downloads”按钮,进入下载页面。 Example Image

3、安装

安装部分十分简单,直接“下一步”即可

4、下载 RStudio

(1)访问 RStudio 的官方网站 https://posit.co/download/rstudio-desktop/

(2)刚才已经安装过 R,所以此时下载 RStudio Example Image

5、安装 RStudio

安装同样很简单,单击“下一步”即可

二、配置及使用

1、配置 R 语言执行环境

(1)点击 Tools->Global Options Example Image

(2)配置 R ,选择之前安装的路径 Example Image

2、设置工作目录

(1)选择 Working Directory,指定你的工作目录,这样每次启动软件,默认就会进入该目录 Example Image

(2)点击“OK”

3、使用基础

(1)由于从 BI 工具内导出的文件为 pkl 文件,单纯用 R 语言无法解析,因此需要配合 Python 来解析 (2)打开上面安装的 Spyder,新建文件,复制如下代码,保存文件名为“pickle_reader.py”

Python
import pandas as pd

def read_pickle_file(file):
    pickle_data = pd.read_pickle(file)
    return pickle_data

(3)打开 RStudio,在终端中执行如下代码,安装包

R
install.packages("reticulate")
install.packages("dplyr")

(4)新建一个 R 文件,copy 下面的代码

R
library(reticulate)
library(dplyr)

# 指定Python解释器
use_python("C:\\anaconda3\\python.exe")

# 调用Python脚本
source_python("C:\\my_program\\Python\\sfxc\\custom_scripts\\pickle_reader.py")

# 调用Python函数,并返回数据、索引级别和索引代码
dataframe <- read_pickle_file("C:\\工作\\BI开发\\df.pkl")

Python 解释器的路径,和配置 Spyder 时一致;Python 脚本的位置和上面保存的位置一致;pkl 文件的名称及位置,与从 BI 工具中下载的一致。

(5)选中代码,按快捷键“Ctrl+Enter”执行,或者点击右上角的“Run” Example Image

4、查看变量

(1)点击“Environment”,查看变量 Example Image

(2)由于 R 语言的 data.frame 天然不支持多级索引,所以列名会以括号嵌套的形式体现 Example Image