Cómo usar la función droplevels en R (con ejemplos)

Actualizado por ultima vez el 7 de mayo de 2021, por .

La función droplevels () en R se puede utilizar para eliminar los niveles de factor no utilizados.

Esta función es particularmente útil si queremos eliminar los niveles de factor que ya no se utilizan debido a la subconjunto de un vector o un marco de datos.

Esta función utiliza la siguiente sintaxis:

gotas (x)

donde x es un objeto del que eliminar los niveles de factor no utilizados.

Este tutorial proporciona un par de ejemplos de cómo utilizar esta función en la práctica.

Ejemplo 1: Reducir los niveles de factor no utilizados en un vector

Suponga que creamos un vector de datos con cinco niveles de factores. Luego suponga que definimos un nuevo vector de datos con solo tres de los cinco niveles de factores originales.

#definir datos con 5 niveles de factor
 datos <- factor (c (1, 2, 3, 4, 5))

#definir nuevos datos como datos originales menos los niveles de factor 4 y 5
 new_data <- data [-c (4, 5)]

#ver nuevos datos
 new_data

[1] 1 2 3
Niveles: 1 2 3 4 5

Aunque los nuevos datos solo contienen tres factores, podemos ver que todavía contienen los cinco niveles de factores originales.

Para eliminar estos niveles de factor no utilizados, podemos usar la función droplevels () :

# 
drop niveles de factor no utilizados new_data <- droplevels (new_data)

#ver datos
 new_data

[1] 1 2 3
Niveles: 1 2 3

Los nuevos datos ahora contienen solo tres niveles de factores.

Ejemplo 2: Eliminar niveles de factor no utilizados en un marco de datos

Supongamos que creamos un marco de datos en el que una de las variables es un factor con cinco niveles. Luego suponga que definimos un nuevo marco de datos que elimina dos de estos niveles de factores:

#create data frame
 df <- data. marco (región = factor (c ('A', 'B', 'C', 'D', 'E')),
                 ventas = c (13, 16, 22, 27, 34))

#ver marco de datos
 df

  ventas regionales
1 A 13
2 B 16
3 C 22
4 D 27
5 E 34

#define new data frame
 new_df <- subconjunto (df, sales <25)

#ver nuevo marco de datos
 new_df

  ventas regionales
1 A 13
2 B 16
3 C 22

#check niveles de variables región de
 niveles (región) $ new_df

[1] "A" "B" "C" "D" "E"

Aunque el nuevo marco de datos contiene solo tres factores en la columna de la región , todavía contiene los cinco niveles de factores originales. Esto crearía algunos problemas si intentáramos crear gráficos utilizando estos datos.

Para eliminar los niveles de factor no utilizados de la variable de región , podemos usar la función droplevels () :

# drop niveles de factor no utilizados
 new_df $ region <- droplevels (new_df $ region)

#check niveles de variables región de
 niveles (región) $ new_df

[1] "A" "B" "C"

Ahora, la variable de región solo contiene tres niveles de factor.

Puede encontrar más tutoriales de R en esta página .

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Supongamos que tengo un archivo CSV llamado data.csv guardado en la siguiente ubicación: C: Users Bob Desktop data.csv Y supongamos…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!