Datos truncados y censurados: definición + ejemplos

Actualizado por ultima vez el 7 de mayo de 2021, por .

A menudo, al recopilar datos, los investigadores pueden decidir censurar o truncar ciertos valores.

Para censor valores de los datos medios para solamente de recogida de información parcial sobre los valores que caen por debajo o por encima de un cierto valor.

Por ejemplo, es posible que sepamos que una persona gana menos de $ 25,000 por año, pero es posible que no sepamos su ingreso anual exacto.

Ejemplo de datos censurados

Para truncar los valores medios de datos para eliminar valores de un conjunto de datos que están por debajo o por encima de un cierto valor.

Por ejemplo, un investigador solo puede estar interesado en estudiar a personas que ganan más de $ 25,000 por año. Por lo tanto, cualquier individuo que gane menos de $ 25,000 simplemente se elimina del conjunto de datos.

Ejemplo de datos truncados

Este tutorial proporciona varios ejemplos de cuándo los datos pueden ser censurados o truncados.

Censura de datos

Para censor valores de los datos medios para solamente de recogida de información parcial sobre los valores que caen por debajo o por encima de un cierto valor.

Los siguientes ejemplos ilustran escenarios en los que podemos decidir censurar los valores de los datos.

Ejemplo 1: Ingresos anuales

Suponga que un investigador está recopilando datos de encuestas sobre ingresos anuales. Si una persona gana menos de $ 25,000 por año, decide declarar este ingreso como “<$ 25,000” en una base de datos en lugar de especificar su ingreso anual exacto.

Esto representa un ejemplo de censura de datos porque sabemos que una persona gana menos de una cierta cantidad, pero no conocemos sus ingresos anuales exactos .

Ejemplo 2: Niveles de contaminación

Suponga que un biólogo usa cierta herramienta para medir los niveles de contaminación en diferentes cuerpos de agua. Su herramienta es incapaz de medir la contaminación por debajo de .002 partes por millón. Por lo tanto, cualquier masa de agua que tenga niveles de contaminación por debajo de este umbral simplemente se informará como «<.002» en lugar de la cantidad exacta.

Esto representa un ejemplo de censura de datos porque sabemos que ciertos cuerpos de agua tienen niveles de contaminación por debajo de .002 partes por millón, pero no conocemos sus niveles exactos de contaminación.

Truncar datos

Para truncar los valores medios de datos para eliminar valores de un conjunto de datos que están por debajo o por encima de un cierto valor.

Los siguientes ejemplos ilustran escenarios en los que podemos decidir truncar los valores de los datos.

Ejemplo 1: Número de delitos

Suponga que un agente de la ley está investigando los tipos de delitos cometidos por personas en un área determinada. De forma predeterminada, cualquier individuo que haya cometido 0 delitos no se incluirá en el conjunto de datos porque no ha cometido ningún tipo de delito.

Esto representa un ejemplo de datos truncados porque cualquier individuo que haya cometido 0 delitos simplemente se excluye del conjunto de datos por completo.

Ejemplo 2: Nivel educativo

Suponga que un profesor quiere estudiar la relación entre un determinado programa de estudios y el rendimiento de los estudiantes.

Debido a la intensidad del programa de estudio, el profesor solo quiere monitorear a los estudiantes que actualmente tienen un GPA superior a 3.5. Por lo tanto, cualquier estudiante que se postule al programa pero tenga un GPA menor a 3.5 simplemente no será incluido en el programa.

Esto representa un ejemplo de datos truncados porque cualquier individuo que tenga un GPA por debajo de cierto umbral simplemente se excluye del conjunto de datos.

Resumen

Para censor medios de datos a solamente de recogida de información parcial sobre los valores de datos y para Truncar medios de datos para eliminar los valores de datos de un conjunto de datos completo.

Tanto la censura como el truncado conducen a la pérdida de información en un conjunto de datos, pero truncar da como resultado una mayor pérdida de información porque implica excluir por completo ciertos valores de datos.

  • https://r-project.org
  • https://www.python.org/
  • https://www.stata.com/

Deja un comentario

Un gráfico de Pareto es un tipo de gráfico que utiliza barras para mostrar las frecuencias individuales de las categorías…
statologos comunidad-2

Compartimos información EXCLUSIVA y GRATUITA solo para suscriptores (cursos privados, programas, consejos y mucho más)

You have Successfully Subscribed!