Tablas

Tablas

Introducción

La presentación de datos estadísticos se apoya en dos formatos fundamentales:

Tablas: Es el procedimiento de presentación mediante el que la información aparece de forma muy completa y detallada. Como incoveniente esta información no resulta intuitiva. Si presentamos tres valores medios, puede ser fácil ver su ordenación; pero ya no es tan fácil sin hacer cuentas mentales saber si el valor del centro si se situa más cerca de uno u otro valor extremo.
Representaciones gráficas: Es un procedimiento de presentación más intuitivo, aunque resulta menos detallado y exacto que el procedimiento anterior. Veremos ejemplos de ambos.

Tanto las tablas como las gráficas se utilizan para representar dos formas de resumir la información contenida en los datos Estadísticos: Frecuencias y Estadísticos.

Open Office presenta una gran capacidad para adaptar el aspecto a las necesidades y al gusto estético de cada usuario. No entraremos en esta cuestión en este tutorial. Dentro del comando Formato->Celdas... se pueden encontrar las diferentes solapas que permiten conseguir el aspecto deseado para una tabla. Son bastante autoexplicativas y no requieren más que algún tiempo de ensayo y uso para llegar a dominarlas. Además existen otros tutoriales en Internet que abordan esta cuestión.

Frecuencias

Las frecuencias son el recuento de las veces que aparece en determinado valor de una variable estadística en un conjunto de datos. Pueden ser frecuencias relativas o frecuencias absolutas. Las primeras son el recuento directo del número de repeticiones y el segundo es el resultado de dividir la frecuencia absoluta por el número total de datos. Además no es extraño que la frecuencia relativa aparezca presentada en forma de porcentaje.

En OpenCalc se pueden utilizar dos formas de calcular frecuencias. La primera es adecuada para cualquier tipo de variables y en realidad es un ejercicio que ya se hizo en el primer tutorial. La segunda es específica para variables cuantitativas y es bastante más potente que la primera.

Variables cualitativas

Utilicemos el archivo analisis_de_datos incluido con la suite parcialmente libre StarOffice 6.0 y de la que procede el actual proyecto OpenOffice. Es un archivo elaborado por Peter Thielmann y modificado por Tom Verbeek. Contiene 392 datos (¿ficticios?) sobre ventas de productos teléfonicos a 12 clientes ubicados en diferentes ciudades a lo largo de 26 años.

Abramos el archivo y situémonos en la casilla C395. La casilla B395 señala el nombre Alicante. Trataremos de que en la casilla B395 aparezca la frecuencia con la Alicante ha realizado ventas, es decir, el número de años en los que Alicante refleja ventas.
Pulsemos sobre el botón del asistente de funciones para introducir una fórmula.
Elegiremos la función CONTAR.SI dentro de la categoría Matemáticas.
Señalaremos el área b2:b392 como el lugar donde queremos que cuente el número de veces que aparece Alicante. Como lo repetiremos posteriormente para las demás ciudades, utilizaremos referencia absoluta al indicar el número de fila: b2:b392.
El criterio debería ser "=Alicante". Podemos probarlo. Pero esto nos obligaría a utilizar un función nueva con nombre de ciudad. De modo que dejaremos la expresión "=" y la reuniremos con el texto de la casilla b395. El operador para unir textos es &. Viene a ser con los textos un operador análogo al operador + con los números. La pantalla del asistente para funciones debe quedar así:

Extenderemos la función a todas las casillas desde la celda C395 hasta la C406.
En la celda C407 pegaremos la función suma mediante el botón suma ().
Nos situaremos nuevamente en la celda C407 para cambiar de lugar la ubicación de la suma mediante las teclas May+Supr o bien mediante el comando Editar->Cortar.
Pegaremos en la celda C408 la suma bien mediante las teclas May+Insert o bien mediante el comando Editar->Pegar.
En la celda D395 escribiremos la fórmula =C395/C$395 que nos permitirá calcular la frecuencia relativa. Utilizaremos una referencia absoluta para el denominador a fin de poder extender la fórmula a todo el conjunto de frecuencias.
Extenderemos la fórmula desde D395 hasta D406 como ya se ha hecho anteriormente.
Extenderemos la suma de C408 a D408 . La suma de las frecuencias relativas es siempre la unidad.
Podemos presentar las frecuencias relativas como porcentajes seleccionando el área D395:D408 y pulsando el botón de porcentaje () nos quedará en la forma deseada.
Finalmente guardemos el archivo tal y como ha quedado pasa uso futuro.

Variables cuantitativas

Para las variables cuantitativas se dispone de otra función algo más versatil que la utilizada para las variables cualitativas. El cálculo de frecuencias en variables cuantitativas incluye conceptos algo más sutiles que en el caso de las variables cualitativas. Especialmente en el caso de variables que además de ser cualitativas son contínuas es un cálculo ligado a la idea de intervalo. En las variables continuas, la frecuencia de un valor de una variable continua puede no ser representativa de su abundancia en la población de la que procede nuestra muestra, especialmente si el número de valores posible de la variable es muy elevado frente al número de datos disponibles. En estos casos los valores se agrupan en conjuntos conexos de valores denominados intervalos.

Volvamos a utilizar los datos de Fisher que utilizamos en el ejercicio de introducción de datos para ejercitar la construcción de intervalos para el cálculo de frecuencias en variables continuas. Los datos completos se encuentran en el archivo iris2.odt.

Situémonos en la celda A153. Escribamos la fórmula =MÍN(A2:A151) o bien utilicemos el asistente para fórmulas elegiéndo la función MÍN en la categoría Estadística. Obtendremos el valor mínimo de las longitudes de los sépalos medidos a los iris.
En la celda A154. Escribamos la fórmula =MÁX(A2:A151) o bien utilicemos el asistente para fórmulas elegiéndo la función MÁX en la categoría Estadística. Obtendremos el valor máximo de las longitudes de los sépalos medidos a los iris.
En la celda A156 escribamos 4.
En la celda A157 escribamos =A156+1.
Extendamos la fórmula de A157 hasta A160.
En la celda B163 iniciamos el asistente para funciones y elegimos la función FRECUENCIA dentro de la categoría Matriz. Esta categoría incluye a las funciones paras las que el resultado no es un único valor, sino un conjunto de valores, como son por ejemplo: la matriz inversa de una matriz, la matriz producto de dos matrices, la matriz transpuesta de una matriz, los parámetros de una regresión lineal, o en nuestro caso el conjunto de frecuencias asociadas a un conjunto de intervalos.
Como datos designaremos el conjunto de valores de las longitudes de los sépalos: a2:a151.
El campo grupos designa los valores de los extremos de los intervalos en los que se desea agrupar los valores. En nuestro caso los extremos de los intervalos los hemos puesto en las casillas del rango a156:a160.

La ventana del asistente de funciones debe quedar como en la imagen. No se debe ovildar marcar la casilla Matriz de la esquina inferior izquierda que nos ahorrará tener que calcular las frecuencias para cada intervalo como tuvimos que hacerlo en el caso de las variables cualitativas.
Cuando pulsemos Aceptar nos quedará la hoja de cálculo como en la imagen. A partir de los cinco límites que le hemos propuesto nos ha proporcionado las frecuencias de seis intervalos. La primera frecuencia es el número de datos para los que la longitud del sépalo es inferior a cuatro milímetros. Tal como podemos deducir del valor mínimo del conjunto de datos, este número ha de ser cero. La última frecuencia es el número de datos para los que la longitud del sépalo es superior ocho milímetros. También esta frecuencia es cero. Otro problema que tenemos es que no sabemos si los valores 5 pertenecen al primer conjunto o al segundo de frecuencias. Podemos averiguarlo cambiando el valor 5 por 4.95 y comprobamos que la frecuencia disminuye pasando de 32 a 22; debemos concluir que hay diez sepálos cuya longitud es 5 mm. y que están incluidos en el primer grupo de frecuencias no nulas. A la vista de todo ello vamos repetir el procedimiento de forma que nos quede todo más claro.

Mediante las teclas Ctrl+Z. o mediante el comando Editar->Deshacer. quitamos las frecuencias que hemos introducido.
En la celda A156 cambiamos el 4 por el valor 3,95. Todos los valores cambian de modo que no tendremos dudas sobre la pertenencia de ningún valor a algún intervalo, ya que no existen valor con precisión de centésimas.
En la celda B163 repetimos el asistente de funciones, pero esta vez le damos al campo grupos el rango a157:a159, de este modo evitamos los valores cero de los extremos.
En la celda B167 calculamos la suma con el botón suma () y comprobamos que efectivamente se han contabilizado todos los datos. Trasladamos esta suma a la celda B168 con las teclas May+Supr y May+Inst como ya hemos hecho anteriormente.
En la celda A163 calculamos el valor medio o marca del clase del intervalo al que corresponde la frecuencia de la celda B163. Introducimos la fórmula: =(A157+A156)/2.
Extendemos esta fórmula a las casillas del rango A164:A166.
En la columna C podríamos calcular las frecuencias relativas como hicimos con la variable cualitativa. En lugar de utilizar las marcas de clase de los intervalos podríamos haber puesto en la columna A el inicio de cada intervalo y en la columna B el final, pero la disposición actual permite de forma inmediata la construcción de un diagrama similar a un histograma como veremos en la sección correspondiente.

Estadísticos

La segunda forma mediante la que podemos resumir la información contenida en un conjunto de datos es mediante la utilización de Estadísticos. Dependiendo del tipo de información que se refleja en el estadístico utilizado disponemos de tres tipos de Estadísticos. Se volverán a ver utilizando para ello el R-Commander.

Estadísticos de posición: Indican en que valores de la variable podemos encontrar datos. Se les puede clasificar a su vez en dos tipos:

Centrales o de centralización: Indican los valores centrales del conjunto de datos. El más importante es la media.
No centrales: Indican otros valores en los que podemos encontrar datos, pero no son los valores centrales del conjunto de datos.

Dispersión: Indican como de cerca o de lejos están los datos entre sí.
Forma indican si los datos son más abundates en los valores bajos de la variable o en los valores altos, o en los valores centrales. A su vez son de dos tipos: Asimetría y Curtosis. Debido a su mayor complejidad en la interpretación de estos valores no los estudiaremos en esta parte del curso. Aunque son faciles de calcular mediante OpenCalc, no son tan fáciles de interpretar sin disponer de un buen formulario auxiliar.

Utilizaremos de nuevo los datos de Fisher que se encuentran en el archivo iris2.odt.

Estadísticos de posición

Una vez abierto el archivo marcaremos la primera columna pinchando con el ratón en la cabecera de la misma (donde está la letra A mayúscula).
Mediante el comando Insertar->Columnas insertaremos una nueva columna a la izquierda de los datos. (También es posible utilizar el menú contextual que aparece al pulsar con el botón derecho del ratón en la cabecera de la columna seleccionada)
En la celda A153 Escribiremos: Media.
En la celda B153 bien directamente o bien mediante el asistente para funciones () escribiremos la fórmula =promedio(b2:b151). la función se encuentra en la categoría Estadística.
En la celda A154 Escribiremos: Mediana.
En la celda B154 bien directamente o bien mediante el asistente para funciones () escribiremos la fórmula =mediana(b2:b151). la función se encuentra en la categoría Estadística.
En la celda A155 Escribiremos: Moda.
En la celda B155 bien directamente o bien mediante el asistente para funciones () escribiremos la fórmula =moda(b2:b151). la función se encuentra en la categoría Estadística. (La moda en las variables continuas como las que nos ocupan no debería ser calculada directamente como estamos haciendo, sino que previamente se deberían construir intervalos para garantizar su representatividad).
En la celda A156 Escribiremos: Mínimo.
En la celda A157 Escribiremos: Cuartil inferior.
En la celda A158 Escribiremos: Mediana.
En la celda A159 Escribiremos: Cuartil superior.
En la celda A160 Escribiremos: Máximo.
En la celda H156 Escribiremos: 0.
En la celda H157 Escribiremos: =h156+1.
Extenderemos la fórmula de la celda H157 hasta la celda H160.
En la celda B156 Mediante el asistenten de funciones () escribiremos la fórmula =cuartil(b2:b151;$h156:$h160). La ventana del asistente debe quedar como en la siguiente imagen. Una vez más se debe marcar la casilla matriz de la esquina inferior izquierda de la ventana.

En la celda A161 Escribiremos: Percentil 10.
En la celda A162 Escribiremos: Percentil 90.
En la celda H161 Escribiremos: 0,1.
En la celda H162 Escribiremos: 0,9.
En la celda B161 Mediante el asistenten de funciones () escribiremos la fórmula =percentil(b2:b151;$h161:$h162). Una vez más se debe marcar la casilla matriz de la esquina inferior izquierda la ventana.

Estadísticos de dispersión

En la celda A163 Escribiremos: Varianza.
En la celda A164 Escribiremos: Desviación Típica.
En la celda B163 bien directamente o bien mediante el asistente para funciones () escribiremos la fórmula =var(b2:b151). la función se encuentra en la categoría Estadística.
En la celda B164 bien directamente o bien mediante el asistente para funciones () escribiremos la fórmula =desvest(b2:b151). la función se encuentra en la categoría Estadística.

Existen dos funciones para el cálculo de la varianza y de la desviación típica. Cuando se utiliza un conjunto de datos que debe ser considerado una población en sí mismo, con todos sus posibles valores, la funciones anteriores deben ser sustituidas por varp y desvestp respectivamente. Las funciones aquí utilizadas son adecuadas para una muestra extraida de una población; en el denominador de estas función se utilizan la expresión n-1. Cuando se dispone de una muestra y se utiliza el número total de datos n en el denominador el valor obtenido tiende a subestimar el verdadero valor poblacional de la varianza y de la desviación típica.

Terminaremos este ejercicio extendiendo los resultados obtenidos a las columnas C, D y E mediante los procedimientos ya vistos. La ventana debe quedar como en la imagen:

Ejercicio: Media versus Mediana

Terminemos este capítulo con un ejercicio para poner de manifiesto las diferentes propiedades de la media y la mediana al indicar cuales son los valores medios de un conjunto de datos. Puesto que necesitaremos utilizar pocos datos, utilicemos una hoja de cálculo nueva. Los datos son los siguientes:

Don Vito Islero ha abierto una pequeña sucursal de su negocio (no se entienda para nada tapadera) para que su hijo vaya aprendiendo. Ha contratado a tres repartidores, un capataz que los coordine y subyugue adecuadamente, un encargado que sepa escribir (no creyó necesario que el capataz sepa escribir) y se encargue de recoger los pedidos y un administrativo que mantenga las diversas cuentas que necesitará; finalmente y por supuesto el hijo es el gerente. Los sueldos asignados han sido 300€ para los que se la juegan en las motos, 450€ para el capataz que los mantiene a raya, 750€ para el encargado de que todo parezca que funciona y 900€ para el administrativo-blanqueador (no lo encontró más barato capaz de blanquear bien las cuentas). Para asegurarse la recuperación de las no-inversiones y que el chaval tenga para sus gastos, al hijo-gerente se le asigna un sueldo mensual de 6 000€.

A partir de la casilla A1 Iremos poniendo los datos en dos columnas hasta que queden como en la imagen:

En la celda C8 calcularemos la suma (botón ) de los sueldos mensuales y mediante los comandos Editar->Cortar (May+Supr) y Editar->Pegar. (May+Insert) la trasladaremos a la celda C9.
En las celdas C10 y C11 calcularemos la media y la mediana como hicimos en el ejercicio anterior.
En las celdas B9, B10 y B11 colocaremos los textos Suma, Media y Mediana. El resultado debe quedar como en la imagen:
Seleccionando todo el rango C1:C11 lo convertiremos al formato moneda () para que sea más legible. El resultado debeería quedar como en la figura:

En este exagerado ejemplo la mitad de los valores son inferiores a la mediana y la mitad superiores, por definición de mediana. En cambio solo un valor supera a la media. Las distribuciones de los datos en los que la media se situa en las proximidades de la mediana y hay una única moda que también está en las proximidades de la media y la mediana, son simétricas (pueden pasar cosas muy diversas cuando aparece la multimodalidad, varias modas). Por el contrario cuando abundan los datos menores que la media y escasean los datos superiores a la media o viceversa se habla de distribuciones asimétricas. El caso que nos ocupa se denomina asimetría positiva y es muy frecuente en muchos tipos de variables, entre otros en las variables económicas. Es poco habitual la presentación de la mediana; cuando aparece es común verla con el nombre de percentil 50. No es raro encontrar en ocasiones que el percentil 50 llega a ser casi la mitad de la media en disponibilidad de renta por ejemplo.

Graficos

Manejo de datos

Índice general

Arriba