La presentación de datos estadísticos se apoya en dos formatos fundamentales:
Tanto las tablas como las gráficas se utilizan para representar dos formas de resumir la información contenida en los datos Estadísticos: Frecuencias y Estadísticos.
Open Office presenta una gran capacidad para adaptar el aspecto a
las
necesidades y al gusto estético de cada usuario. No entraremos
en esta cuestión en este tutorial. Dentro del comando Formato->Celdas...
se pueden encontrar las diferentes solapas que permiten conseguir el
aspecto deseado para una tabla. Son bastante autoexplicativas y no
requieren más que algún tiempo de ensayo y uso para
llegar a dominarlas. Además existen otros tutoriales en Internet
que abordan esta cuestión.
Las frecuencias son el recuento de las veces que aparece en determinado valor de una variable estadística en un conjunto de datos. Pueden ser frecuencias relativas o frecuencias absolutas. Las primeras son el recuento directo del número de repeticiones y el segundo es el resultado de dividir la frecuencia absoluta por el número total de datos. Además no es extraño que la frecuencia relativa aparezca presentada en forma de porcentaje.
En OpenCalc se pueden utilizar dos formas de calcular frecuencias. La primera es adecuada para cualquier tipo de variables y en realidad es un ejercicio que ya se hizo en el primer tutorial. La segunda es específica para variables cuantitativas y es bastante más potente que la primera.
Utilicemos el archivo analisis_de_datos incluido con la suite parcialmente libre StarOffice 6.0 y de la que procede el actual proyecto OpenOffice. Es un archivo elaborado por Peter Thielmann y modificado por Tom Verbeek. Contiene 392 datos (¿ficticios?) sobre ventas de productos teléfonicos a 12 clientes ubicados en diferentes ciudades a lo largo de 26 años.
para introducir una fórmula.CONTAR.SI dentro de la
categoría Matemáticas."=Alicante". Podemos
probarlo. Pero esto nos obligaría a utilizar un función
nueva con nombre de ciudad. De modo que dejaremos la expresión
"=" y la reuniremos con el texto de la casilla b395. El
operador para unir textos es &.
Viene a ser con los textos un
operador análogo al operador +
con los números. La pantalla del asistente para funciones debe
quedar así:
) nos quedará en la forma
deseada.Para las variables cuantitativas se dispone de otra función
algo más versatil que la utilizada para las variables
cualitativas. El cálculo de frecuencias en variables
cuantitativas incluye conceptos algo más sutiles que en el caso
de las variables cualitativas. Especialmente en el caso de variables
que además de ser cualitativas son contínuas es un
cálculo ligado a la idea de intervalo. En las variables
continuas, la frecuencia de un valor de una
variable continua puede no ser representativa de su abundancia en la
población de la que procede nuestra muestra, especialmente si el
número de valores posible de la variable es muy elevado frente
al número de datos disponibles. En estos casos los valores se
agrupan en conjuntos conexos de valores denominados intervalos.
Volvamos a utilizar los datos de Fisher que utilizamos en el
ejercicio
de introducción de datos para ejercitar la construcción
de intervalos para el cálculo de frecuencias en variables
continuas. Los datos completos se encuentran en el archivo iris2.odt.
MÍN
en la categoría Estadística. Obtendremos el
valor mínimo de las longitudes de los sépalos medidos a
los iris.MÁX en la categoría Estadística.
Obtendremos el valor máximo de las longitudes de los
sépalos medidos a los iris.
y elegimos la función FRECUENCIA dentro de la
categoría Matriz. Esta categoría incluye a
las funciones paras las que el resultado no es un único valor,
sino un conjunto de valores, como son por ejemplo: la matriz inversa de
una matriz, la matriz producto de dos matrices, la matriz transpuesta
de una matriz, los parámetros de una regresión lineal, o
en nuestro caso el conjunto de frecuencias asociadas a un conjunto de
intervalos.

) y comprobamos que efectivamente se han
contabilizado todos los datos. Trasladamos esta suma a la celda B168
con las teclas May+Supr y May+Inst como
ya hemos hecho anteriormente.La segunda forma mediante la que podemos resumir la
información contenida en un conjunto de datos es mediante la
utilización de Estadísticos. Dependiendo del tipo de
información que se refleja en el estadístico utilizado
disponemos de tres tipos de Estadísticos. Se volverán a
ver utilizando para ello el R-Commander.
Utilizaremos de nuevo los datos de Fisher que se encuentran en el
archivo iris2.odt.
A
mayúscula).
)
escribiremos la fórmula =promedio(b2:b151). la
función se encuentra en la categoría Estadística.
)
escribiremos la fórmula =mediana(b2:b151). la
función se encuentra en la categoría Estadística.
)
escribiremos la fórmula =moda(b2:b151). la
función se encuentra en la categoría Estadística.
(La moda en las variables continuas como las que nos ocupan no
debería ser calculada directamente como estamos haciendo, sino
que previamente se deberían construir intervalos para garantizar
su representatividad).
) escribiremos la fórmula =cuartil(b2:b151;$h156:$h160).
La ventana del asistente debe quedar como en la siguiente imagen. Una
vez más se debe marcar la casilla matriz
de la esquina inferior izquierda de la ventana.
) escribiremos la fórmula =percentil(b2:b151;$h161:$h162).
Una
vez más se debe marcar la casilla matriz
de la esquina inferior izquierda la ventana.
)
escribiremos la fórmula =var(b2:b151). la
función se encuentra en la categoría Estadística.
)
escribiremos la fórmula =desvest(b2:b151). la
función se encuentra en la categoría Estadística.Existen dos funciones para el cálculo de la varianza y de
la desviación típica. Cuando se utiliza un conjunto de
datos que debe ser considerado una población en sí mismo,
con todos sus posibles valores, la funciones anteriores deben ser
sustituidas por varp y desvestp
respectivamente. Las funciones
aquí utilizadas son adecuadas para una muestra extraida de una
población; en el denominador de estas función se utilizan
la expresión n-1. Cuando se dispone de una muestra
y se utiliza
el número total de datos n en el denominador el
valor obtenido
tiende a subestimar el verdadero valor poblacional de la varianza y de
la desviación típica.

Terminemos este capítulo con un ejercicio para poner de
manifiesto las diferentes propiedades de la media y la mediana al
indicar cuales son los valores medios de un conjunto de datos. Puesto
que necesitaremos utilizar pocos datos, utilicemos una hoja de
cálculo nueva. Los datos son los siguientes:
Don Vito Islero ha abierto una pequeña sucursal de su negocio (no se entienda para nada tapadera) para que su hijo vaya aprendiendo. Ha contratado a tres repartidores, un capataz que los coordine y subyugue adecuadamente, un encargado que sepa escribir (no creyó necesario que el capataz sepa escribir) y se encargue de recoger los pedidos y un administrativo que mantenga las diversas cuentas que necesitará; finalmente y por supuesto el hijo es el gerente. Los sueldos asignados han sido 300€ para los que se la juegan en las motos, 450€ para el capataz que los mantiene a raya, 750€ para el encargado de que todo parezca que funciona y 900€ para el administrativo-blanqueador (no lo encontró más barato capaz de blanquear bien las cuentas). Para asegurarse la recuperación de las no-inversiones y que el chaval tenga para sus gastos, al hijo-gerente se le asigna un sueldo mensual de 6 000€.

)
de los sueldos mensuales y mediante los comandos Editar->Cortar
(May+Supr) y Editar->Pegar. (May+Insert)
la trasladaremos a la celda C9.
) para que sea más legible. El
resultado debeería quedar como en la figura:
En este exagerado ejemplo la mitad de los valores son
inferiores a la mediana y la mitad superiores, por definición de
mediana. En cambio solo un valor supera a la media. Las distribuciones
de los datos en los que la media se situa en las proximidades de la
mediana y hay una única moda que también está en
las proximidades de la media y la mediana, son simétricas
(pueden
pasar cosas muy diversas cuando aparece la multimodalidad,
varias modas). Por el contrario cuando abundan los datos menores que la
media y escasean los datos superiores a la media o viceversa se habla
de distribuciones asimétricas. El caso que nos ocupa se denomina
asimetría positiva y es muy frecuente en muchos tipos de
variables, entre otros en las variables económicas. Es poco
habitual la presentación de la mediana; cuando aparece es
común verla con el nombre de percentil 50. No es
raro encontrar en ocasiones que el percentil 50 llega a ser casi la
mitad de la media en disponibilidad de renta por ejemplo.