Manejo de datos con
hoja de cálculo
Manejo de datos con
hoja de Cálculo
El manejo de datos es una de las principales utilidades de una hoja
de cálculo en el estudio estadístico. En general los
programas de estadística no suelen tener un sistema de entrada
de datos tan versatil como el que proporciona una hoja de
cálculo como Open Calc. En el caso de R y R-Commander esta
situación es actualmente bastante aguda, la entrada de datos es
muy poco eficaz.
Introducción
de datos
De forma predeterminada los datos pueden ser introducidos en
columnas
de modo que al terminar de escribir cada dato se pulsa alguna de las
teclas Enter, Return o Intro
disponibles en el teclado. El ratón y las flechas del teclado
permiten desplazarse rápidamente a través de todo el
teclado para intoducir los datos en el orden en que se desee.
Finalmente una de las más importantes ventajas es la posibilidad
de introducir resultados con la mayor rapidez. Hagamos un ejercicio de
este último uso.
Descarguemos el
conjunto de datos Iris que se
encuentra en R
y en los conjuntos de datos para
demostraciones de otros muchos paquetes estadísticos. Estos
datos fueron recogidos por Edgar Anderson en 1935 y analizados por
Fisher en 1936 corresponden a las medidas en centımetros de la longitud
y ancho del sepalo y de la longitud y ancho del petalo para 50 flores
de cada una de tres especies de lirios.
La pantalla tendrá un aspecto parecido al siguiente:

Situémonos en la celda E2:
- Pulsando
simultáneamente las teclas May-Ctrl-'Flecha Abajo',
quedará resaltada todas las celdas hasta la celda E52.
- Sin soltar la tecla May, pero soltando la tecla Ctrl,
subiremos una celda arriba para no incluir en la selección el
primer dato que pertenece a la especie
versicolor
.
- Mediante los comandos Editar->Rellenar->Abajo
completaremos el nombre de la especie para todos los primero cincuenta
datos.
Cualquier error cometido sobreescribiendo datos de forma indeseada
(como por ejemplo borrar el nombre versicolor
al rellenar
hacia abajo) puede facilmente deshacerse mediante la orden deshacer (Ctrl-Z).
Ya vimos en la clase de introducción que esto mismo es
posible
hacerlo mediante el ratón. Hágase como ejercicio la
"expansión" de valor versicolor
a los datos
desde el 51 al 100.
Por último, en el caso de los últimos cincuenta datos el
procedimiento incialmente utilizado no es factible, como es
fácil comprobar:
- Situémonos en la celda E102.
- Pulsando las teclas May-'Flecha Izquierda' pasar a la
celda D102.
- Pulsando
simultáneamente las teclas May-Ctrl-'Flecha Abajo',
quedará resaltada todas las celdas hasta la celda D151.
- Sin soltar la tecla May, pero soltando la tecla Ctrl,
nos desplazaremos una celda a la derecha para deseleccionar la columna D.
- Mediante los comandos Editar->Rellenar->Abajo
completaremos el nombre de la especie para todos los últimos
cincuenta
datos.
Exportar archivos
Una vez que tenemos completo nuestros datos, es conveniente guardarlos
en el formato nativo de Open Office que para las
versiones 2.X lleva el sufijo ods (Open Document
Spreadsheet). Este tipo de documentos se corresponde con el estandar
ISO 26300 para hojas de cálculo y que reemplaza al estandar
oficioso anterior dif (Data Interchange Format),
al igual que los documentos odt (Open Document
Text) reemplazan al formato rtf (Rich Text Format,
formato de texto enriquecido). Este estandar fue adoptado por los
desarrolladores de Open Office y dio lugar al paso de la versión
1.X a la versión 2.X; la versión anterior utilizaba los
formatos abiertos pero propietarios de Sun Microsystems (sx.).
Actualmente y pese a la naturaleza estándar del formato ods
es preciso también guardar los datos en otros formatos para que
puedan ser utilizados desde programas que aún no utilizan este
estándar. Será obligatorio en Europa en el futuro
inmediato.
Como formatos de exportación podemos destacar:
- Los formatos de las versiones anteriores de OpenOffice (sxc)
y de su predecesor StarOffice (sdc, Sun Microsystem
mantiene a través del proyecto StarOffice una estrecha
colaboración con el proyecto OpenOffice, pero mantiene derechos
de propietario sobre parte de su suite).
- Los formatos de Excel de Microsoft en diversas versiones (5.0,
95, 97/2000/XP y 2003, que se corresponden con los sufijos xls
y xlm respectivamente).
- El formato estándar para intercambio entre hojas de datos
(anticuado y limitado en la inclusión de funciones dif).
- El formato para publicación en página web html.
- Por último citaremos (aunque hay más disponibles
como veremos) el más interesante para este curso: el
formato de exportanción en texto plano. Como
denominación general es un conjunto de formatos a los que
OpenCalc asigna el sufijo el sufijo csv (Commas Separated Value, Valores
Separados por Comas) pero que también es posible encontrarlos
con el sufijo txt. A diferencia del formato dif
no permite guardar en el fichero las fórmulas, pero que a cambio
permite visualizar los datos guardados con cualquiera de los muchos
procedimientos que hay para ver documentos de texto, incluidos los
navegadores de internet. Es un formato muy adecuado para el paso de
datos de la hoja de cálculo al programa
R
de
estadística que se verá en los próximos
días.
Exportemos nuestra hoja de cálculo al formato csv:
- Mediante los comandos Archivo->Guardar como...->Abajo
iniciaremos la pantalla para exportar nuestros datos al formato csv:

- En el campo Tipo de archivo pulsaremos en la flecha
hacia abajo que hay en la parte derecha del campo. Obtendremos la lista
de los diversos tipos de archivos de hojas de cálculo en los que
podemos guardar nuestros datos:

- Mediante la barra de desplazamiento de la parte de la derecha
de
la lista de tipos de archivos iremos viendo los tipos que se encuentran
en la parte más baja de la lista fuera de la ventana. El tercero
comenzando a contar por el final de la lista es el formato
Texto
CSV
(.csv)
que buscamos.
- Marcaremos la casilla Editar configuración de
filtros para asegurarnos de que podemos editar los detalles del
formato csv.
- Al pulsar guardar nos avisará de que en cualquier
formato
que no sea el formato nativo
OpenDocument
es posible que
no se guarde toda la información contenida en la hoja de
cálculo. Contestaremos que de todos modos sí,
queremos utilizar el formato csv.
- Si marcamos la casilla Editar configuración de
filtros o si el programa no dispone de suficiente
información para la exportación se abrirá una
nueva ventana para que especifiquemos los detalle del formato. Por
defecto nos ofrece la codificación de carecteres que estamos
utilizando en el sistema, la separación mediante comas entre
valores (como su nombre indica) y los textos con dobles comillas. Este
es el formato más adecuado para la exportación de datos
en el formato de hoja de cálculo estándar original que es
el inglés. Este formato tiene el inconveniente en español
de que la coma se utiliza como separador decimal y para salvar el
problema OpenCalc convierte todos los datos en texto.
Guardémoslo de todos modos.
- Abramos el archivo en otro espacio de trabajo utilizando el
editor Diana (
Gedit
).
Veremos que efectivamente los números se han guardado entre
comillados. Cerremos el archivo.

- En
el espacio de trabajo de la hoja de cálculo repetimos el
procedimiento
de exportación anterior, ahora será muy importante marcar
la casilla
para evitar que repita el mismo formato. Como el archivo iris.csv ya existe nos
advertirá de ello y nos preguntará si deseamos
sobreescribirlo. Lógicamente sí
deseamos sobreescribirlo.
- En esta ocasión cambiaremos Separador de campos
el por el valor
{vacío}
utilizando para ello la
flecha que hay en la parte derecha del campo. Otra alternativa para que
los números siguiesen siendo números sería
utilizar un ancho de columna fijo. Queda como ejercicio personal.

- En
el segundo espacio de trabajo que estamos utilizando abriremos de nuevo
el archivo utilizando el editor Diana
(
Gedit
). Veremos que esta vez los datos están
separados por espacios en blanco y la coma es el separador de decimales.
En los próximos días se utilizaran archivos csv
del programa R-Commander
y allí se volverán
a ver los detalles de este tipo de archivos.
Además de los filtros de exportación disponibles en
el
comando Editar->Rellenar->Abajo que hemos detallado,
existe la posibilidad de exportar documentos a formatos que podemos
denominar de "solo lectura" para presentar resultados que
posteriormente no han de ser modificados. Estos formatos son el formato
pdf sobradamente conocido y el nuevo formato xhtml
(eXtensible Hypertext Markup Language)
para presentación en página web. Ambos están
disponibles en el comando Archivo->Exportar... y
además el formato pdf está directamente disponible en el
comando Archivo->Exportar en formato pdf...
Importar
archivos
Como ejercicio sobre importación de archivos podemos cerrar
el documento que anteriormente hemos exportado y volverlo a abrir.
- Cerraremos todos los documentos que tengamos abiertos mediante
el
comando Archivo->Cerrar
- Mediante el botón
o
mediante el comando Archivo->Abrir...
abriremos el archivo iris.csv
que hemos creado en el ejercicio anterior. Aparecerá la pantalla
con los detalles para la importación de ficheros de texto:

- Los valores que aparecen por defecto dependen de cuales
se
utilizaron la última vez que se importó un fichero. En el
ejemplo aparece el modo en el que deben señalarse los diferentes
campos para obtener un buen resultado a partir del archivo que
guardamos anteriormente. Los diferentes campos son bastante
autoexplicativos y no requieren mayor explicación. Si alguna
columna no es entendida de forma inmediata es posible "pinchar¨ en
ella y especificarle un tipo de datos. Si alguna columna utilizase el
punto decimal en lugar de la coma, se pincharía sobre ella y se
especificaría el idioma inglés. No es demasiado habitual
tener que hacer especificaciones sobre algunas columnas en particular.
- Con el botón Aceptar
tendremos recuperado nuestro fichero iris
de datos.
Ordenar datos
Entre las posibilidades que ofrece OpenCalc para el manejo
básico de datos está la ordenacion de los mismos. Podemos
hacer un sencillo ejercicio de ordenación de los datos que
tenemos en la hoja de calificaciones.ods:
- Nos situaremos en la celda A9. Manteniendo
pulsada
la tecla May
nos situaremos en la celda I30, bien mediante el
ratón o bien utilizando las teclas con flechas del teclado.
Quedando seleccionada la
totalidad de los datos.
- Mediante el comando Datos->Ordenar...
aparecerá la ventana con las posibles opciones para ordenar los
datos.

- Como se puede ver en la pantalla anterior seleccionaremos que
en
primer lugar se ordenen
los datos por columna I que corresponde a la nota
obtenida y en caso de empate que haga la ordenación en
función del nombre (columna B). Especificaremos que
queremos en la nota el orden Descedente para obtener en primer lugar a
los alumnos con mejores notas.
- En realidad en nuestro caso no hay verdaderos empates, porque
aunque aparecen dos valores 4'7, entre otros empates, en realidad solo
son aparentes y debidos al redondeo en la presentación. Mediante
la tecla
podemos incrementar los
decimales de los datos y veremos que en realidad uno es 4'68 y el otro
4'65. Lo mismo ocurre con los demás empates aparentes.
- Mediante el comando Datos->Ordenar...
aparecerá la ventana con las posibles opciones para ordenar los
datos.