Decisiones de diseño

perchmysteriousData Management

Dec 1, 2012 (4 years and 6 months ago)

236 views

1




Introducción

En
el anteproyecto se

especificó
una

arquitectura inicial. A la luz de un trabajo de diseño más
detallado, aquí se presenta la arquitectura definitiva, que incluye más detalle y posiblemente
algunos cambios.

Contexto del sistema

Aquí

se ubica al sistema DODC como una unidad
atómica, junto a
los principales entes
externos que interactúan con él.

Tareas de Data Mining y Algoritmos

A continuación se especifica las tareas de Data Mining involucradas en el sistema DODC, su
aplicación, los datos que emplean y el problema que resuelven. Para cada ta
rea se explica el
algoritmo seleccionado, justificando su elección.

Clasificación

(opciones: C4.5 y CART)

Clustering

(opciones: Kmeans y Kohonen)

Arquitectura del sistema

Como se mencionó anteriormente este proyecto se soporta sobre herramientas de softwa
re
libre; éstas son Weka

p
ara las tareas de Data Mining, G
vSig para la referencia geográfica y
Post
g
reSQL para el almacenamiento de los datos (Data Warehousing).

La elección de Weka se fundamenta en que se trata de una herramienta de software libre
reconoc
ida en el mercado, ubicada en lugares privilegiados de encuestas de uso de
herramientas
de Data Mining. Adem
ás se trata

de un proyecto académico, Weka es
desarrollada, probada y mantenida por la universidad de Waikato. Esto ofrece un respaldo
importante da
do que
tiene una orientación a la educación
.
i

GvSig

es una herramienta inform
ática para el menejo de información geográfica con precisión
cartográfica que se distribuye bajo licencia GNU GPL. Permite acceder a información vectorial y
raster asi como a
servidores de mapas que cumplen con las especificaciones del OGC (
Open
Geospatial Consortium)
. Esto es una característica muy importante, dado que permite la
implementación de servicios WMS (Web Map Service). En este proyecto se utiliza el servicio
que ofr
ece el
Servidor de Mapas del Servicio Geográfico Militar


Uruguay que utiliza esta
especificación.

Cuando se habla de gestores de bases de datos de software libre Post
g
reSQL es uno de los
primeros en aparecer en escena

entre los
más

importantes
ii
. En mate
ria de limitaciones y
prestaciones no se encuentra lejos de gestores
de bases de datos
pagos
,

líderes de mercado.
2




Otro punto a destacar que justifica su elección es que el equipo de proyecto cuenta con
experiencia en esta herramienta.

Decisiones de diseño

Aquí se detallan las decisiones de diseño
que son factibles de ser mejoradas
.

Normalización simple para datos diarios

La historia se cre
ó

a partir de datos de acceso público

que debían se procesados para justarse a
la necesidad de este proyecto
,

una de est
as necesidades es que

los datos históricos son diarios.
Durante el proceso de creación del data warehouse, se tuvo que normalizar datos mensuales a
diarios. En este caso se optó por hacer una normalización simple, dividiendo el valor mensual
en la cantidad

de días del mes. Entendemos que no se ajusta a la realidad, por tal motivo si se
desea llevar este piloto a modelar la realidad, este criterio de normalización debería
contemplar factores como por ejemplo los feriados, fines de semana, días previos a la s
uba de
precio de combustible entre otros.


Distancia cartesiana entre puntos geográficos

En el área de información geográfica se tomó la decisión de utilizar funciones de distancia
cartesianas, es decir las distancias que maneja este prototipo corresponden

a el largo de rectas
imaginarias que unen los puntos geográficos. Esto no refleja lo que realmente sucede porque
el camino entre dos puntos difícilmente corresponda a una línea recta.
(COMPLETAR CON
INFROME DE PLUG IN DE GVSIG PARA DISTANCIAS ENTRE PUNTOS

GEOGRAFICOS REALES)





i

Extraído de
Estado del arte


Comparaci
ón Herramientas de Software

ii

Gartner considera a PostgreSQL, MySQL e Ingres como referentes en madurez y liderazgo de mercado
para Open source DBMS.