miércoles, 18 de enero de 2012

Escuela de Ingeniería de Computación y Sistemas


Base de Datos Estratégicas


A continuación se mostrarán las siguientes definiciones:

  1. Inteligencia de Negocios
  2. Proceso de Negocio
  3. Modelo Multidimensional
  4. Data Warehouse
  5. Datamart

    Reinaldo A. Encalada Malca


    1. Inteligencia de Negocios
    Business Intelligence o Inteligencia de negocios es la habilidad para transformar los datos en información, y la información en conocimiento, de forma que se pueda optimizar el proceso de toma de decisiones en los negocios.
    Desde un punto de vista más pragmático, y asociándolo directamente con las tecnologías de la información, podemos definir Business Intelligence como el conjunto de metodologías, aplicaciones y tecnologías que permiten reunir, depurar y transformar datos de los sistemas transaccionales e información desestructurada (interna y externa a la compañía) en información estructurada, para su explotación directa (reporting, análisis OLTP / OLAP, alertas...) o para su análisis y conversión en conocimiento, dando así soporte a la toma de decisiones sobre el negocio.
    La inteligencia de negocio actúa como un factor estratégico para una empresa u organización, generando una potencial ventaja competitiva, que no es otra que proporcionar información privilegiada para responder a los problemas de negocio: entrada a nuevos mercados, promociones u ofertas de productos, eliminación de islas de información, control financiero, optimización de costes, planificación de la producción, análisis de perfiles de clientes, rentabilidad de un producto concreto, etc...
    Los principales productos de Business Intelligence que existen hoy en día son:
    -Cuadros de Mando Integrales (CMI)
    -Sistemas de Soporte a la Decisión (DSS)
    -Sistemas de Información Ejecutiva (EIS)
    Por otro lado, los principales componentes de orígenes de datos en el Business Intelligence que existen en la actualidad son:
    -Datamart
    -Datawarehouse
    Los sistemas y componentes del BI se diferencian de los sistemas operacionales en que están optimizados para preguntar y divulgar sobre datos. Esto significa típicamente que, en un datawarehouse, los datos están desnormalizados para apoyar consultas de alto rendimiento, mientras que en los sistemas operacionales suelen encontrarse normalizados para apoyar operaciones continuas de inserción, modificación y borrado de datos. En este sentido, los procesos ETL (extracción, transformación y carga), que nutren los sistemas BI, tienen que traducir de uno o varios sistemas operacionales normalizados e independientes a un único sistema desnormalizado, cuyos datos estén completamente integrados.
    En definitiva, una solución BI completa permite
    Observar ¿qué está ocurriendo?
    Comprender ¿por qué ocurre?
    Predecir ¿qué ocurriría?
    Colaborar ¿qué debería hacer el equipo?
    Decidir ¿qué camino se debe seguir?
    2. Proceso de Negocio
    Un proceso de negocio es un conjunto de tareas relacionadas lógicamente llevadas a cabo para lograr un resultado de negocio definido. Cada proceso de negocio tiene sus entradas, funciones y salidas. Las entradas son requisitos que deben tenerse antes de que una función pueda ser aplicada. Cuando una función es aplicada a las entradas de un método, tendremos ciertas salidas resultantes.
    Es una colección de actividades estructurales relacionadas que producen un valor para la organización, sus inversores o sus clientes. Es, por ejemplo, el proceso a través del que una organización realiza sus servicios a sus clientes.
    Un proceso de negocio puede ser parte de un proceso mayor que lo abarque o bien puede incluir otros procesos de negocio que deban ser incluidos en su función. En este contexto un proceso de negocio puede ser visto a varios niveles de granularidad. El enlace entre procesos de negocio y generación de valor lleva a algunos practicantes a ver los procesos de negocio como los flujos de trabajo que se efectúan las tareas de una organización (sic).
    Los procesos de negocio pueden ser vistos como un recetario para hacer funcionar un negocio y alcanzar las metas definidas en la estrategia de negocio de la empresa.
    A continuación se muestra una tabla con las definiciones de los expertos e investigadores más relevantes en el tema de los procesos:
    Definición
    Referencia
    “Es un set de tareas lógicamente relacionadas para alcanzar un resultado de negocio definido”
    (Davenport & Short, 1990)
    “Cualquier actividad o grupo de actividades que toman una entrada (input), le añaden valor, y proveen de un resultado (output) a un cliente interno o externo”
    (Harrington, Business Process Improvement, 1991)
    “Es un set de pasos parcialmente ordenados con la intención de alcanzar una meta”
    (Curtis, Kellner, & Over, 1992)
    “Un conjunto estructurado, medible de actividades diseñadas para producir un resultado especifico para un cliente particular o un mercado.
    (Davenport T. , 1993)
    “Una colección de actividades que toman uno o más tipos de entradas (inputs) y crean un resultado (output) que es de valor para el cliente”
    (Hammer & Champy, 1993)
    “Un conjunto de actividades vinculadas que toman una entrada (input) y lo transforma para crear un resultado (output). Idealmente, la transformación que ocurre en el proceso debería añadir valor a la entrada y crear un resultado que es más útil y efectivo al receptor,..”
    (Johansson et al., 1993)
    “Un proceso de negocio es una serie de pasos diseñados para producir un producto o servicio”
    (Rummler & Brache, 1995)
    “Un set de actividades interrelacionadas”
    (Hunt, 1996)
    “Un proceso es series sistemáticas de acciones dirigidas para alcanzar una meta”
    (Juran,1998)


    3. Modelo Multidimensional
     
    Los datos en un DW se modelan en data cubes (“cubos de datos” sería su traducción literal), estructuras multidimensionales (hipercubos, en concreto) cuyas operaciones más comunes son:
    ·         Roll up (incremento en el nivel de agregación de los datos).
    ·         Drill down (incremento en el nivel de detalle, opuesto a roll up).
    ·         Slice (reducción de la dimensionalidad de los datos mediante selección).
    ·         Dice (reducción de la dimensionalidad de los datos mediante proyeccción).
    ·         Pivotaje o rotación (reorientación de la visión multidimensional de los datos).
    Modelado multidimensional
    Modelos de datos como conjuntos de medidas descritas por dimensiones.
    • Adecuado para resumir y organizar datos (p.ej. hojas de cálculo).
    • Enfocado para trabajar sobre datos de tipo numérico.
    • Más simple: Más fácil de visualizar y entender que el modelado E/R.
    4. Datawarehouse
    Un Datawarehouse es una base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de pespectivas y con grandes velocidades de respuesta. La creación de un datawarehouse representa en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para implantar una solución completa y fiable de Business Intelligence.

    La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la información (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc). Este tipo de persistencia de la información es homogénea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales).
El término Datawarehouse fue acuñado por primera vez por Bill Inmon, y se traduce literalmente como almacén de datos. No obstante, y como cabe suponer, es mucho más que eso. Según definió el propio Bill Inmon, un datawarehouse se caracteriza por ser:
Integrado: los datos almacenados en el datawarehouse deben integrarse en una estructura consistente, por lo que las inconsistencias existentes entre los diversos sistemas operacionales deben ser eliminadas. La información suele estructurarse también en distintos niveles de detalle para adecuarse a las distintas necesidades de los usuarios.
Temático: sólo los datos necesarios para el proceso de generación del conocimiento del negocio se integran desde el entorno operacional. Los datos se organizan por temas para facilitar su acceso y entendimiento por parte de los usuarios finales. Por ejemplo, todos los datos sobre clientes pueden ser consolidados en una única tabla del datawarehouse. De esta forma, las peticiones de información sobre clientes serán más fáciles de responder dado que toda la información reside en el mismo lugar.
Histórico: el tiempo es parte implícita de la información contenida en un datawarehouse. En los sistemas operacionales, los datos siempre reflejan el estado de la actividad del negocio en el momento presente. Por el contrario, la información almacenada en el datawarehouse sirve, entre otras cosas, para realizar análisis de tendencias. Por lo tanto, el datawarehouse se carga con los distintos valores que toma una variable en el tiempo para permitir comparaciones.
No volátil: el almacén de información de un datawarehouse existe para ser leído, pero no modificado. La información es por tanto permanente, significando la actualización del datawarehouse la incorporación de los últimos valores que tomaron las distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya existía.
Otra característica del datawarehouse es que contiene metadatos, es decir, datos sobre los datos. Los metadatos permiten saber la procedencia de la información, su periodicidad de refresco, su fiabilidad, forma de cálculo... etc.
Los metadatos serán los que permiten simplificar y automatizar la obtención de la información desde los sistemas operacionales a los sistemas informacionales.
Los objetivos que deben cumplir los metadatos, según el colectivo al que va dirigido, son:
-Dar soporte al usuario final, ayudándole a acceder al datawarehouse con su propio lenguaje de negocio, indicando qué información hay y qué significado tiene. Ayudar a construir consultas, informes y análisis, mediante herramientas de Business Intelligence como DSS, EIS o CMI.
-Dar soporte a los responsables técnicos del datawarehouse en aspectos de auditoría, gestión de la información histórica, administración del datawarehouse, elaboración de programas de extracción de la información, especificación de las interfaces para la realimentación a los sistemas operacionales de los resultados obtenidos... etc.
Por último, destacar que para comprender íntegramente el concepto de datawarehouse, es importante entender cual es el proceso de construcción del mismo, denominado ETL (Extracción, Transformación y Carga), a partir de los sistemas operaciones de una compañía:
-Extracción: obtención de información de las distintas fuentes tanto internas como externas.
-Transformación: filtrado, limpieza, depuración, homogeneización y agrupación de la información.
-Carga: organización y actualización de los datos y los metadatos en la base de datos.
Una de las claves del éxito en la construcción de un datawarehouse es el desarrollo de forma gradual, seleccionando a un departamento usuario como piloto y expandiendo progresivamente el almacén de datos a los demás usuarios. Por ello es importante elegir este usuario inicial o piloto, siendo importante que sea un departamento con pocos usuarios, en el que la necesidad de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a corto plazo.
Principales aportaciones de un datawarehouse
  • Proporciona una herramienta para la toma de decisiones en cualquier área funcional, basándose en información integrada y global del negocio.
  • Facilita la aplicación de técnicas estadísticas de análisis y modelización para encontrar relaciones ocultas entre los datos del almacén; obteniendo un valor añadido para el negocio de dicha información.
  • Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios.
  • Simplifica dentro de la empresa la implantación de sistemas de gestión integral de la relación con el cliente.
  • Supone una optimización tecnológica y económica en entornos de Centro de Información, estadística o de generación de informes con retornos de la inversión espectaculares.

5. Datamart

Un Datamart es una base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica. Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Un datamart puede ser alimentado desde los datos de un datawarehouse, o integrar por si mismo un compendio de distintas fuentes de información.
Por tanto, para crear el datamart de un área funcional de la empresa es preciso encontrar la estructura óptima para el análisis de su información, estructura que puede estar montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una base de datos OLAP. La designación de una u otra dependerá de los datos, los requisitos y las características específicas de cada departamento. De esta forma se pueden plantear dos tipos de datamarts:
Datamart OLAP


Se basan en los populares cubos OLAP, que se construyen agregando, según los requisitos de cada área o departamento, las dimensiones y los indicadores necesarios de cada cubo relacional. El modo de creación, explotación y mantenimiento de los cubos OLAP es muy heterogéneo, en función de la herramienta final que se utilice.

Datamart OLTP


Pueden basarse en un simple extracto del datawarehouse, no obstante, lo común es introducir mejoras en su rendimiento (las agregaciones y los filtrados suelen ser las operaciones más usuales) aprovechando las características particulares de cada área de la empresa. Las estructuras más comunes en este sentido son las tablas report, que vienen a ser fact-tables reducidas (que agregan las dimensiones oportunas), y las vistas materializadas, que se construyen con la misma estructura que las anteriores, pero con el objetivo de explotar la reescritura de queries (aunque sólo es posibles en algunos SGBD avanzados, como Oracle).

Los datamarts que están dotados con estas estructuras óptimas de análisis presentan las siguientes ventajas:
-Poco volumen de datos
-Mayor rapidez de consulta
-Consultas SQL y/o MDX sencillas
-Validación directa de la información
-Facilidad para la historización de los datos