Departamento de Gobernanza, Administración Digital y Autogobierno

PLATEA Web

Detalles

El contenido de este estándar se estructura según el siguiente Índice cuyos apartados se describen posteriormente:

Introducción

Premisas de [PLATEA Web]

  • Premisa 1: Separación entre Contenidos Web y Portales
  • Premisa 2: Modelo común de contenido web
  • Premisa 3: Catalogación en Etiquetas
  • Premisa 4: Generación en Estático
  • Premisa 5: Infraestructura no intrusiva

Componentes

  • Gestor de Contenidos Web
  • Gestor de Portales
  • Publicador
  • Gestor de Ejes de Catalogación
  • Gestor de Alias Web
  • Entrega de información en la web
  • Indexador / Buscador
  • Sindicación de Contenidos / API

 

Introducción

El Decreto 108/2004, de 8 de junio, del modelo de presencia web de la Administración Pública de la Comunidad Autónoma de Euskadi en Internet, define un modelo descentralizado de gestión cuyo ámbito de aplicación abarca los órganos de la Administración General de la Comunidad Autónoma de Euskadi, sus Organismos Autónomos y el Ente Público de Derecho Privado Osakidetza/Servicio Vasco de Salud, así como aquellos entes e instituciones públicas con los que se alcancen acuerdos de colaboración y coordinación en esta materia.

El modelo de presencia web se apoya en una infraestructura tecnológica común –PLATEA Web- que cubre las siguientes áreas:

Gestión de contenidos web Gestión del ciclo de vida de los contenidos web
Gestión de portales web Gestión del ciclo de vida de las páginas web que dan acceso a los contenidos web
Publicador Copia en la zona pública los activos (ficheros) generados por el [Gestor de Contenidos] y el [Gestor de Portales] en la zona interna protegida
Gestión de taxonomías (ejes) de catalogación Administración de taxonomías normalizadas en las que se catalogan contenidos web para facilitar su localización
Gestión de alias web Administración de URLs amigables a contenidos web
Entrega de información en la web Presentación y organización del acceso a la información desde la web
Buscador / Indexador Localización de contenidos web en base a criterios de negocio o a texto libre
Sindicación de Contenidos / API Importación de contenido web desde fuentes externas Utilización de la funcionalidad de todos los módulos de PLATEA Web desde aplicaciones terceras

Estas herramientas horizontales serán de obligada utilización para aquellas iniciativas en las que concurran las siguientes circunstancias:

  • Estén impulsadas por Departamentos u Organismos Autónomos en los que es de aplicación el Decreto 108/2004, que regula el Modelo de Presencia en Internet
  • Sean iniciativas de portal, tramitación o difusión de información publicadas en la red de portales «euskadi.eus»
  • Sean iniciativas de portal intranet «jakina.ejgv.jaso»

Premisas de [PLATEA Web]

Toda la arquitectura de las Herramientas de Soporte al Modelo de Presencia en Internet del Gobierno Vasco (PLATEA-Web), se basa en las siguientes premisas arquitectónicas / tecnológicas:

Premisa 1: Separación entre Contenidos Web y Portales

  • Contenido web Información estructurada o desestructurada que se publica en la web para su acceso.
  • Portal web Conjunto de páginas que en base a elementos de navegación (menús, destacados, listados, etc) organizan el acceso a los contenidos web.  

Hay una separación completa entre contenidos y portales:

  • Desde el punto de vista organizativo Las personas que gestionan portales y las que gestionan contenidos son diferentes, con diferentes roles y diferentes funciones.
    • Las personas que gestionan contenidos web centran su actividad en producir información destinada a ser publicada en la web, pero sin ser conscientes de desde dónde va a ser consumida: no saben en qué portal o página va a aparecer la información. Así su misión es la de elaborar la «material base» de la que se nutre la web
    • Las personas que gestionan portales centran su actividad en referenciar en páginas de portal los contenidos web que descentralizadamente se han ido creando en toda la organización. Así su misión es componer las páginas de portal organizando de la manera más adecuada el acceso a los contenidos.
  • Desde el punto de vista tecnológico Las herramientas de gestión de contenidos web y de gestión de portales están completamente separadas.
    • La herramienta de gestión de contenidos permite -de forma sencilla y sin necesidad de conocimientos técnicos- crear, editar y publicar información estructurada o no de diversa tipología.
    • La herramienta de gestión de portales permite configurar páginas de portal: su apariencia y los contenidos / búsquedas a las que dan acceso.

    Premisa 2: Modelo común de contenido web

    Todos los contenidos gestionados en [PLATEA-Web] se ajustan a modelo de contenido común que encapsula:

    La estructura lógica de la información Un [contenido] es una unidad lógica que agrupa varias [versiones idiomáticas]
    Los metaDatos (datos) mínimos / comunes de un contenido
    • A nivel de [contenido] hay meta-datos que aplican a cualquier [versión idiomática] como la catalogación, la tipología de contenido o la fecha de publicación
    • A nivel de [versión idiomática] hay meta-datos que aplican únicamente a esa [versión idiomática] como el nombre o la descripción

    Premisa 3: Catalogación en Etiquetas

    Todos los contenidos web y páginas de portal se catalogan utilizando unas etiquetas de catalogación que se mantienen en una aplicación centralizada: ejes de catalogación.

    Una etiqueta no es más que un identificador sin significado (oid) que por detrás esconde una serie de términos en diferentes idiomas:

    La aplicación de ejes (taxonomías) de catalogación, facilita las herramientas para la selección de etiquetas de catalogación y su mantenimiento.

    Para facilitar la selección de etiquetas, estas se organizan en ejes/taxonomías que no son mas que estructuras padre-hijo de etiquetas que permiten al usuario acceder de una forma más cómoda a las etiquetas.

    Premisa 4: Generación en Estático

    Con los objetivos de obtener una mayor fiabilidad, rapidez y minimizar la complejidad técnica en entrega, tanto los contenidos como las páginas de portal se generan en HTML estático que es servido únicamente por un servidor web (apache).

    La intervención de los servidores de aplicaciones se limita a las partes dinámicas de los portales: ejecución de búsquedas y ejecución de aplicaciones.

    A grandes rasgos, el funcionamiento del sistema se resume en que en la zona de trabajo intranet/extranet, las herramientas de gestión de contenidos web / portales generan HTML y adjuntos que son desplegados (publicados) a la zona de entrega Internet donde son servidos por los servidores web.

    Premisa 5: Infraestructura no intrusiva

    La infraestructura no ha de condicionar las tecnologías en las que se desarrollan aplicaciones web para el Gobierno Vasco y sus Organismos Autónomos.

    Componentes

    Gestor de Contenidos Web

    El [Gestor de Contenidos Web] es una herramienta que tiene como objetivos:

    • Ser un repositorio de toda la información publicada en la web (intranet / internet)
    • Gestionar el ciclo de vida de los contenidos web: creación, edición y publicación / despublicación
    • Asegurar un nivel mínimo de calidad en la información publicada en la web en base a:
      • Normalizar un modelo lógico de la información
      • Normalizar una serie de meta-datos mínimos para todos los contenidos
      • Proporcionar tipos de contenido estructurados que reflejen los diferentes negocios de la Administración (servicios, RRHH, normativa, prensa y comunicación, etc)
      • Intentar optimizar la accesibilidad y usabilidad de la información publicada
    • Proporcionar herramientas de usuario/a final para crear, editar y publicar contenidos web sin necesidad de tener ningún conocimiento técnico

    En el [Gestor de Contenidos Web] existen:

    • Decenas de [interfaces de usuario/a final] (UI) para editar [tipos de contenido] desde el punto de vista más cercano al negocio –y no de los contenidos web-
    • Interfaces de usuario/a final para componentes comunes como la gestión de ficheros, configuración de alias web, catalogación en etiquetas, catalogación geográfica, etc.

    El [Gestor de Contenidos Web] es utilizado de forma totalmente distribuida a lo largo de toda la organización que en su trabajo diario aporta contenidos a la web para que sean reutilizados por cualquier [iniciativa web]

    Gestor de Portales

    El [Gestor de Portales] es una herramienta utilizada por las [iniciativas web] con unos objetivos similares al [Gestor de Contenidos Web]:

    • Ser un repositorio de todas las páginas que estructuran el acceso a los [contenidos web] (hay que recordar la premisa arquitectónica de [PLATEA-Web] por la que [contenidos] y [páginas de portal] se gestionan y tienen ciclos de vida completamente diferentes)
    • Gestionar el ciclo de vida de los de las páginas web: creación, edición y publicación / despublicación
    • Asegurar un nivel mínimo de calidad en la información publicada en la web en base a:
      • Normalizar un modelo lógico de la información
      • Normalizar una serie de meta-datos mínimos para todas las páginas
      • Proporcionar componentes comunes (widgets o áreas visuales) como menús, listados de contenidos, destacados, etc que faciliten:
        • La gestión de la información por parte de los usuarios/as finales sin necesidad de tener conocimientos técnicos
        • Asegurar la imagen corporativa de la iniciativa
        • optimizar la accesibilidad y usabilidad de la información publicada

    A diferencia del [Gestor de Contenidos Web] que es utilizado diariamente por cientos de personas de la organización, el uso de [Gestor de Portales] suele estar limitado a los [Gestores Web] departamentales y empresas externas especialistas en diseño web, especial e intensamente durante la creación de las iniciativas; una vez que la iniciativa se pone en marcha, el uso del [Gestor de Portales] es mucho más esporádico puesto que se limita a pequeñas actualizaciones de opciones de menús o destacados.

    La web se mantiene y actualiza «automáticamente» sin necesidad de utilizar el [Gestor de Portales] puesto que se nutre de los [contenidos web] generados diariamente a lo largo de toda la organización

    Publicador

    El publicador es una herramienta que simplemente copia activos (ficheros) generados en la zona de trabajo interna por el [Gestor de Contenidos] y el [Gestor de Portales] en la zona pública a la que acceden los usuarios/as de la web.

    Gestor de Ejes de Catalogación

    Las [etiquetas] son una de las piezas más importantes de [PLATEA Web] puesto que proporcionan una base de tipificación normalizada y común de activos para toda la organización que:

    • Facilita la reutilización de información en distintas [iniciativas web] puesto que permiten automatizar la actualización de los contenidos
    • Facilita las búsquedas puesto que estas se basan en identificadores únicos y no en texto libre

    En el [Gestor de Ejes de Catalogación] se mantienen [etiquetas] que se asocian a los contenidos web y páginas de portal con el objetivo de facilitar su búsqueda.

    Las [etiquetas] asociadas a un ámbito de conocimiento / negocio de la Administración se agrupan en [bolsas]

    Para facilitar al usuario/a la selección de [etiquetas] en el momento de catalogar éstas se estructuran en [ejes] de catalogación que no son más que [taxonomías] o estructuras jerárquicas (padre-hijo) de [etiquetas]

    Gestor de Alias Web

    Para describir las URLs generadas en [PLATEA-Web] hay que tener en cuenta varias circunstancias:

    • [PLATEA-Web] está basado en la entrega de ficheros pre-generados (HTML) de forma que los recursos publicados tienen una URL con una estructura homogénea que de alguna manera refleja la estructura física de carpetas y ficheros.
    • [Páginas de portal] y [contenidos web] son recursos independientes técnica y organizativamente
    • El componente de visualización de la web es capaz de mostrar el mismo contenido web/aplicación en cualquier portal

    Cualquier URL generada por [PLATEA-Web] tienen la siguiente estructura general:

    Sitio web Portal -Página Idioma Recurso

    Algunos ejemplos son:

    Servicio URL
    Contenido
    Aplicación JAVA
    Aplicación ASP

    Las URLs anteriores son URLs físicas (canónicas) y tienen varios inconvenientes:

    • Exponen la estructura física interna
    • NO son «amigables» a los usuarios/as finales
    • NO reflejan datos sobre la información subyacente  

    Para solventar estos problemas, [PLATEA-Web] permite asociar URLs amigables (friendly URLs o cool-URIs) a URLs físicas. Ej: https://www.euskadi.eus/mipago     

    La gestión de esta asociación URL-física <-> URL amigable se hace en el [Gestor de Alias Web]

    Las URLs anteriores tienen el inconveniente de que en ocasiones son muy largas lo que penaliza su uso en medios con baja capacidad de texto como SMSs. Para solventar esta situación, está planificado incorporar también un acortador de URLs (URL shortener) de uso general al [Gestor de Alias Web] de forma que se pueda asociar a cualquier recurso una url corta como: http://short.eus/a42ks2

    Entrega de información en la web

    Tanto el [Gestor de Contenidos Web] como el [Gestor de Portales] generan ficheros HTML que son publicados (copiados utilizando el [Publicador])

    Para presentar la información al usuaria/o final que navega por la web basta con simples servidores web lo que garantiza:

    Velocidad de entrega NO hay que hacer ningún proceso para generar el HTML)
    Fiabilidad En la entrega solo interviene el servidor web; NO participan servidores de aplicaciones, bases de datos, servidores de integración, etc
    Disponibilidad Es muy fácil tener una infraestructura de entrega altamente disponible puesto que basta con añadir más servidores web (algo realmente sencillo)
    Contingencia Restaurar el servicio es realmente sencillo si se dispone de los ficheros HTML pre-generados; basta montar un servidor web
    Seguridad

    Se sirve HTML pre-generado sin sesión y sin intervención de ninguna rutina en la que se pueda utilizar SQL-Injection, session hijacking, parameter tampering, o cualquier otra técnica

    El único riesgo es la toma de control del propio servidor web

    Si bien la mayor parte de la web generada por [PLATEA-Web] se basa en HTML pre-generado, hay dos partes que son dinámicas:

    Búsquedas Requieren el uso de un servidor de aplicaciones para ejecutar las queries contra el [Buscador] (autonomy) y presentarlas
    Aplicaciones de negocio Son dinámicas por naturaleza y requieren el uso de servidores de aplicaciones, bases de datos, etc

    Para integrar en una página de portal este tipo de recursos dinámicos el [Gestor de Portales] de [PLATEA-Web] dispone del [Área Visual Container]:

    El [Área Visual Container] puede integrar cualquier tipo de aplicación sin que esta tenga que adaptarse para ser integrada en el portal, es decir, la aplicación puede desarrollarse / adquirirse sin tener en cuenta que va a ser integrada en un portal; posteriormente la [visualización de páginas] de [PLATEA-Web] la integrará en la página seleccionada

    Indexador / Buscador

    La indexación consiste en:

    Recopilar información sobre un objeto origen a indexar La información en origen puede estar en una base de datos relacional, en ficheros del gestor de contenidos o en cualquier otro soporte
    Adaptar la información para poder indexarla en el buscador

    La adaptación de la información suele consistir en:

    1. Estructurar la información en documentos y campos: Los buscadores habitualmente NO estructuran la información en un formato relacional sino que indexan documentos que contienen campos (meta-datos) con la información. Dado que lo más habitual es que en origen la información tenga una estructura lógica de objetos relacionados (habitualmente almacenados en una BBDD relacional), es necesario hacer una transformación de este modelo lógico relacional a un formato lógico basado en documento/campos
    2. Transformar el modelo lógico documento/campos a un formato físico aceptable por el módulo de indexación del buscador, habitualmente un formato XML o JSON En el caso de Autonomy, el buscador utilizado en PLATEA-Web, este formato físico del modelo lógico documento/campos es un fichero IDX
    Hacer llegar la información de entrada al módulo de indexación del motor de búsqueda

    Una vez se tiene el formato físico del modelo lógico documento/campos aceptado por el buscador, éste dispone de varios métodos para “ingerir” documentos a indexar:

    • Un interfaz REST vía HTTP
    • Un rastreador de ficheros (crawler)

    En PLATEA-Web Autonomy es alimentado utilizando este segundo método: los ficheros IDX con la información de meta-datos (fields) se publica en el web junto con el contenido; un módulo de crawling de autonomy (FileSystemFetch) recorre todos los contenidos publicados e indexa los ficheros idx

    Indexar

    En líneas generales hay dos casos:

    • Información desestructurada (texto libre), el indexador extrae tokens (la raíz de las palabras) del texto y las indexa asociadas al documento al cual pertenecen.
    • Información estructurada (claves) el indexador simplemente indexa la clave tal cual asociada al documento origen.

    El buscador utiliza los documentos previamente indexados para que se puedan hacer dos tipos de búsqueda:  

    Texto Libre El motor de búsqueda localiza en el índice aquellos documentos que contienen el texto buscado con un cierto grado de aproximación
    En base a datos de negocio Es más similar a la búsqueda en una base de datos relacional donde se establece una combinación de criterios de filtro sobre metadatos (por ejemplo, que el valor de un meta dato sea igual a un valor dado)

    Sindicación de Contenidos / API

    Tanto el [Gestor de Contenidos] como el [Gestor de Portales] como el [Gestor de Etiquetas de Catalogación] ofrecen interfaces de usuario/a final (UI) para gestionar el ciclo de vida de contenidos web o páginas de portal.

    Sin embargo, existen situaciones donde utilizar directamente la interfaz de usuario/a final NO es la mejor opción o no es una opción viable como por ejemplo:

    Existe ya una aplicación departamental que gestiona el negocio concreto y los contenidos web son una parte más o una derivada del trabajo

    Ej:Una aplicación de gestión de un registro público que desea publicar una ficha para cada inscripción en el registro

    Con toda probabilidad, este tipo de aplicaciones gestionan más información de la que se publica en la web y además modelan lógica de negocio que no tiene que ver con la publicación web (ej: gestión de expedientes)
    Los datos a publicar en la web existen en un repositorio interno (ej: Base de Datos o sistema de ficheros) Se quiere publicar una ficha para cada uno de estos datos pero NO crear una aplicación para capturar la información puesto que es un información relativamente estática (los datos no cambian)
    Interfaz de usuario/a ad-hoc para la gestión de contenidos web En determinados negocios que tienen un ciclo de vida propio en la gestión de contenidos web es posible que se necesite una herramienta de interfaz de usuario/a propia y adaptada a las peculiaridades de este ciclo de vida

    Para dar respuesta a cualquiera de las situaciones anteriores, [PLATEA-Web] ofrece dos mecanismos:

    Sindicación de Contenidos Existe un formato de fichero estándar de intercambio de información con [PLATEA-Web]: un fichero ZIP con los activos a importar y ficheros XML con los (meta)datos.
    API Las aplicaciones pueden utilizar un API Java (R01M) para invocar cualquiera de las funcionalidades de bajo nivel de los núcleos de negocio de [PLATEA-Web] (de hecho, las propias interfaces de usuario/a de PLATEA-Web están construidas en base a este API)
    • Versión 1: 03-07-2017 (última versión)