Estadística, normalización y estructuras de datos.

El Instituto Nacional de Estadística en su ‘web’ (http://www.ine.es) pone a disposición de los ciudadanos diversa información ‘estadística’. Entre otras, ofrece la posibilidad de descargarse la información estadística de la distribución de los padrones municipales. Esta información es valiosísima para poder construir un sistema -normalizado- que permita consultar datos acerca de la distribución territorial: todos los municipios y calles del territorio nacional.

Los ficheros para descargar vienen acompañados de un documento de ‘diseño de registro’ según la ‘Orden del 11 de julio de 1997’, que explica qué hay en dichos ficheros y cómo poder utilizarlos. También existe un fichero de ‘Tipos de vía’ en el que se ‘normalizan’ los tipos de vías (nombres y abreviaturas que se dan a las calles, plazas, etc…).

En la explicación que se da sobre dicho fichero se dice:

4. Relación de tipos de vía.- Para permitir un intercambio adecuado de información es preciso que el atributo tipo de vía pueda ser entendido por todos los usuarios sea cual sea el idioma en que esté escrito, y, por lo tanto, será precisa una normalización de los mismos.
Para el INE, los tipos de vía forman una tabla a nivel nacional que trata de recoger los distintos tipos de vía de los Ayuntamientos, las abreviaturas y variantes empleadas para cada uno de ellos.
La formación y mantenimiento de la tabla de tipos de vía es responsabilidad del INE. Los Ayuntamientos solicitarán a las respectivas Delegaciones Provinciales del INE los tipos y variantes válidos, tras lo cual el INE remitirá la tabla actualizada a todos los ayuntamientos.
El formato del fichero de remisión de la tabla de tipos de vía actualizada se ajustará al siguiente diseño:

Campo Descripción Atr. Ob.
TVIAN Tipo de vía normalizado A(5)
TVIA Tipo de vía A(5)
DTVIA Descripción del tipo de vía A(25)

Observaciones:
El número de tipos de vía en un determinado idioma es muy limitado, no así sus dife-rentes abreviaturas o las grafías en diferentes idiomas.
La tabla de tipos de vía contendrá la abreviatura del tipo de vía en castellano, asigna-do por el INE (TVIAN), todas sus abreviaturas asignadas por los Ayuntamientos (TVIA), así como las diferentes descripciones en cada una de las lenguas vernáculas.
Para cada tipo de vía normalizado podrán existir un número indeterminado de TVIA y DTVIA, que deberán ser considerados como sinónimos del tipo de vía normalizado.
Por ejemplo, el INE ha normalizado los tipos de vía avenida y calle de la siguiente forma:

TVIAN TVIA DTVIA
Calle Calle Calle
Avda. Avda. Avenida

Si un Ayuntamiento solicita la inclusión del tipo de vía RUA como sinónimo de Calle, otro Avinguda (con abreviatura AV) como sinónimo de Avenida y un tercero solicita la inclusión de la abreviatura C/ como sinónimo de calle, así como la inclusión de Kalea (con igual abreviatura) para el mismo tipo de vía. El resultado final de la tabla de tipos de vía, tras la inclusión de estas modificaciones, sería la siguiente:

TVIAN TVIA DTVIA
Calle. Calle. Calle.
Calle. Rua Rúa.
Calle. C/. Calle.
Calle. Kalea. Kalea.
Avda. Avda. Avenida.
Avda. Av. Avinguda.

Los TVIA RUA, C/ y Kalea serían sinónimos de Calle/ mientras que AV lo sería de AVDA.
Únicamente los tipos de vía de esta tabla serán los permitidos en los ficheros de inter-cambio.
Es importante tener presente que definidos de esta forma los tipos de vía, dos vías serán distintas si difieren en su tipo de vía normalizado o en su denominación, por lo que se debería tener presente que sería un error considerar (según ejemplo) como distintas las vías C/ Mayor y Rúa Mayor, ya que los tipos de vía son sinónimos del tipo de vía normalizado calle.

Todo es muy bonito en la teoría, pero tras descargar el fichero e incorporarlo como tabla externa a una Base de Datos Oracle (p.ej.) tenemos que:

carlos@db01.xxxxxx> SELECT TVIA, COUNT(*) FROM EXT_TIPOVIA
  2  GROUP BY TVIA HAVING COUNT(*) > 1;

TVIA    COUNT(*)
----- ----------
DEMAR          2
RUELA          2
TRAS           2
CRRAL          2
PASEA          2

Mal rollito. Aparecen cinco tipos de vía repetidos. Pero es que, además:

carlos@db01.xxxxxx> select *
  2  FROM EXT_TIPOVIA
  3  WHERE TVIA IN ( 'DEMAR','RUELA','TRAS','CRRAL','PASEA');

TVIAN TVIA  DTVIA
----- ----- -------------------------
CJLA  RUELA RUELA
CLLJA RUELA RUELA
CRRAL CRRAL CORRAL
CRRAL CRRAL CORRALO
DEMAR DEMAR DEMARCAÇIO
DEMAR DEMAR DEMARCACION
PASEO PASEA PASEABIDE
PASEO PASEA PASEALEKU
TRAS  TRAS  TRASEIRA
TRAS  TRAS  TRASERA

10 filas seleccionadas.

carlos@db01.xxxxxx>

Como quiera que en el fichero de vías (todas las calles de todos los municipios de España) aparece el código de tipo de vía (TVIA) como atributo, yo me pregunto: ¿Si una calle tiene en ese fichero un tipo de vía -por ejemplo: ‘PASEA’- cómo sabe el I.N.E. (o cualquier mortal) si esa calle es un ‘PASEABIDE’ o un ‘PASEALEKU’? ¿O, si es una ‘RUELA’, será CLLJA (calleja) o CJLA (callejuela)?

Un diseño más o menos razonable sugeriría que TVIA fuese un identificador único (ya que sin él es imposible solucionar casos como los de arriba).

Pero es que quizá en el I.N.E. saben mucho de estadística y un poco menos de diseño de estructuras de datos.

Saludos.

Carlos.

8 Responses to Estadística, normalización y estructuras de datos.

  1. javi dice:

    Lo mas gracioso son los nuevos registros que han publicado en relación a los tipos de vía.

    Ahora varios tipos de vía son normalizados de forma diferente. Por lo que nos encontramos:

    CALLE|CL|Calle
    CALEA|CL|Calle

    Flipa!!

  2. Vanesa dice:

    Hola, me gustaría saber donde puedo consultar el listado de tipos vía normalizados.
    Muchas gracias.

  3. Harry_Tragul dice:

    Hummm… Menos mal que la web del INE es pequeñita y enseguida podemos encontrar los tipos de vía rápidamente.
    🙂

  4. Hola Carlos

    Interesante publicación, a mi me ocurre lo mismo, estoy desarrollando algunos trabajos de normalizacion de la informacion y debo de cruzarlos con el callejero electoral y me sale el tipo de via dependiendo de la zona por ejemplo si es el pais vasco la calle me sale KALEA en catalan CARRE Y en castellano. Esto nos complica aveces el trabajo deberían de mejorar.

    hay una web de INE donde se pueden descargar los listados del callejero del censo electoral de diferentes años el link de la web es:

    http://www.ine.es/prodyser/callejero/callejero.htm

  5. Salvador dice:

    Hola a todos.

    He intentado encontrar dicho fichero y un poco más y me tienen que venir a buscar dentro del web del INE. Al final y gracias a una consulta a su servicio he podido localizar dicha bbdd en

    http://www.ine.es/ss/Satellite?L=0&c=Page&cid=1254735624326&p=1254735624326&pagename=ProductosYServicios%2FPYSLayout&rendermode=previewnoinsite

    Espero que os sirva.,

  6. cmr dice:

    Hola a todos,
    aprovecho para preguntaros si alguien conoce un standard europeo para las abreviaturas del tipo de vía. Actualmente estoy en un proyecto formado por múltiples países de europa, y el princiapal problema es normalizar la direccion. ¿Alguno de vosotros conoce alguna tabla donde se recojan las abreviaturas de tipo de via para Francia, España, Alemania…?
    Mil gracias!

  7. Elena dice:

    El fichero del INE se descarga en pdf, ¿cómo lo convertís para que se pueda leer en Access por ejemplo?

Deja un comentario