¿Cómo se hizo la Guía útil de recursos en Internet sobre género y desarrollo?.

Descripción General

La elaboración de la guía de género ha sido un proceso que ha combinado la revisión manual de la información recolectada en Internet, con la programación y uso de herramientas informáticas para la clasificación temática, rankeado y asignación geográfica automatizadas. Ha requerido programación adicional para facilitar procesos manuales, como editar las características de las páginas (por ejemplo marcar como inaccesible), a la vez que se visualizan, y para la gestión de esta información en una base de datos que ha superado los 50 Gigabytes.

Muchos de sus procesos, aunque a continuación se exponen linealmente, en realidad han sido iterativos. Con frecuencia tras una implementación inicial, y al cabo de varios pasos, se ha obtenido una implementación final más correcta, y se ha reiterado (comenzando desde su inicio) el proceso, con lo que nos hemos asegurado un refinamiento del comportamiento de cada paso, evitando arrastrar errores hacia las siguientes fases.

A continuación ofrecemos una descripción más detallada del proceso seguido, desglosando sus sucesivas fases.

Descripción Detallada

Identificación de temas.-

Se identificaron los 13 temas de interés. De la Declaración de Beijing (1995) identifica 12 temas de especial preocupación. Nosotros hemos añadido el tema Metodología de Género.

Búsquedas temáticas.-

Se especifican para cada tema, una serie de expresiones (de 15 a 30) de búsqueda que intenten cubrir el tema.

Se buscan estas expresiones en Google.

Se descargan localmente las 500 primeras proporcionadas por Google para cada búsqueda. (En realidad Google sólo suministra los 600 o 700 primeros enlaces de los resultados, aunque anuncie 100.000. ¡Puede comprobarlo!). Las que descargan bien son unas 5.000 a 10.000 para cada tema. Las que no son Html se descargan en su versión .Html.

Identificación de Palabras y Expresiones. Castellanidad.-

Se traducen a formato texto todas estas páginas, para aislar su contenido en palabras. Se genera una lista ordenada de palabras en cada una de las páginas, que posteriormente incorporaremos a una base de datos.

Se incorporan las listas de palabras a una base de datos. Esta base de datos no puede ser Access, y debe ser de SQL Server. La razón es que ya con esto ocupará muchos gigabytes, y Access está limitado a 2 gigabytes (por lo mismo no se puede usar un ‘Personal SQL Server’). Finalmente, esta base de datos ocupará más de 50 gigabytes, lo que conviene prever.

Se confecciona un diccionario ‘expandido’ en español (que contenga casi todas las palabras, unas 50.000, y casi todas sus derivaciones, unas 800.000).

Se filtra el contenido de las páginas por el diccionario, para quedarnos con el ‘contenido correcto’ en español. En principio, si el texto de una página tenía muchas palabras, la gran mayoría serán en español. Si sólo el 50% lo son, se puede tratar de una página en portugués, o una página con muchas incorrecciones ortográficas y/o términos técnicos en inglés. Porcentajes menores sugieren páginas en francés o italiano, y eventualmente, en inglés con parte de su contenido en español. A esta proporción entre las palabras en castellano correctas y el total de palabras de cada página le llamamos Índice de Castellanidad.

Se genera en la base de datos una tabla de ‘Expresiones habituales’, que recoge aquellas combinaciones de hasta 5 palabras que se repiten en las páginas con cierta frecuencia. Algunas de estas expresiones ya habían sido objeto de búsqueda (como ‘Pobreza de género), otras son banales (como ‘En primer lugar’), pero otras sugieren la necesidad de usarlas para hacer nuevas búsquedas, e incorporar sus resultados a la base de datos. Por ello en realidad, tras este paso se añadieron nuevas expresiones de búsqueda, y se volvió a iniciar el proceso desde el principio.

Clasificación temática de las páginas.-

Podría parecer lógico que, si hemos hecho varias búsquedas para cada tema, los resultados devueltos por Google, al buscar por ejemplo por ‘Pobreza de Género’, puedan ser clasificados directamente en el tema para el que se ideó esta búsqueda (‘Feminización de la pobreza’).

Por desgracia, la mayoría de los resultados, para la mayoría de las expresiones de búsqueda usadas, corresponden más bien a otros temas, que al tema para el que se ideó la expresión de búsqueda. Ello es una experiencia habitual al usar los buscadores.

Algunas expresiones muy determinantes de un tema, como ‘Metodología de género en proyectos de desarrollo’, parecen apuntar unívocamente a un tema (‘Metodología de género’). Pero tales proyectos de desarrollo se centrarán en algún tema concreto, como la lucha contra la pobreza, y al incluir el enfoque de género incurrirán en otro tema, ‘Feminización de la pobreza’. La página podría tocar ‘a medias’ ambos temas (Metodología y Pobreza). Pero si  toca algún otro tema, aunque sea marginalmente, el tema por el que se buscó quedaría como minoritario en la página.

Clasificar una página en el tema por el que se buscó sería en muchos casos imprudente, pero no clasificarla en los otros temas que trata sería indolente. Por ello, se exige una clasificación temática individualizada de cada página, para adscribirla al tema o (generalmente) a los temas que trate.

Aproximación a las dificultades de clasificación temática.-

Las dificultades de clasificación unívoca de cada página en un tema son de dos tipos:

-Los temas no son ‘disjuntos’ entre sí, sino que tienen ‘elementos comunes’.

-Algunas páginas tratan varios temas, aunque ambos fueran disjuntos. Si es frecuente que una página que trate un tema trate también otro (como suele suceder en páginas sobre ‘Conflictos Armados’ y ‘Derechos Humanos’), habría que admitir que, aunque para nosotros conceptualmente los temas sean disjuntos, para los autores de páginas en Internet no lo son. La aproximación correcta es hacer caso a la consideración que hacen los autores de páginas, que relacionan ambos temas, y considerar que los temas no son disjuntos.

En la práctica podemos reducir el problema a:

-Los temas no son ‘disjuntos’ entre sí, sino que tienen ‘elementos comunes’.

Podríamos intentar establecer humanamente una descripción, o un diagrama de las relaciones que esperamos entre un tema y los otros 12. Por ejemplo, entre el tema de Feminización de la pobreza, predecimos las siguientes relaciones, en orden de importancia:

-Por lógica

-          Pobreza-Pobreza

-Por definición (asociación semántica en castellano)

-          Pobreza-Economía

-Por experiencia (entre el personal sanitario es conocida la relación pobreza-salud)

-          Pobreza-Salud

-Por asociación ideológica

-          Pobreza-Violencia

-Por causalidad-consecuencialidad inmediata (un tema es causa o consecuencia de otro)

-          Pobreza-Conflictos Armados

-Por causalidad-consecuencialidad mediata (La Pobreza, falta de recursos, necesidad ingresos, influye sobre la Educación, con sesgo de género.

-          Pobreza-Educación

-Por causalidad-consecuencialidad remota (mediada por Pobreza y Ausencia de Educación)

-          Pobreza-Toma de Decisiones

-          Pobreza-Mecanismos Institucionales

-Por relación estadística (incidir más habitualmente)

-          Pobreza-Derechos humanos

-Por importancia (incidencia sobre un tema de otro tema)

-          Pobreza-Medios de comunicación

-Por contigüidad (relaciones históricas, geográficas, en diversos sentidos, a veces contrapuestos. P. ej. algunas zonas ‘pobres’ han podido conservar hasta hoy ciertos recursos naturales, pero el riesgo de deterioro inmediato de dichos recursos es muy alto).

-          Pobreza-Medio Ambiente

-          Pobreza-La Niña

-Por ser área de especial preocupación

-          Pobreza-Metodología

 

En resumen, predecimos que el tema pobreza se relaciona por diversos mecanismos con todos los otros temas (con unos más que otros, desde luego). Así lo intentamos resumir en el siguiente gráfico.

Y extendiendo la predicción a los otros temas, predecimos que casi todos tendrán relación con casi todos. Más adelante, en el apartado ‘Relaciones entre los temas de la Guía’, tendremos ocasión de precisar, y cuantificar matemáticamente estas relaciones intuidas entre los temas.

Dadas estas relaciones y cercanías entre temas, la adjudicación de una página a uno o varios temas deberá ser independiente de las expresiones o los temas por los que se hizo la búsqueda, y debe basarse sólo en el contenido de la página.

Indicador de pertinencia al tema

Este indicador tiene especial importancia al preadjudicar cada página a uno, o más probablemente varios, de los temas de la guía, facilitándonos mucho la ulterior revisión manual de las páginas.

Su elaboración implica o bien revisar y clasificar manualmente todas las páginas, o establecer un sistema de clasificación automatizada que preclasifique la totalidad de las páginas y nos permita revisar manualmente la clasificación, y en la práctica, una combinación de ambos métodos.

La opción más sencilla sería puntuar algunas palabras y expresiones importantes, y adjudicarlas a algunos temas, de forma que las páginas con muchas de esas palabras o expresiones quedaran clasificadas en esos temas.

Este sistema es difícil de ajustar, y depende mucho de la valoración que se haga de cada expresión, pudiendo tornarse en caprichoso.

La alternativa requirió mucha más revisión humana, pues requería revisar inicialmente un buen número de páginas, mayor programación y uso de recursos de base de datos, pero se consideró más fiable.

Su elaboración ha sido especialmente complicada. Ha consistido en clasificar manualmente una muestra amplia de páginas de cada tema, y a continuación, instruir al ordenador sobre cuales son las palabras o expresiones que mejor definen cada tema. Habitualmente esto suele programarse sobre la base de unas cuantas palabras o expresiones consideradas importantes, pero en nuestro caso ha tenido la preadjudicación de cada página a cada uno de los temas teniendo en cuenta todas las palabras y expresiones importantes presentes en cada página. Por así decirlo, hemos hecho una definición básica (en términos y en expresiones) del vocabulario propio de cada tema, sobre la base de una abundante muestra de páginas clasificadas manualmente, y a continuación hemos programado al ordenador para que aplique tal definición para preclasificar temáticamente el resto de las páginas. Este procedimiento de clasificación se ha mostrado muy eficaz, a pesar de la dificultad de que muchas páginas hablan de diversos temas, ahorrando mucho trabajo de revisión de páginas que, aunque incluyen la expresión buscada, no tratan prácticamente el tema. El sistema lo reconoce adecuadamente, de forma que esta página aparecerá en ambos temas, en el orden pertinente en cada uno de los temas.

Consiste en ordenar (rankear) automáticamente, de forma provisional, en cada tema las páginas por su presunto mayor interés, y revisar manualmente las 500-1000 primeras, clasificándolas no por su interés, sino por su alusión y limitación al tema. Con ello conseguimos de 100 a 200 páginas para cada tema, que hablaban claramente del tema. A continuación programamos un procedimiento que identificara, en estas páginas definidoras del tema, las palabras y expresiones más frecuentes, para formar una ‘definición’ léxica del tema.

En realidad, el sistema no incluye el dato de que una palabra o expresión pertenezca a un tema, sino la ‘probabilidad’ de que al aparecer una palabra o expresión, estemos hablando de ese tema.

Seguidamente ejecutamos un programa con el que preclasificamos temáticamente todas las páginas, comparando la ‘definición’ de cada tema con la totalidad de las páginas, para que, por su afinidad con las páginas clasificadas manualmente, todas las páginas se preclasifiquen automáticamente en uno o varios temas. Posteriormente revisaremos manualmente esta preclasificación.

La clasificación temática de cada página se configura pues en términos de sumatoria de probabilidad, de cada palabra y expresión del documento, de apuntar a cada uno de los temas.

Relaciones entre los temas de la guía.-

Ya hemos mencionado la relación existente entre todos y cada uno de los temas de la Guía. Algunos temas tienden a aparecer juntos en la misma página (Pobreza y Economía es el caso más obvio), mientras que otros aparecen más disjuntos, siendo poco habitual que se traten (al menos intensamente) en la misma página (Como Pobreza y Violencia contra la mujer). Incluso avanzamos cuales podían ser las relaciones básicas del tema Pobreza con todos los demás.

Ahora bien, una vez preclasificadas temáticamente todas las páginas, en términos de una probabilidad de que la página pertenezca al tema, podemos cuantificar matemáticamente estas relaciones entre los temas. Al estar la probabilidad de adjudicación de la página a cada uno de los temas un número entre 0 y 1, y su sumatoria para los 13 temas igual a 1, podemos entender que, aunque todos los temas estén semánticamente relacionados con todos los demás, en la práctica cada tema se asociará positivamente con algunos, y negativamente con algunos otros, pues precisamente al tratar intensamente uno o varios temas, la página tendrán que dejar de hablar de algunos otros.

Esta relación puede ser expresada matemáticamente en términos de correlación, positiva o negativa, de cada tema con cada uno de los demás, y gracias al trabajo de clasificación realizado, puede ser calculada sobre la base del conjunto completo de las páginas. En este caso, la expresión de la correlación será simétrica: la correlación de Pobreza con Economía será igual a la de economía con Pobreza. También es posible llevar a cabo estos cálculos con sólo parte de las páginas consideradas, seleccionando habitualmente las que más hablan de un tema, para explorar de que otros temas se trata frecuentemente en ellas, teniendo en cuenta sólo estas páginas importantes. En este caso, el Porcentaje de páginas usadas en el cálculo será menor de 100, y los resultados obtenidos no serán simétricos, al basarse en subconjuntos de páginas distintos para cada tema. Los resultados son en general análogos, generalmente más polarizados, por lo que en ciertos casos ayudan a evidenciar las relaciones entre temas, resaltando aquellas que suelen darse en las páginas más importantes y de más calidad.

Presentamos a continuación las correlaciones entre cada uno de los temas, y todos los demás, en forma gráfica. Las correlaciones positivas (cuando se habla de este tema suele hablarse de este otro) se presentan en color verde. Las negativas (cuando se habla de este tema No suele hablarse de este otro) en rojo. Finalmente en púrpura presentamos el Porcentaje de páginas en que se basa el cálculo, que en esta serie serán todas, aunque a lo largo del proyecto hemos usado asimismo otras bases para estos cálculos ‘sólo las páginas importantes’, o sólo las páginas importantes del tema calculado’.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ordenación (Rankeado) de las páginas.-

La ordenación final de las páginas será un proceso manualmente revisado, pero debemos disponer de una preordenación de las páginas de cada tema, para poder relegar al final aquellas que presumiblemente sean menos interesantes.

Para ellos debemos establecer una serie de indicadores que nos ayuden a identificar las características de la página.

Indicadores básicos

-          Tamaño Html (Tamaño en bytes de la página Html)

-          Repeticiones en diversas búsquedas Google (Índice indirecto de la importancia –‘ranking’- que Google da a la página)

-          Tamaño.TXT (Tamaño en palabras de la página en formato Texto)

-          Tamaño en Topónimos (Número de topónimos que incluye)

-          Tamaño en Expresiones importantes (Número de Expresiones importantes que incluye)

-          Textualidad (Tamaño .TXT/Tamaño .Html)

-          Localizabilidad (Tamaño Topónimos/Tamaño Filtrado)

-          Localización (Indicador de si la información geográfica de la página remite a un país –localizada-, o a varios o muchos –dispersa-)

-          .Genericidad (Expresiones clave relativas a Género/Tamaño filtrado)

-          Calidad (indicador de Calidad atribuida tras la revisión manual de la página)

-          Tamaño en Palabras importantes (Nº de palabras ‘importantes’ en la página)

-          ProporciónTema (Probabilidad de que la página pertenezca a cada tema)

-          Densidad en palabras importantes (Tamaño en palabras importantes/Tamaño filtrado)

-          Castellanidad (Tamaño Filtrado/Tamaño TXT)

-          Tamaño Filtrado (Tamaño en palabras válidas en español)

-          Género (Palabras clave relativas a Género/Tamaño filtrado)

-          Ideologicidad (expresiones clave que indican apuntan a la inclusión de una perspectiva de género en la página/Tamaño filtrado)

Construcción de un indicador compuesto

Todos estos indicadores nos ayudarán a preordenar la importancia de la página (‘Rankearla’).

El prerankeado consiste en ordenar las páginas según estos indicadores, de forma que queden al final aquellas con valores menos deseables (p. ej. páginas poco castellanas, con poca densidad de palabras importantes, con poco contenido relacionado con cuestiones de género, o con escasa relación con el tema tratado). Cuando las páginas cumplen muchas de estas características no deseables, pueden ser descartadas sin revisarlas manualmente, pues aunque tengan algún interés (y hayan sido devueltas por Google entre las 500 primeras), este interés se verá muy limitado por los inconvenientes acumulados.

Así la revisión manual de las páginas podrá abreviarse, interrumpiéndose cuando las últimas páginas revisadas carezcan de interés, suponiendo que, a partir de ese punto, presentarán menor interés aún. El punto exacto en que puede hacerse esto debe evaluarse con mucho cuidado, lo que puede resolverse con cierta generosidad en la revisión manual, interrumpiéndola sólo cuando el interés de las páginas que se están revisando haya llegado a ser irreversiblemente escaso.

Ahora bien ¿es posible esto, o bien nos encontraremos, al revisar todas las páginas de un tema, ordenadas mediante estos indicadores, que las páginas de interés real estén dispersas, y, aunque estén mayormente al principio, sigan apareciendo según revisamos manualmente, hasta casi el final, sin permitirnos ahorrarnos, al menos, la revisión manual de 1/3 de las páginas presuntamente interesantes?.

Esta situación es la que se presenta en la práctica cuando, para ‘rankear’ las páginas, simplemente ordenamos por alguno o algunos de los indicadores (o su reducción a intervalos, p. ej. páginas grandes, medianas o pequeñas, o páginas densas o poco densas, o páginas muy castellanas a poco castellanas, o páginas más pertinentes a poco pertinentes al tema). Aunque con estos métodos sencillos conseguimos situar al principio del listado páginas de mucho interés, a lo largo de la revisión notamos que, conforme se ‘disipa’ el efecto de el/los indicadores predominantes, las páginas de interés se encuentran dispersas, hasta el final de la ordenación.

Si se sofistica un poco la ordenación, elaborando un indicador que integre algunos de los indicadores básicos, se obtienen mejores resultados a lo largo de todo el rankeado (no sólo una concentración de páginas interesantes al principio), pero son insuficientes, no siendo razonable descartar en la revisión manual ‘el resto de las páginas’, porque siguen apareciendo páginas de interés hasta muy adentrada la ordenación. Un fenómeno curioso, que delata escasa calidad del indicador compuesto usado en el rankeado es la aparición de bandas, ‘rachas’ de páginas de interés que se alternan con otras de interés muy escaso. Suelen corresponder a los picos, no sincronizados, de la influencia de cada indicador.

Para que este mecanismo de rankeado funcionara idealmente, debería acumular la mayoría de las páginas de interés al principio, siendo cada vez de menos interés según se avanza en la ordenación. Sin embargo, si nos fijamos, sobre todo debe hacer ‘lo otro’. Si asumimos que vamos a revisar manualmente la mitad de las páginas, pongamos 3000, lo que nos interesa no es que las 200 primeras sean de interés garantizado, sino que las 2000 últimas no sean de interés. En la práctica se intentará elaborar un indicador que no necesite especificar esta diferencia, y simplemente, distribuya las páginas de interés más bien al principio, evitándolas al final, análogamente a la mitad derecha de una ‘distribución normal’.

La alternativa es elaborar un indicador complejo, que integre buena parte de los indicadores básicos. Este indicador, sin embargo, su formulación debería ser lo más simple posible, porque de otro modo dejaría de ser depurable (la persona que lo construye y modifica no podría seguir mentalmente su funcionamiento, con lo que se transformaría para ella en ‘un misterio’, y no podría seguir mejorando el indicador). Los requisitos para ese indicador complejo y simple son que incorpore varios de los indicadores básicos, y que permita ‘potenciarlos’ adecuadamente, para darle mayor importancia a unos que a otros, en el ‘rankeado’ final.

Problemas en la construcción de indicador compuesto

Los problemas para ello consisten en que estos indicadores no comparten unidades (unos están en bytes, otros en Nº de palabras, otros en proporción), con lo cual sumarlos sería absurdo, pues el indicador con unidades más pequeñas predominaría sobre el otro.

No se produciría tal predominio de un indicador sobre otro si, en vez de sumar, multiplicamos varios indicadores. Si podemos tener en este caso problemas con el rango (y con el tipo de distribución) muy diferente de algunos indicadores. Los altos valores de p. ej. el tamaño en Bytes, se pueden, simplemente expresar en Kbytes. Más difíciles son los problemas entre indicadores que tienen distribuciones muy diferentes, o con valores extremos que aumentan el rango (así, p. ej. una página puede medir de 10 bytes a 1 megabyte, 100000 veces más, pero la probabilidad de que una página sea adecuada al tema actual suele ser de entre 0.02 y 0.30, unas 15 veces más). En estos caso, al elaborar el indicador compuesto, se debe corregir explícitamente tales diferencias, en forma simple asimismo.

Tras ‘normalizar’ en cierta medida los indicadores básicos, la cuestión de cómo ‘potenciar’ (darle importancia en el rankeado final) adecuadamente cada unos de los indicadores básicos en el indicador final tiene una respuesta simple:

Elevamos a una potencia cada indicador (una potencia alta, para los factores importantes, baja para los factores menos importantes, cero para los factores indiferentes, e incluso negativa, para los factores que deban incidir negativamente en el rankeado -no ha sido necesario-).

Cada unos de estos términos potenciados será multiplicado por todos los demás, configurando un indicador muy flexible, pero difícil de ajustar, pues debemos especificar la potencia que damos a cada uno de los indicadores. El problema es similar a cuando queremos ‘ecualizar’ graves, semigraves, medios, semiagudos, agudos en un amplificador de sonido, para ajustar la reproducción a nuestros gustos, pero tiene dificultades añadidas.

-          Los indicadores a ecualizar son muchos, como en los amplificadores que dividen la gama grave-agudo en 8 o más bandas de frecuencias.

-          Los indicadores ‘contiguos’ no están necesariamente relacionados. (En un amplificador, si en vez de subir los ‘Muy graves’ subimos los ‘Graves’, el resultado no es idéntico, pero es parecido. En nuestro sistema no.

-          La potenciación excesiva de cualquier indicador puede fácilmente ‘saturar’ la salida, de forma que predomina excesivamente sobre todos los demás. Por así decirlo, los mandos de nuestro amplificador son ‘demasiado sensibles’. Además, el nivel de saturación de un indicador dependerá de la ecualización de todos los demás, con lo que no se puede establecer inequívocamente el umbral.

-          Algunos indicadores están fuertemente correlacionados con otros, lo que significa que, al potenciar un indicador estamos, colateralmente, potenciando en parte otros. Y si potenciamos varios indicadores correlacionados, estamos probablemente potenciándolos excesivamente todos, en cuyo caso, arrasarían en el ordenamiento, minimizando la influencia del resto de los indicadores.

-          No podemos evaluar inmediatamente el efecto de cada cambio en cada indicador. Tras hacer uno o varios cambios, debemos evaluar los resultados, para ver si hemos mejorado (o empeorado) el resultado final del rankeado.

Todos estas dificultades hacen muy difícil no ya el ecualizado definitivo, sino incluso una aproximación inicial, que exige múltiples revisiones tentativas. No obstante, una vez obtenida esta primera ecualización ‘medio aceptable’, su optimización no es tan difícil, aunque sí extraordinariamente prolija.

El problema principal es la dificultad de evaluar una ordenación cada vez que se hace un cambio en la misma, para evaluar la pertinencia de ese cambio. La solución inicial es revisar manualmente la ordenación a cada paso, para comprobar (al menos en bastantes páginas seleccionadas) la mejor o peor adecuación del nuevo ordenamiento. La tarea se hace tan ardua que debemos implementar una aproximación para evaluar automatizadamente los efectos de cada cambio sin revisar manualmente las páginas tras cada reordenación. El único método que se nos ocurrió para conseguir que se automatice esta evaluación pasa previamente por clasificar manualmente la Calidad y pertinencia al tema de una muestra de páginas (500-1000 mejor ordenadas provisionalmente para cada tema).

A continuación programamos un sistema que, tras un conjunto de cambios, compare la clasificación hecha por el ordenador (con la ecualización actual), con las valoraciones humanas de las páginas. Si los cambios en el Ranking automatizado se adecuan más (en términos de correlación entre nuestro ordenamiento manual y el ordenamiento automatizado), el cambio parece satisfactorio. Así obtendremos una semirápida evaluación de cada cambio (puede tardar bastantes minutos, pero no exige la revisión manual de, al menos, cientos de páginas).

Programación de un ‘ecualizador’ de indicadores

También debimos programar un procedimiento que nos permita especificar la ecualización deseada, y otro similar para visualizar el impacto de la ecualización.

El procedimiento que nos permite ‘Editar’ el ‘Rankeado’, potenciando más o menos cada indicador, lo titulamos ‘Factores de Ranking en Guía Género’, y nos permite especificar la importancia que se le da a cada indicador en el resultado final. Se pueden especificar en él potencias enteras, fraccionarias, y negativas (no han sido necesarias). El Indicador ‘Repeticiones’ ha requerido una potenciación fraccionaria. La razón es que, aún indirectamente, este indicador estima la importancia que Google da a la página. Y si diéramos excesiva importancia a este indicador, incurriríamos en el mismo problema en que incurre Google, al devolvernos al principio más páginas de interés general, que de interés para el tema tratado. Por ello, este indicador ha sido potenciado a 0.5. En este caso el indicador se potencia entre 0 (el indicador no importa) y 1 (el indicador influye linealmente en el Ordenamiento), lo que significa que va a ser tenido en cuenta en el indicador final, pero con una importancia pequeña.

Construcción de un evaluador de la ecualización.

Para evaluar el efecto de cada cambio de ordenamiento programamos, análogamente, un procedimiento en el que podemos comprobar la correlación entre cada uno de los indicadores, y el rankeado final, lo que nos permite detectar la saturación de indicadores ‘similares’, por ser potenciados redundantemente, y observar el equilibrio final entre todos los indicadores. A esta pantalla la llamamos ‘Correlaciones de Indicadores con Ranking’.

 

En esta pantalla evidenciamos varios efectos de las correlaciones entre indicadores. Así, aunque sólo hemos potenciado un indicador de tamaño (Tamaño Filtrado), todos los indicadores de tamaño están muy correlacionados con el ordenamiento. Ello es debido a dos causas, al menos: Están muy correlacionados entre sí. Y están correlacionados con otros indicadores, aparentemente lejanos. Así, p. ej. las páginas mayores suelen ser, a su vez más densas en términos importantes, y suelen ser bien rankeadas por Google.

Con estas herramientas podemos afinar progresivamente el Rankeado automatizado de las páginas. Finalmente el afinamiento consiste en hacer cambios muy ligero en el ecualizador (pantalla amarilla), y comprobar a continuación la influencia de cada indicador en el ranking final (pantalla azul), y a cada cambio comparar estadísticamente el prerankeado con la revisión parcial hecha manualmente, para comprobar si el cambio acerca más el ordenamiento automático a nuestro ordenamiento manual, en cuyo caso sería positivo, o lo aleja, en cuyo caso debemos descartar el cambio. También hay que hacer revisiones manuales parciales, para ir comprobando la validez real del indicador construido y del rankeado que produce.

Revisión manual de páginas en cada tema

A continuación iniciamos la definitiva revisión manual de las páginas (o al menos creíamos que sería la definitiva cada vez que la hicimos), que clasificará cada página, según criterios humanos de Calidad general, Adecuación a la guía (Género), y adecuación al tema (p. ej. Feminización de la pobreza).

Para ayudarnos en esta revisión y calificación manual de páginas hemos debido desarrollar un software que nos permitiera interactivamente y a alta velocidad revisar e ir marcando y puntuando las páginas, en la misma pantalla. Nos ha sido de mucha utilidad en otros muchos momentos del desarrollo de la guía, como puede comprobarse por algunas de las opciones del menú. Su aspecto puede verse en la siguiente pantalla.

 

Esta revisión manual se puede interrumpir, para cada tema, cuando la serie ordenada de páginas deje de tener interés, lo que en la práctica ha sucedido tras revisar 1500-2000 páginas para cada tema.

Finalmente, podemos, tras una combinación reiterativa de ordenaciones automatizadas y revisiones manuales, en que vamos marcando el Indicador ‘Calidad’ para cada página, añadimos a nuestro ranking este indicador de Calidad (que hasta ahora no influía en el rankeado automático), y que permitirá fundir la clasificación automática con la Calidad manualmente estimada, en un ordenamiento definitivo de las páginas de la guía, que usaremos en la presentación final de cada uno de los temas.

Tras otra revisión manual, se delimitan finalmente las páginas que se incluirán en cada tema de la guía, y su ordenamiento.

Información por países

A continuación debemos evaluar la información geográfica incluida a cada página, lo que nos permitirá preasignarlas a uno o varios países y posteriormente a una o varias áreas geográficas. Para ello se prepara un fichero de información geográfica de todos los países del mundo, en que se hace constar sus nombres, capitales (en caso de España también Comunidades y provincias), gentilicios (como ‘Costarricense’), moneda, y cualquier otro término que ayude en la 7 de la página.

Comparando esta información con cada página, extraemos la información toponímica contenida en cada página, que puede permitirnos:

-          Asignar la página a un país inequívocamente (muchos topónimos, y del mismo país), o dudosamente (escasos topónimos).

-          Más frecuente es la adscripción de una página a varios países, como en el caso de una página de colaboración Danesa en Nicaragua, que mencionará repetidamente topónimos de ambos países.

-          Muchas páginas mencionan una variedad de países, aunque se centran realmente en uno o uno o varios. Será necesario trasladar al usuario de la guía esta distinción, para que, antes de consultar la página, conozca qué países menciona la página, y de cuales realmente habla en profundidad (Se resaltarán estos últimos).

-          Finalmente hay páginas que mencionan, escasamente, gran cantidad de países, incluso casi todos, como es el caso de algunas páginas de estadísticas comparativas (p. ej. del nivel de escolarización) entre todos los países.

Información por Áreas geográficas

Elaborado este desglose por países, habremos de trasladarlo a la unidad geográfica de análisis usada en la guía: Las 6 áreas geográficas de especial interés para la cooperación europea, que se encuentran definidas, entre otros sitios de la Unión Europea, en http://europa.eu.int/comm/europeaid/projects/index_es.htm.

Para ello preparamos un fichero con todas las áreas y los países que incluye cada una, y combinándolo con la información por países de cada página, adscribimos cada página al área o las áreas geográficas que mencione, análogamente a como lo hicimos por países.

Como se ve, la atención dedicada en Internet en español a las diversas Áreas es muy dispar. Pero el efecto más grave es que, a más de ser menos abundantes, las escasas páginas dedicadas a ciertas áreas son, además, más simples, o menos interesantes en términos generales, que las dedicadas a las Áreas más representadas, acentuando en la práctica aún más las diferencias.

Podemos calcular la distribución de la atención que se dedica a cada tema (en número de páginas que lo tratan, o según la medida en que cada página trata el tema, o más sofisticadamente, en la importancia de las páginas que tratan el tema) en las páginas recogidas en la guía, para las diferentes áreas geográficas, para evidenciar la mediad en que, en cada área predomina la atención a algunos temas sobre otros.

 

 

 

 

 

 

 

Finalmente creamos un algoritmo de selección de las páginas que se incluirán en cada tema para cada área, que ponderará el peso absoluto de las referencias al área actual, y su peso relativo frente a otras áreas mencionadas. La selección por áreas geográficas no afecta al orden de las páginas, que seguirá siendo el mismo, en parte automatizado, y en parte revisado manualmente, desarrollado para las páginas principales de los temas de la guía, que no distinguen geográficamente.

La selección es cuestión delicada, en particular en las áreas para las que menos información en español existe en la red. Es complicado por que, en buena medida refleja la escasez de contenidos en español para esas áreas (lo que es difícilmente resoluble, salvo con el tiempo), pero a la vez refleja, por efecto acumulativo, la escasa importancia que estas páginas especializadas geográficamente alcanzan en los buscadores de Internet (y en esta medida es soluble mediante profundizaciones geográficas de las búsquedas). En la edición actual se podría tender a incluir, para estas áreas, documentos de menor interés. Hemos descartado esta técnica, pues precisamente la revisión humana de las páginas tendía a mantener el interés de las páginas aprobados por encima de unos niveles mínimos. Otra posibilidad, y esta si se ha implementado en parte, es relajar los criterios geográficos, entre las listas de enlaces relativos a un tema para un área geográfica ‘poco documentada’, para incluir, en estas áreas, enlaces que, aunque mencionen o hablen de algunos países del área, no centren exhaustivamente su interés en dicha área.

Tras otra revisión manual, se delimitan finalmente las páginas que se incluirán en cada tema para cada una de las seis áreas geográficas, y su ordenamiento.

Generación de las páginas por temas de la guía

Cada página principal de cada tema incluirá varios cientos de enlaces seleccionados de entre varios miles revisados manualmente, elegidos de entre los mejor rankeados de entre los revisados automáticamente.

Aunque la selección es fuerte, varios cientos de enlaces siguen siendo demasiados como para presentarlos en una lista ordenada sin más estructura. Por ello, decidimos clasificar las páginas a presentar en la guía en ‘Tipos de páginas’ que intenten reflejar los diversos intereses predominantes de un usuario de la guía. Así p. ej. a un usuario le podrían interesar más las listas de enlaces sobre el tema (porque los puede consultar en línea inmediatamente), que la bibliografía (que tendría que localizar en una biblioteca o librería). Sin embargo, a un usuario docente que prepare la impartición de un curso sobre el tema, la ‘bibliografía’, o los ‘recursos’ le interesará incluso más que las listas de enlaces. Si un usuario está redactando un proyecto de cooperación en el tema, le interesarán muchos los proyectos o programas similares (particularmente si inciden sobre la misma área geográfica), aún cuando sean de hace tres años, y poco los artículos o noticias periodísticas sobre el tema, por muy actuales que sean. Sin embargo un usuario que desea hacerse con unas ideas básicas del estado actual de un tema, estos artículos y noticias periodísticas le serán del mayor interés. La clasificación finalmente desarrollada de ‘Tipos de páginas’ no puede ser idéntica para todos los temas, y es la siguiente:

Clasificación de las páginas en ‘Tipos de páginas’

NombreSimple                      Descripción                                       Grupo

Artículos                                Artículos, Estudios                               Artículos

Listas de Artículos                                                                              Artículos

Bibliografía                                                                                       Bibliografía

Cursos                                                                                              Cursos

Definición                                                                                         Definición

Definiciones                                                                                        Definición

Definición de la Guía                                                                           Definición

Enlaces                                                                                             Enlaces

Listas de Enlaces                                                                                Enlaces

Glosarios                                                                                          Glosarios

Informes                                Informes, Declaraciones                      Informes

Conjuntos de Informes                                                                       Informes

Medios de Comunicación       Medios, Centros de información          Medios

Metodologías aplicadas                                                                  Metodologías_Aplicadas

Programas                             Programas, proyectos                          Programas

Conjuntos de Programas                                                                    Programas

Metodología                                                                                     Metodología

Universidad                                                                                      Universidad

Experiencias Metodología                                                              Experiencias_Metodología

 

En cada página de tema clasificaremos las páginas en estos grupos. En la parte superior de la página pondremos una barra ‘Ir a:’, con un enlace directo a cada uno de los grupos presentes realmente en la página, para que el usuario pueda ir directamente al tipo de páginas que sea de su interés. Los ‘Grupos’ sirven para no tener que poner demasiados enlaces internos en la cabecera: Si a un usuario le interesan las ‘Listas de enlaces’ (que pueden dar acceso a cientos de enlaces, en forma estructurada), más que los ‘Enlaces’ (páginas que contienen algunos enlaces de interés), pulsará en la barra ‘Ir a;’ en ‘Enlaces’, lo que lo posicionará en ‘Enlaces’, y moviéndose hacia abajo encontrará fácilmente el conjunto de páginas ‘Listas de enlaces’.

En estas páginas de cada tema se dispone una cabecera superior, que a la izquierda presentará la imagen de la guía, y que nos llevará a la página principal de la guía, y una imagen representativa del tema actual a la derecha. En el centro de la cabecera 2 listas desplegables nos permitirán elegir interactivamente otro tema, o un área geográfica para este tema.

Al final de la página, se dispondrán las imágenes de todos los temas y todas las áreas geográficas, para que el usuario pueda también desde aquí, en formato imagen, elegir el tema o área deseada.

Dada la cantidad de enlaces presentados para cada tema, se aconseja repartirlos en dos subpáginas: una con los enlaces de mayor interés, y otra con las Organizaciones que tratan intensivamente el tema (que previamente han sido identificadas manualmente), y los ‘Otros enlaces’ (de un interés menos general) que los presentados anteriormente.

Finalmente se implementa un programa para generar las páginas de cada tema, incluyendo las páginas especificadas por nosotros, en el ranking especificado por nosotros, incluyendo las cabeceras, las imágenes correspondientes a cada tema, y las variaciones deseadas (de formato, colores, etc.) para cada tema.

Generamos y revisamos las páginas de cada tema, e introducimos las correcciones pertinentes.

Generación de las páginas por Temas y Áreas geográficas de la guía

Las páginas por áreas geográficas deben seguir básicamente el esquema de las páginas temáticas. Al ser los enlaces de cada área un número menor, puede prescindirse de la segunda página, incluyendo toda la información en una sola. La barra ‘Ir a:’ debe adecuarse a esta situación, y todos sus vínculos serán internos.

Estas las páginas por Área contendrán, a la izquierda arriba de la cabecera, una imagen representativa del área geográfica en que nos encontramos, lo que las diferenciará inmediatamente de las páginas genéricas del tema, que no distinguen áreas geográficas.

Imagen de la guía

La guía de género pretende ofrecer contenidos seleccionados por su interés, su tema, su tipo de página, y su ubicación geográfica, y ordenados según la importancia con la que los hemos evaluado. Sin embargo, esto no es incompatible, sino complementario con su presentación en un formato agradable, y útil. Para las páginas con contenidos se decidió usar una estética simple, pero muy conocida, inspirada en Google. Los cambios recientes en el diseño de Google la hacen algo diferente, pero nuestra intención inicial fue emular una presentación que, aunque simple, era la única conocida por todos los usuarios de Internet.

Sin embargo, para la página principal y las imágenes representativas de cada tema y cada área en la guía no podemos seguir una estética tan sencilla como la de Google (la guía de género no es suficientemente popular como para simplificar su imagen hasta ese punto). Por ello encargamos el desarrollo de la página principal e imágenes representativas de la guía, sus temas y áreas geográficas, a la empresa especializada en comunicación social Xul. Con ello esperamos haber obtenido una uniformidad en la apariencia de las subpáginas de la guía, y una página principal atractiva y fácilmente identificable y recordable por el visitante.

Publicación de la guía

Desarrollados los contenidos, se dispusieron en los dos formatos en que se presentará la Guía.

Publicación y distribución a agentes de cooperación, de la versión en CD-ROM

Publicación en Internet de la página web de la Guía: www.guiagenero.com.

Promoción de la Guía en Internet.

El objetivo de cualquier página es aparecer entre la primera página de resultados devueltos por cualquier buscador. Por suerte más que por desgracia, el rankeado de p. ej. Google no sólo depende de los contenidos de la página, sino, sobre todo, de las referencias que se hagan en otras páginas de Internet a esta Guía, y de la calificación (ranking) que otorgue Google a las páginas que referencien esta Guía.

Esta tarea de promoción de esta página no depende de nosotros, sino de que, a los usuarios de la Guía, este proyecto les resulte útil, y decidan incluir, en su propia página, personal o de Organización, una referencia a esta ‘Guía de Recursos en Internet sobre Género y Desarrollo’, situada en www.guiagenero.com.