Lematización es una bonita y aparente palabra, suficientemente larga e infrecuente para asustar al poco ducho en la cuestión lingüística. Sin embargo, iniciados o legos, todos estamos familiarizados con el proceso de lematizar, aunque no sepamos que se llama así. Cuando queremos buscar una palabra en el diccionario, sabemos que no todas las palabras estarán recogidas. Por ejemplo, si la palabra es un verbo, sólo el infinitivo aparecerá en representación de toda la familia conjugada. El proceso de transformar una palabra al término por el que lo encontaríamos en un diccionario se llama lematización.

Dejando aparte la experiencia de sumergirse en el diccionario de papel (cada día más en desuso) y las clases de idiomas, lo cierto es que los humanos no solemos lematizar mucho en nuestro día a día. O al menos no lo hacemos conscientemente, por puro amor a la lematización. Las máquinas, sin embargo, sí suelen lematizar, o por lo menos deberían. Cuando nos encontramos ante un proceso automático que conlleva algún tipo de análisis de texto, el primer paso es, habitualmente, lematizarlo.

La lematización también resulta tremendamente útil en procesos de búsqueda, ya que una búsqueda lematizada devuelve todas las apariciones posibles de la palabra buscada (incluyendo femeninos, plurales, formas conjugadas), y no solo la forma exacta introducida. Un ejemplo práctico de hasta qué punto la lematización es una búsqueda hormonada es Refranario, el diccionario de refranes en español. Pongamos que quiero buscar todos los refranes que contienen el verbo llover. Una búsqueda convencional de llover en Refranario no devuelve resultados. No hay refranes que contengan el infinitivo llover. Sin embargo, es plausible que formas conjugadas del verbo sí aparezcan en Refranario. En español hay cerca de un centenar de formas conjugadas por infinitivo. Cien formas conjugadas son muchas formas, y si tenemos que ir buscando una por una, son muchas búsquedas. Es ahí cuando un lematizador puede salvarnos el pellejo. Si hacemos una búsqueda lematizada en Refranario (es decir, una búsqueda que tenga en cuenta todas las posibles variaciones y flexiones de una palabra), obtendremos cuatro refranes que contienen formas del verbo llover (llueve, llovido y llovía).

El ejemplo de Refranario muestra a pequeña escala como un lematizador proporciona resultados mejores y más relevantes en las búsquedas. Sirve como aperitivo para imaginar las posibilidades de mejoras en la recuperación de información si aplicamos la lematización a grandes cantidades de texto.

[Refranario usa la API de lematización de Apicultur]

Share →