Por Janet Cacelín
Ciudad de México.- Especialistas del Centro de Investigación en Computación (CIC), del Instituto Politécnico Nacional (IPN), desarrollaron un software que muestra la forma en que eran empleadas diversas palabras del español antiguo, a través de un acervo de más de tres mil documentos escritos en América Latina desde los orígenes del español en la región hasta el siglo XX.
¿En qué siglo y en qué países de Latinoamérica era más común escribir la palabra ‘muger’ al referirse a una persona del sexo femenino? ¿De qué forma se abreviaban las palabras? ¿Cuáles se utilizaban para expresarse en contextos como documentos administrativos o en cartas informales? Esas y muchas otras preguntas pueden responderse a través de este programa llamado Cordiam.
La parte informática del proyecto, que comenzó a desarrollarse desde hace poco más de cinco años, está a cargo de los investigadores Alexander Gelbukh y Grigori Sidorov, cuya tarea principal es organizar las bases de datos para proporcionar la búsqueda de las palabras que se quieran analizar.
Durante una conferencia realizada en el marco de la XXXV Feria Internacional del Libro del IPN, el doctor Gelbukh detalló que la función principal del software es proporcionar las facilidades de búsqueda de esos textos.
“Se trata de una colección de textos, pero no solo eso, es una colección preparada, con textos bien seleccionados y marcados con diferente información adicional en los que trabajan nuestros colegas lingüistas. Nosotros, el equipo de programadores, proporcionamos la búsqueda en estos textos, verificación automática y marcaje de ciertos aspectos”, detalló.
El investigador señaló que el Corpus Diacrónico y Diatópico del Español de América (Cordiam), de la Academia Mexicana de la Lengua en colaboración con la Academia Nacional de Letras de Uruguay, se conforma por una base de datos de tres millones de palabras, extraídas de archivos de 19 países americanos hispanohablantes, más el sur y oeste de Estados Unidos, Jamaica, Haití y Guyana.
El doctor Gelbukh señaló que los países contribuyen con textos de sus archivos históricos y los lingüistas transcriben, marcan los textos y los preparan para ser agregados al sistema.
“Ahora tenemos tres mil documentos y estamos preparándonos para la siguiente etapa que será de 30 mil documentos”, dijo.
¿Quieres hacer búsquedas y conocer sobre el español antiguo?
Visita la página de Cordiam.
Entre las características de Cordiam, se encuentra la posibilidad de ver y guardar el documento completo en el que se encuentra una concordancia, guardar automáticamente en una base de datos las búsquedas realizadas, así como una plantilla de metadatos para acotar las búsquedas y proporcionar información cuantitativa del universo de palabras sobre el cual se ha realizado una búsqueda.
Durante la conferencia, Gelbukh explicó que los documentos recopilados para el proyecto se dividen en cuatro tipos textuales que son cronísticos, administrativos, jurídicos y particulares. Los tres primeros corresponden a documentos de circulación pública, y el último, a documentos de circulación privada.
El proyecto, debido a que solo estudian textos del continente americano, permite construir una gramática histórica del español en el continente y una dialectología histórica de la lengua española en América, según se detalla en la página web de Cordiam.
Por su amplitud cronológica y geográfica y por contener numerosos documentos inéditos, permitirá también estudiar o repensar fenómenos sociales, históricos y culturales de Hispanoamérica manifestados a través de la lengua española.