Corpus de referencia

Después de un tiempo ausente, retomo el blog con ganas de hablar de corpus. En el proceso de traducción, se necesitan muchas más herramientas que un diccionario; es necesario un proceso de documentación importante que suele tener relación con la elección de un buen glosario, textos paralelos o memorias de traducción, pero algunas veces deberemos elegir un corpus para ayudarnos a determinar la frecuencia de las palabras en determinada especialidad o las colocaciones más frecuentes; es decir, los corpus pueden ayudarnos a determinar con qué sustantivo tiene tendencia a combinar cierto verbo.

Por ejemplo, si tomamos un verbo transitivo del tipo cometer hay ciertos sustantivos que suelen combinar mejor con este verbo y que sobresalen por encima de los demás, como delito, crimen, robo, etc.; en cambio, cualquier hablante nativo del español sentiría un escalofrío por su espalda si se encontrase con cometer un viaje o cometer un pago. En fin, que hay unidades léxicas que se atraen mútuamente y nosotros, los traductores, debemos tener en cuenta estas tendencias o relaciones especiales entre palabras para conseguir que el lector se encuentre con un texto natural y genuino. Otro ejemplo muy claro e ilustrativo: tanto en español como en catalán nos besamos; sin embargo, mientras en español se dan besos, en catalán es fan petons. Y como estos ejemplos, miles. Por lo tanto, el uso de un corpus de referencia que nos permita conocer las frecuencias de las palabras y sus colocaciones más habituales puede ser una herramienta muy útil.

Aunque existen muchos corpus con distintos objetivos, en esta entrada quiero centrarme en algunos de los corpus de referencia más importantes para el español, catalán e inglés.

1. CREA (Corpus de Referencia del Español Actual)

Se trata del corpus de la RAE y pretende ser un corpus que represente toda la extensión de la lengua española. En este corpus, además de consultar las concordancias y las colocaciones, se puede saber la frecuencia de uso de determinada palabra en los distintos países de habla hispana. Otro de sus puntos fuertes es la posibilidad de buscar por textos de especialidad y medio, por lo que se puede focalizar la búsqueda y obtener resultados adecuados a las necesidades. Sin embargo, su punto débil es la interfaz y la navegación por los diálogos no es muy intuitiva.

2. Corpus del Español 

Este corpus desarrollado por Mark Davies de la Brigham Youth University es uno de los más completos de la lengua española y mucho más intuitivo que el de la RAE. Por su impresionante volumen (unos 100.000.000 de palabras) y su facilidad de uso, se convierte en un corpus de referencia aunque no haya sido desarrollado por la academia. Es ideal para encontrar las colocaciones más usuales y para realizar búsquedas diacrónicas, pues se pueden escoger los siglos en los que se documentan las ocurrencias de determinada palabra, además también existe la posibilidad de buscar la palabra por categoría gramatical.

3. BNC (British National Corpus)

Este es el padre o el detonante que hizo realidad el corpus anterior. También desarrollado por Mark Davies de la BYU, se trata del corpus más extenso y exhaustivo de la lengua inglesa. Con el mismo diseño y la misma facilidad para encontrar la información que se busca, se trata sin duda alguna del corpus de referencia de la lengua inglesa. Es un corpus que se centra en el inglés actual, desde 1980, y permite buscar también el medio en que se documenta la palabra. Como en el caso anterior también se puede buscar por categoría gramatical y su interfaz es muy fácil de utilizar y navegar por ella.

4. CTILC (Corpus Textual Informatitzat de la Llengua Catalana)

Finalmente, este corpus es el que ha desarrollado el IEC para dar cuenta de la lengua catalana, se trata de un corpus bastante completo pero para nada intuitivo y fácil de utilizar. Como pasa con el español, el corpus de la academia es el de referencia pero poco recomendable, pues existen alternativas mucho más competitivas, como por ejemplo el corpus AnCora desarrollado por la Universidad de Barcelona y que además cuenta con diferentes capas de anotación lingüística.

Soy consciente que esta pequeña muestra es subjetiva y que en algunos casos, como el del catalán, no trato los corpus más completos. Sin embargo, creo que se deben mencionar los corpus de las academias, pues son los entes normativos de nuestras lenguas aunque en muchos casos no compartamos sus ideas o visión en cuanto a la lengua y su evolución ideal. De todas formas, la lingüística de corpus ha experimentado un gran auge en los últimos años, por lo que hay muchos otros corpus que pueden ayudarnos en nuestra tarea. Espero poder ampliar esta pequeña selección en el futuro. Hasta entonces me gustaría saber vuestra opinión sobre trabajar con corpus, ¿los encontráis útiles? ¿qué corpus habéis convertido en vuestro corpus de referencia?

About these ads

2 Comments

Filed under corpus, translation

2 responses to “Corpus de referencia

  1. Hola; soy Gerardo, traductor inglés-español, de Argentina. Sí, encuentro útiles los corpus precisamente para lo que tú dices: averiguar qué combinación léxica será más natural (si ese es el criterio que se debe aplicar). Cuando daba clases de traducción, recomendaba a mis estudiantes que consultaran los corpus. En un mercado como el argentino, en el que frecuentemente se solicita al traductor que tiene el español como lengua materna que realice traducciones al inglés, son sumamente útiles los corpus como el BNC, o el COCA (Corpus of Contemporary American English, también de Mark Davies, http://corpus.byu.edu/coca). No sé si lo mismo ocurre en la península ibérica. Un saludo.

  2. Gracias por tu comentario Gerardo, muy interesante el COCA. La BYU son los líderes en lingüística de corpus, tienen unos recursos excelentes.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s