A vueltas con la IA

La primera vez que escuché el término black box fue en julio de 2017. Estaba pasando un mes en el Centro de ciencia de datos de la Universidad de Nueva York y fui a ver una charla sobre procesamiento natural del lenguaje. Trataba de algo de semántica (no recuerdo el tema concreto) y la autora aplicaba una red neuronal, es decir, un modelo de inteligencia artificial no generativa. Cuando salimos de la charla, el profesor con el que hacía la estancia me dijo que ese tipo de modelos le daban mala espina, porque eran black boxes: cajas negras cuyo funcionamiento interno desconocíamos.

Creo que yo ya conocía algunas aplicaciones de estos modelos en otras ciencias. Por ejemplo, me impresionaba su uso en la lectura de imágenes radiológicas: un modelo entrenado con imágenes y sus diagnósticos podía leer una imagen nueva y dar un diagnóstico muy fiable. La inteligencia artificial no generativa era una forma de analizar ingentes cantidades de datos (big data era uno de los términos de moda), pues permitía encontrar patrones que podían pasar desapercibidos al ojo humano o, más bien, a su cerebro, más limitado en cuestiones de memoria que un ordenador potente. Pero despertaba cierta inquietud, pues el proceso seguido por el modelo era opaco. En una aplicación médica, esto podía verse contrarrestado por un alto grado de acierto y, sobre todo, su bajo coste, que permitía diagnósticos radiológicos fiables incluso en lugares en los que no podía haber un radiólogo. Pero a mi profesor le parecía —y yo concordaba y concuerdo— que, en la investigación científica, entender el proceso era fundamental, porque es lo que nos acerca a la explicación, que es lo que buscamos.

La inteligencia artificial no generativa no es sencilla de usar. Uno debe saber cosas, de estadística, de programación y, para una buena interpretación final, de la materia a la que se aplica. Así que estas reflexiones se ceñían a determinados círculos —ni siquiera sé si despertaban muchos debates, porque mi ámbito no estaba entre ellos—. Pero a finales de 2022 llegó ChatGPT y nos tiró la inteligencia artificial a la cara, en este caso, la inteligencia artificial generativa (IAG a partir de ahora). Traté de explicar aquí las bases del funcionamiento de los grandes modelos de lenguaje (large language models en inglés), que son la base de ChatGPT y compañía. Lo que me interesa ahora es el debate social sobre los riesgos y las ventajas de la IAG, debate en el que yo tiendo a situarme en el lado de los carcas: creo que los riesgos pueden superar a las ventajas.

Cuando uno manifiesta recelos a la IAG, incluso si no son viscerales, se suelen oponer dos tipos de posturas, relacionadas, pero no idénticas. Una es que, históricamente, la tecnología siempre ha traído progreso y que estar en contra es un tipo de reaccionarismo. Por un lado, este argumento se basa en la idea de que “hasta ahora algo siempre ha sido así, luego siempre va a ser así”, que parece claramente falaz (y quizá tenga algún nombre en latín, pero yo no me lo sé). Por otro lado, estamos viviendo un momento de mucho debate sobre las consecuencias negativas de mucha de la tecnología reciente: la generalización de las pantallas obstaculiza el aprendizaje; la televisión, los videojuegos y los teléfonos móviles perjudican la socialización; las redes sociales dañan nuestra concentración y polarizan la sociedad, las aplicaciones para ligar han roto las relaciones… La tecnología puede conllevar perjuicios y una reflexión pausada no está de más.

La otra postura es la acusación de ludismo: se está en contra de la IAG porque va a quitarnos el trabajo. Y otra vez vendría la Historia, con mayúsculas, a nuestro rescate: la tecnología va a ayudarnos a hacer nuestro trabajo mejor, pues siempre ha sido así. Sin embargo, creo que esta comparación puede examinarse con algo más de detalle. Hasta ahora, además de en el ámbito de las comunicaciones, la tecnología en el ámbito laboral había venido a ayudarnos en tareas repetitivas, rutinarias (y generalmente físicas). Es decir, en tareas en las que el cerebro humano aportaba poco valor, por lo que su automatización prometía, además de mayor productividad, dejar un mayor número de cerebros humanos libres para dedicarse a otras cosas. Cuando escribí sobre la IAG en 2023, pensé, de forma muy optimista, que, dado que nos podía ayudar a escribir los textos más rutinarios y automáticos (documentos que nadie lee), quizá nos daríamos cuenta de que muchos de esos textos son poco necesarios en sí mismos y que encontraríamos una forma mejor de comunicar o archivar esos datos. Obviamente no ha sido así. Ahora escribimos textos con IAG que luego se lee una IAG y ya estaría, que se suele decir.

Pero, además, la IAG en el ámbito laboral se utiliza cada vez más para tareas con una parte creativa. Y, además, ha irrumpido en el ámbito de la educación, en el que las tecnologías recientes han desempeñado un papel especialmente peliagudo. Cuando le pedimos a IAG que nos dé información, le trasladamos una tarea creativa. Cuando le pedimos que encuentre y analice unos datos, le trasladamos una tarea creativa. ¿Por qué? Cuando buscamos nosotros la información, hacemos un esfuerzo mayor, desde luego. Consultamos diversas fuentes; si encontramos discordancias entre ellas, seguimos buscando y decidimos cuáles descartamos; además, encontramos información más o menos relacionada que nos despierta nuevas ideas e inquietudes. Al final, el conocimiento que adquirido lo hemos creado nosotros, a partir de un análisis de diversas fuentes. Cuando buscamos nosotros los datos, nos damos cuenta de los problemas que pueden surgir en su recolección. Y, cuando los analizamos nosotros, los conocemos bien; otra vez, podrán surgirnos nuevas ideas y, sobre todo, entenderemos el análisis que estamos haciendo. Es cierto que algunos aspectos pueden ser tediosos o repetitivos, pero, a pesar de ello, son valiosos. Creo que esto lo sabe cualquiera que haya tratado de informarse de algo en profundidad o haya querido hacer alguna investigación, de cualquier tipo. Pero no lo saben aquellos que no lo han hecho nunca, ya sea porque son estudiantes, ya sea porque se dedicaban a otra cosa y ahora han pensado que la IAG les da una serie de posibilidades que antes no tenían.

En mi opinión, delegar este tipo de tareas en la IAG conlleva una serie de problemas no despreciables, muy especialmente cuando te falta esa experiencia previa. El primero tiene que ver con la fiabilidad del contenido. Las IAG no son fiables al 100 %. No lo son y, mientras se basen en grandes modelos de texto, no lo serán, porque lo que hacen es generar texto de forma probabilística a partir de haber “leído” mucho texto (aunque luego puedan haber recibido otro tipo de entrenamiento más específico, no afecta a lo sustancial). Esto significa que la máquina es capaz de generar un texto que tiene sentido, pero no tiene ni idea de qué significa.

Para algunas personas, esto es irrelevante. Hay una corriente de pensamiento que se pregunta “¿qué diferencia hay entre una máquina que no sabe lo que dice pero dice lo mismo que podría decir un humano que sí sabe lo que dice?” y se responde “ninguna”. Yo creo que sí la hay. Hay una diferencia conceptual, que queda estupendamente explicada en este artículo. Si no les apetece leer un experimento mental en inglés, les explico yo esta diferencia. ¿Se acuerdan del signo lingüístico de Saussure? Sí, hombre, ese dibujito que unía el significante con el significado. La comunicación humana se basa en ese dibujito: en el emparejamiento de formas lingüísticas con significados. Y esos significados los almacenamos en nuestro cerebro por su relación con sus referentes, que percibimos con nuestros sentidos. La máquina no tiene forma de acceder al significado porque no tiene acceso a los referentes. De hecho, la metáfora según la cual ChatGPT es un loro estocástico falla un poco en ese sentido: el loro tiene la capacidad —aunque sea limitada— de asociar significados a las formas, pero ChatGPT no. (Bueno, creo que el loro la tiene. Supongo que sí, porque los pájaros son muy listos y, si los perros pueden, no veo por qué ellos no.)

 Representación del signo lingüístico tomado del Curso de lingüística general de Saussure
Representación del signo lingüístico tomado del Curso de lingüística general de Saussure

Esta diferencia conceptual no convence a aquellos que ven en las IAG inteligencias emergentes o algún otro tipo de magia. Pero esta diferencia conceptual es la que explica algo que es inherente a las IAG: sus alucinaciones. La IAG alucinan (fallan) porque encadenan texto de forma probabilística, no lógica o razonada. Y da igual que le pidamos al modelo que no se invente las cosas o que responda solo si lo sabe: ¡no sabe si lo sabe! Y el que ahora aporten fuentes es un avance, pero solo si las comprobamos.

El segundo problema tiene que ver con la exhaustividad del contenido. Este tipo de modelos reproducen necesariamente las ideas más repetidas en el conjunto de textos en que se entrenan. Esto perjudica a las ideas minoritarias, que muchas veces pueden ser las que nos lleven a algo nuevo: avanzar en el conocimiento requiere necesariamente una idea que contradiga la creencia más asentada. Además, recordemos que son cajas negras: no sabemos cómo se selecciona el contenido que nos dan, por lo que no sabemos lo que se deja fuera.

El tercer problema que veo no tiene que ver con el resultado que nos ofrece la IAG, sino con lo que ocurre en nuestro cerebro o, más bien, lo que no ocurre: cada vez que solicitamos una tarea creativa a una IAG, nosotros dejamos de hacer ese ejercicio intelectual. Y eso tiene consecuencias: aprendemos menos cosas, perdemos oportunidades de algunas ideas nuevas y nuestro cerebro irá dejando de saber hacer algunas cosas. Este tuit me parece muy acertado:

Por último, me extraña mucho la falta de aprecio por el propio trabajo intelectual que detecto en algunos entusiastas, que parecen pensar que su visión propia no aportaba mucho a la lectura de bibliografía o al análisis de sus datos. Y hablo de personas del mundo académico, no de alumnos de secundaria.

No quiero decir que la IAG no tenga ninguna utilidad o sea exclusivamente peligrosa. Desde luego que tiene utilidad, aunque creo que esta es mayor cuanto más experto se es en la tarea que se le pide, porque más críticos podemos ser con lo que nos ofrece y mejor podemos evaluarlo. Y creo que, si le pedimos una tarea que no sabemos hacer, deberíamos intentar entender cómo la hace. Me preocupa mucho que los jóvenes la usen de forma indiscriminada y creo que veremos los efectos nocivos de esto (si sobrevivimos al resto de cataclismos potenciales).

Pero muchos efectos nocivos ya están aquí. En el mundo científico, proliferan los artículos con bibliografía inventada. En el de la programación, el código que se está escribiendo es cada vez más complejo, pero no en el buen sentido de la palabra. Por otro lado, parece que los problemas de seguridad informática que pueden llegar a desencadena la IAG no son despreciables, aunque debo confesar que ahí ya entiendo poco. Y, si nos vamos al ámbito personal, resulta que charlar con máquinas que no paran de darte la razón y decirte que eres estupendo no te hace mejor (sorprendente, sí).

Por eso me sorprende un poco lo simplistas que son los argumentos para el entusiasmo, especialmente cuando vemos que una buena parte del público simplemente cree que han llegado unas herramientas mágicas que todo lo saben y todo lo pueden.


Ni limpia, ni fija, ni falta que le hace

Ha escrito Pérez Reverte una tribuna lamentándose por la pérdida de la función original de la RAE, en la que toma como hilo conductor el lema de esta, el célebre Limpia, fija y da esplendor. El artículo parece más bien un ejercicio de lavar los trapos sucios fuera de casa, pero aquí nos vamos a centrar en los argumentos sustantivos. Sin embargo, no me resisto a empezar comparando lo que dice don Arturo del origen del susodicho lema y la explicación de los propios académicos en el prólogo a su primera y magnífica obra, el conocido como Diccionario de autoridades, que contiene también una historia de la formación de la Academia.

Dice Pérez Reverte que «Limpiar, en el origen del lema, significaba depurar el idioma de usos incorrectos, confusos o innecesarios», pero en realidad los académicos lo veían de una forma algo distinta en 1726, pues describían su labor como «[calificar] la voz por límpia, púra, castíza y Españóla, por medio de su etymología, y autoridades de los Escritores; y al contrário, [castigar] por antiquada, ò por jocósa, inventada, ò usada solo en estílo libre, y no serio»; más adelante añade que la Academia «solo dá censúra à las que por antiquadas, nuevas, supérfluas, ò bárbaras la necessítan». Es decir, la Academia sí veía una necesidad de depurar el idioma de usos innecesarios (superfluos), como dice Reverte, pero no dice nada de incorrectos y confusos. Sí se habla de corrección y confusión en estas páginas iniciales del diccionario, pero siempre hablando de la ortografía, que, como saben los lectores de este blog y los lingüistas que tanto fastidio causan en la Academia, es una materia de naturaleza totalmente distinta a la de la lengua en sí.

En cuanto a la segunda parte del lema, nos dice don Arturo: «[…] la segunda palabra del lema, Fijar, no pretendía en su origen congelar la lengua, sino establecer consensos estables». Volvamos al prólogo de Autoridades: «Deciase tambien ser justo fijar la léngua, que (haviendo tenido à la Latina por Madre, y despues con la variedád de domínios padecido la corrupción que es notória) se havía pulido y adornado en el transcurso de los tiempos, hasta llegar à su última perfección en el siglo passado: y no era decente à nosotros, que logrando la fortúna de encontrarla en nuestros dias tan perfecta, no eternizassemos en las prensas su memória […]». Es decir, los académicos del siglo XVIII pretendían exactamente lo contrario de lo que nos dice Reverte: congelar (al menos por escrito) una lengua que había llegado a la perfección el siglo anterior. En defensa de Reverte, el objetivo que les atribuye es mucho más razonable, pero ahora es inevitable la pregunta de si tiene sentido defender que la Academia ha de mantener inamovibles sus objetivos fundacionales. Visto lo visto, se diría que no.

Sobre la tercera parte del lema no digo nada, porque la argumentación del académico resulta menos clara.

Aquí va un resumen de lo principal de la queja revertiana a partir de citas de su artículo: el problema radica en que «la Academia se repliega ahora hacia posiciones más descriptivas que normativas», porque, como defiende un «sector» compuesto sobre todo de lingüistas «la Academia registra el uso». Opone el otro sector —de escritores y creadores— que «[s]i todo uso mayoritario, por vulgar o incorrecto que sea, resulta automáticamente válido, la noción misma de corrección pierde sentido». Estas decisiones no se toman «tras un debate lingüístico profundo», sino «por presión externa» (entiéndase como el «simple uso») y por «un miedo general asentado en la RAE: miedo a parecer elitistas, conservadores o excluyentes en un ámbito cultural hipersensible». (Es decir, la academicita cobarde.) Esto «deja al hablante sin referencias firmes» y ¡«lo que es peor»!, permite que «[u]n tertuliano, youtuber o influencer analfabetos pued[a]n tener más influencia lingüística que un premio Cervantes».

Es decir, la preocupación de don Arturo está en que no se persigue la incorrección y en que los modelos de uso adoptados son poco modélicos. Da el académico pocos ejemplos de lo que dice —y cuando los da, están lejos de ser exactos: nos hace creer que la RAE no se aclara en la disyuntiva entre sólo y solo o entre guión y guion, pero la RAE tiene un criterio perfectamente fijado: solo y guion—. Además, tampoco define los conceptos que maneja; estos son dos ejercicios que suelen ser útiles para examinar cualquier argumento.

Así, lo primero que deberíamos preguntarnos es qué es la incorrección lingüística. Creo que la mayoría de los hablantes responderían a esta pregunta con alguna versión de «es incorrecto lo que no acepte la RAE», lo que nos lleva a un absurdo problema de circularidad. «La noción misma de corrección pierde sentido», se lamenta Reverte. Y tiene toda la razón: la corrección no tiene sentido en la lengua, porque no hay criterios objetivos que permitan establecerla. La claridad podría ser un criterio, seguro que piensa el académico, que se muestra muy contrario a los usos confusos. ¿Estaría de acuerdo entonces en que la RAE abrazara la concordancia plural de haber, que evita confusiones en casos como habían tesis, donde queda claro que se habla de una pluralidad, frente a había tesis? ¿O en que la RAE abogara por el uso de la terminación –emos por –amos en los pretéritos perfectos de la primera conjugación, que permite una claridad mucho mayor? Así, Nos casamos pasaría a ser solo una propuesta o un anuncio, mientras que Nos casemos describiría un evento pasado. Del tono de su artículo, sospecho que no. Pero esta podría ser una manera de suscitar un debate lingüístico profundo. ¿Qué hace incorrectos a esos usos, que permiten mayor claridad?

Supongo que ahí es donde Reverte introduciría la cuestión de los modelos lingüísticos: es correcto aquello que empleen determinadas personas, con alto nivel intelectual y cultural. Lo cierto es que Cervantes usaba vagamundo y Santa Teresa era laísta y ninguno de esos usos está sancionado favorablemente por la RAE.

Al académico le escandaliza sobremanera la importancia que le da la RAE al lenguaje de las redes: «Cuando la Academia […] legitima [el lenguaje de las redes]», «[l]a lengua deja de ser una conquista cultural, una herramienta cuidad y noble, y se convierte en reflejo automático del confuso ruido social». Otra vez, tiene toda la razón —a su pesar—, pues la lengua es exactamente eso: un reflejo automático del confuso ruido social. En el siglo xviii, cuando se fundó la Academia, la lingüística no era una disciplina científica (a pesar de lo cual los académicos de entonces tenían algunas posturas más rigurosas que las de Reverte), pero ahora, tras décadas de investigación en el cambio lingüístico y la historia de las lenguas, no se puede sostener una idea de corrección no arbitraria sin sonrojo. Los debates lingüísticos profundos se han tenido y se siguen teniendo: el estudio de la historia de la lengua nos muestra que a veces triunfan las formas novedosas y, a veces, las conservadoras; que en ocasiones se imponen formas más explícitas y, en otras, formas más ambiguas. El estudio del cambio lingüístico nos hace interesarnos por las causas lingüísticas que inspiran las innovaciones y los eventos sociales que las hacen triunfar o perecer. Y todo ello nos hace saber que predecir el futuro lingüístico es muy difícil, porque hay un elevado componente de arbitrariedad. Quizá esa y no la de una sociedad hipersensible sea la presión a la que están sometidos los lingüistas de la RAE: la de su bagaje profesional.

«El mensaje implícito es de resignación: la lengua cambia, y poco se puede hacer; sólo seguirle el paso, aunque sea cojeando». Así es y así lo ha sido siempre. (La coma que separa las oraciones coordinadas, como la tilde en sólo, son del académico, no mías. La corrección sí tiene sentido en la ortografía, por cierto, porque esta es una convención consciente para representar la lengua por escrito. Los académicos originales se propusieron fijarla y, desde entonces, en ello se sigue. Desde luego, tenemos derecho a rebelarnos: yo sigo tildando guión y lo seguiré haciendo, a sabiendas de que se me pueda acusar de ignorante: ya me defenderé.)

En mi opinión, aparte de lo arbitrario de la noción de corrección, nos encontramos con otros dos problemas en la argumentación de Reverte: la cuestión de la autoridad y la cuestión del elitismo. En el valor que les otorga a las autoridades Reverte sí coincide con los académicos dieciochescos. Al Diccionario de autoridades lo llamamos así porque está basado precisamente en eso, en autoridades. Esas autoridades son los ejemplos que los académicos usaron para refrendar sus decisiones sobre las voces incluidas en el diccionario y, al hacerlo, primaron a «los Autóres que la han parecido [a la Academia] haver tratado la Léngua con mayor gallardía y elegáncia» (atención a ese precioso laísmo), aunque en realidad incluyeron textos y autores de muy diversa condición. Nuestro académico se lamenta de que, debido a la laxitud de la RAE, el hablante quede sometido «a la proliferación de elementos con notable presencia pública pero con escasa formación cultural» (a saber, los tertulianos, youtubers e influencers). Me temo que esto no es culpa de la RAE: es el mundo en que nos ha tocado vivir. Cuando las alternativas culturales eran menos y estaban sobre todo basadas en la escritura, los escritores tenían un papel social y cultural mucho más importante que el que tienen ahora que la cultura audiovisual es la que triunfa. Podemos lamentarnos y podemos tratar de revertir el proceso, pero el proceso está en marcha y necesariamente tiene un efecto en la lengua. Hacer como que no está pasando no impedirá que pase, pero hará que las obras académicas pierdan vigencia. De todas formas, no seamos agoreros en exceso: por suerte, creativos y precisos con el lenguaje podemos ser todos.

La cuestión del elitismo está íntimamente relacionada con la de la autoridad, desde luego. Es cierto que se trata de un concepto muy denostado y que quizá no debería serlo siempre. Yo sí creo que se pueden establecer estándares culturales y que está bien que sean aspiracionales: es bueno que queramos saber y aprender. Pero, en cambio, no creo que la RAE se haya hecho menos elitista: de hecho, creo exactamente lo contrario. La Academia se ha hecho más elitista, pero en un sentido que me parece positivo. Las obras académicas, especialmente sus Gramáticas y Ortografías, son cada vez más complejas. Ofrecen información detallada, explicaciones razonadas y descripciones rigurosas y, aunque intentan hacerlo en un lenguaje accesible, lo cierto es que requieren un esfuerzo intelectual por parte de los hablantes que las consultan mucho mayor que el que hace falta cuando se nos informa simplemente de que «se dice X, no Y», a modo de Appendix Probi. Los que consultan las obras de la RAE pasan a ser hablantes mucho mejor informados, que disponen de los datos necesarios para tomar sus propias decisiones sobre qué usos aceptar y cuáles no. Tan terrible no parece.

Filóloga analiza inteligencia artificial. Lo que pasó después te sorprenderá.

Hace poco leí este artículo sobre inteligencia artificial (gracias, FDM), que es tremendamente pesimista con lo que esta nos puede traer. Por resumir: la destrucción de la especie humana —recomiendo la lectura para conocer los detalles, son interesantes—. Parece que el lema de nuestra época es «Elige tu propio apocalipsis». Hay que admitir que nos ha quedado resultón.

En el artículo se pone el foco —adecuadamente, creo—en un tipo de inteligencia artificial muy concreta: los grandes modelos de lengua (LLM por sus siglas en inglés: large language models). Y ya que, aunque solo sea por la parte de la segunda ele, ese es también un poco mi negociao, voy a opinar yo también. Me parece que el riesgo de estos modelos deriva de algo tan sencillo como que la lengua nos atañe a todos, nos interesa a todos; todos la entendemos y todos sabemos usarla. Una inteligencia artificial que detecta tumores cancerígenos nos beneficiará a todos, pero, como la mayoría de nosotros no nos dedicamos a detectar tumores cancerígenos, no tendremos mucho interés en utilizarla.

Con los modelos de lengua no ocurre eso, porque todos empleamos el idioma constantemente. Por lo tanto, estos modelos pueden sernos útiles a todos. Sin embargo, precisamente nuestra familiaridad con la lengua es la que puede ser la fuente del peligro de los modelos de lengua: enseguida pensamos que sabemos cómo funcionan, igual que sabemos cómo funciona nuestra lengua, pero… quizá nuestro conocimiento previo no es directamente aplicable a la lengua de las inteligencias artificiales. Por muchísimo que parezca que sí. Y esa va a ser una tentación difícil de superar.

En este podcast de Marta García Aller, Julio Gonzalo describía a ChatGPT como un cuñao estocástico, que se ha convertido en mi definición favorita. Es que explica muy bien cómo funciona: simple y llanamente, encadenando palabras una tras otras por estadística. Con ese “simple y llanamente” no pretendo desmerecer el funcionamiento de estos modelos, que tienen detrás un algoritmo tan complejo que literalmente nadie sabe cómo funciona. (Nadie. Tampoco los que la han creado. Mola, ¿no? NO.) Pretendo subrayar que lo que sabe hacer ChatGPT (o GPT-4 o cualquiera de sus amigos) es crear textos, textos que parecen humanos, pero no tiene control sobre el contenido de esos textos. No sabe si es verdad. No sabe si es coherente. No sabe si dice disparate tras disparate. El problema, claro, es que el humano que lo lea tampoco lo sepa. Porque, a quién queremos engañar, somos más de desconfiar del cuñao que todo lo sabe que de lo que leemos en una pantalla.

Estos modelos de lenguaje son la prueba viviente de las tradiciones discursivas, un concepto lingüístico que describe el hecho de que nuestros textos contienen muchas estructuras repetidas entre sí. Estas repeticiones evocan otros textos y, así, a base de evocaciones, forman una tradición de textos. El otro día estuve en una reunión en alemán en la que se pronunció un discurso sobre un tema que conocía. Con mi alemán estándar nivel usuario, en muchos pasajes era capaz de completar las frases cuando la oradora hacía una pausa. ¿Por qué? Porque conozco el tema y, sobre todo, conozco el formato. He escuchado un porrón de discursos en alemán a estas alturas de mi vida. Yo no sabría hacer uno bueno, pero mi cerebro ya tiene la función de autorelleno. Es decir, muchos fragmentos de las cosas que escribimos y decimos son predecibles: cuantos más textos hayamos oído y escuchado, mejor compondremos (y predeciremos) textos nuevos.

Lo mismo hace ChatGPT. Ha estado expuesto a un montón de textos, ha encontrado regularidades estadísticas y las sabe aplicar. Con una pequeña salvedad: ChatGPT no entiende esos textos. Y además no le importa. Le da igual decir verdades o mentiras: ¡no sabe lo que es la verdad ni la mentira! Muchas veces puede parecer que sí, porque los textos presentan cohesión temática (eso es algo que también se aprende), pero el ojo atento y, sobre todo, el ojo conocedor del tema, podrá detectar las meteduras de patas.

El ojo inexperto, sin embargo, podrá ser engañado fácilmente. Un texto bien redactado es ya un buen argumento a favor de su contenido, algo que sabe cualquiera que se sumerge en un tema que no conoce: le convencerán los argumentos de un lado y del otro si están bien expuestos, porque la capacidad crítica viene del conocimiento del contenido. (Paréntesis: seguramente no es el mejor momento para ir contra los contenidos en la educación primaria y secundaria. Nunca lo será, en realidad. Cierro paréntesis.)

Ahí radica el peligro de estos modelos de lenguaje: en su capacidad de engaño. No se trata de que quieran engañarnos, sino de que “su inteligencia” no es como la nuestra. Cuando crean un texto no lo hacen como nosotros, aunque lleguen a un resultado muy parecido. Son inteligencias inhumanas, como dicen Ferguson y también Klein (aquí, gracias a FIC). El problema en realidad es nuestro, que tendemos a creernos cualquier cosa que suene bien: es el poder de la retórica, como tan bien sabían los griegos.

Estos modelos pueden ser utilísimos. Nos pueden ayudar a redactar textos que tienen una estructura muy rutinizada, es decir, que siguen tradiciones discursivas muy asentadas. Cualquiera que tenga que escribir muchos informes sabe de lo que hablo: primero decidimos el contenido y luego… tenemos que redactarlo en un formato que ya hemos usado mil y una veces. Esa es una tarea que puede ser aburrida y que las inteligencias artificiales actuales pueden hacer bastante bien: dándoles unas instrucciones concretas redactan el texto y basta una lectura (¡cuidadosa!) para redondearlo. Una maravilla.

Pero los modelos de lenguaje no están ahí para ayudarnos a recabar información fiable de temas que desconocemos. Aunque pueda parecer que sí, por lo bien que lo dice todo, ChatGPT no consulta fuentes antes de construir un texto. Ese sigue siendo nuestro trabajo, al menos si queremos tener un conocimiento ajustado de la realidad. (Que digo yo que es lo que queremos, aunque a veces dudo.) ChatGPT y sus amigos solo combinan palabras que saben que van bien juntas. Pero lo mismo te puede decir una cosa que la contraria. Debe escribir unos discursos políticos magníficos. Quizá así se vea mejor el problema.

Querido Papá Noel: Este año quiero averiguar qué es una palabra

Puede parecer sorprendente, pero los lingüistas no las tenemos todas con nosotros a la hora de decir si algo es una lengua o no o si algo es una palabra o no. Pues vaya fraude, pensará usted. ¿No se ocupan precisamente los lingüistas de las lenguas y las palabras? Así es, sí. Y, precisamente por eso, de tanto mirarlas y pensarlas, sabemos que no es tan fácil ponerle límites ni a lo uno ni a lo otro. Sobre lo de las lenguas podemos hablar otro día, pero vamos hoy con las palabras. ¿Qué es una palabra?

Seguro que usted tiene una idea bastante intuitiva de qué es una palabra, pero me temo que esta vendrá mediada por la escritura. La primera respuesta que nos suele venir a la cabeza es que una palabra es aquello que se escribe entre espacios. Pero si lo pensamos un poco más a fondo, empezamos a verle problemas a esta definición. ¿Qué pasa con una palabra como me, que a veces va entre espacios (me gusta) y a veces no (podría gustarme)? ¿Y qué pasa con las lenguas que se escriben sin espacios o las lenguas que no se escriben? ¿No tienen palabras? Parece poco probable… De hecho, ante esa respuesta, podríamos reformular nuestra pregunta de partida, porque ¿qué criterio seguimos para decidir poner los espacios al escribir? Pues que sean palabras distintas, cuál va a ser. Y vuelta a empezar.

Otra respuesta posible podría tener que ver con cómo decimos las palabras. Seguramente podríamos estar de acuerdo en que cada palabra tiene su propio acento: su propia sílaba tónica o fuerte. Hasta que lo pensemos un poco más, claro. Otra vez el maldito me, que no tiene acento propio. Por mucho que escribamos me gusta, no decimos ME GUSta, sino me GUSta. Y hay otras palabras con dos acentos: decimos perFECtaMENte, aunque no escribamos perféctamente.

De hecho, las palabras como perfectamente son algunas de las que más problemas nos dan a la hora de clasificarlas como tales. Son palabras formadas por la combinación de otras dos palabras (o lexemas): palabras compuestas. Perfectamente viene de perfecta y… de mente, claro. En este caso el significado del compuesto ya no es transparente, porque mente se ha convertido en un elemento para formar adverbios (y los lingüistas ahora nos entretenemos decidiendo si las palabras resultantes son compuestas o derivadas, porque lo que nos gusta es discutir). Pero en otros casos la composición está muy clara: cuellilargo, sacapuntas, aguanieve… Todas estas palabras se formaron originalmente combinando dos palabras y ahora son palabras de propio derecho.

Pero crear palabras por composición puede ser un proceso largo, con estados intermedios, lo que causa cierta variación. Un aspecto en el que esta variación se ve muy claramente es la formación de los plurales. Por ejemplo, existen los plurales bajos relieves y bajorrelieves o guardias civiles y guardiaciviles. Como se ve, cuando el plural solo aparece al final, escribimos todo junto, mientras que, si cada elemento pluraliza individualmente, las escribimos separadas. Es decir, cómo se forma el plural es un criterio para decidir el estatus de palabra. (Más o menos, porque en los casos de guardias civiles hablamos de compuestos sintagmáticos, que es un poco como decir que son una única palabra pero no del todo). En cualquier caso, esto implica que tenemos dos posibles singulares: bajo relieve, bajorrelieve, guardia civil, guardiacivil.

Tenemos otro ejemplo muy navideño a mano, fíjense en este titular de hace unos días en El Confidencial:

Yo me sobresalté doblemente al verlo: primero por si la carencia papanoelística afectaba a mis regalos, claro, y, segundo, por el plural. ¿Papás Noel? Yo no lo he dicho así en mi vida, Hulio. Para saber si estaba sola o no en mi perplejidad, hice una encuesta en Twitter y, como se puede ver, la mayoría de las personas que respondieron afirman usar el plural papanoeles. Con lo que hemos explicado antes, este plural implicaría la grafía Papanoel en singular, todo junto. Papás Noel es la segunda opción más frecuente (pero está a años luz de papanoeles y, sí, he aprovechado para meter años luz, que forma el plural exactamente igual que Papás Noel). Papás Noel supone la grafía Papá Noel en singular, que es definitivamente lo que usamos todos (o casi todos, que de todo habrá). Otra opción menos popular es pluralizar ambas palabras, como si noel fuera un adjetivo (como en guardias civiles). Es lo mismo que ocurre con células madres, donde madre no es un adjetivo, aunque parece interpretarse como tal. Noel viene de un sustantivo francés, pero, puesto que en español solo lo usamos en el compuesto Papá Noel, tiene sentido que lo tratemos de una forma poco ortodoxa. Por último, algunas personas responden que mantienen la forma singular para el plural (los Papá Noel) o que, simplemente, evitan pluralizarlo. Normal, porque es un lío. (Y otros usan Santa Clos.)

El caso de papanoeles es precioso, porque esta forma del plural genera mucho consenso, pero la grafía que le debería corresponder, tanto en plural como en singular (Papanoel) seguramente generaría mucho rechazo. Criterios para ser palabra: ¡fight!

Admito que con Papanoel el problema surge poco. Es un problema morfológico-gráfico fundamentalmente estacional. ¿Pero qué me dicen del plural de de nada? A mí este me fastidia por lo menos una vez a la semana. ¿Y por qué narices pluralizamos de nada? Pues porque como respuesta a muchas gracias, muchas denadas queda fenomenal. Sale con una fluidez que da gusto. Al menos al hablar, porque luego lo quiere uno escribir… Y, claro, surge el problema. ¿Pero cómo lo voy a escribir todo junto, si en «singular» (comillas de que en realidad eso no es un singular) se escribe separado? Así que nosehablemás, yo abogo por Papánoel y por denada. ¿A qué Rey Mago se lo tengo que pedir?

El fantasma del verano (casi) pasado

A principios de año me propuse seguir escribiendo con regularidad en el blog, esta vez sobre las otras lenguas de España, y fracasé estrepitosamente. Mañana comienza el segundo semestre en la Universidad de Zúrich, así que hoy es un buen día para renovar propósitos. Pero, como hay que hacer las cosas poquito a poquito, suave, suavecito, hoy traigo la típica entrada de la vagancia: un resumen de algunos hits lingüísticos de mi verano.

Con esto de que el covid ya está integrado en nuestras vidas, han vuelto los congresos ¡y el trabajo de campo! Como ven, de esto último me alegro mucho (de lo primero creo que me alegraré más cuando retomemos un ritmo normal, porque por ahora hemos tenido una acumulación de eventos pospuestos absolutamente excesiva), porque el trabajo de campo es lo más disfrutable de mi trabajo, siendo mi trabajo muy disfrutable. Volvimos a la isla de La Palma, una semanita, casi cuarenta personas… Y fue increíblemente fructífero, además de divertido. Algunos de los alumnos de Zúrich que nos acompañaron han escrito sus impresiones y hallazgos en el blog del proyecto: ¡lectura recomendada!

Pasé una semana en Santander —con mis compañeras y amigas Ana Estrada y Elena Diez del Corral— dando un curso de verano en la Universidad Internacional Menéndez Pelayo. Además de unos alumnos estupendos y una experiencia muy enriquecedora y divertida —a quién no le gusta decir que ha cenado «en Palacio»—, hay que añadir que se nos caía la baba no solo con la comida (¡y los helados de queso!), sino con los leísmos —tierra fertilísima en leísmos, la cántabra— y los diminutivos en -uco, especialidad montañesa muy apreciada.

Este verano he pisado Centroamérica por vez primera y, aunque me encanta tooooodo de lo que dicen en Costa Rica (esa erre retrofleja —como la inglesa—; ese vosearte en San José y tratarte exclusivamente de usted en Puntarenas; ese baile de terminaciones verbales con los clíticos —acompáñelen por acompáñenle—), mi palabra favorita es, sin ningún lugar a dudas, «minisúper». La fusión de lo diminuto y lo excesivo en cuatro sílabas me parece magnífica. Dice el Diccionario de americanismos que se usa en prácticamente toda Centroamérica (¿qué pasa con Guatemala?) y en México y me parece poco. Abogo por extenderla al globo entero.

Minsuper Mercadito. Más no se puede pedir

Voy acabando, pero no sin antes mencionar algunas cosillas que han pasado este verano y me han hecho ilusión. La primera es que salí en Más de Uno hablando de acentos. Si os pica la curiosidad sobre el origen de las distintas formas de hablar español, a lo mejor os interesa. (Y digo yo que sí, porque es un poco de lo que va este blog…)

La segunda es que, por fin, por fin, tras años de reescribir, mejorar, aumentar y reducir la parte más grande de mi tesis doctoral, en agosto salió ya publicado el resultado final. Ha sido un proceso larguísimo, pero ha quedado genial y sale en una editorial muy prestigiosa, así que estoy encantada.

(Estoy encantada y se me nota)

La última, que es la más reciente, también tiene que ver con otro libro que acaba de salir. Este lo hemos editado juntas tres amigas y compañeras, la susomencionada Ana Estrada y Bea Martín:

Conspirando libros en un aula vacía de la UAM

Es un libro para todos los públicos —no como el anterior, me temo—, donde hemos juntado a un grupo de dialectólogos de pro para contar de una forma sencilla y asequible algunas de sus investigaciones sobre el español europeo rural. Con el libro queremos celebrar y acercar a todo el mundo el trabajo de Inés Fernández-Ordóñez y sus discípulos (afortunados nosotros), basado en el corpus COSER, que comenzó hace algo más de treinta años. Ya se puede encargar en la editorial Pie de Página (y podéis leer aquí la entrevista que nos han hecho para explicaros por qué el libro os va a encantar).

¡Con una vaca en la portada y prólogo de Inés Fernández-Ordóñez!

¡Medianoche! Cierro, que empieza el semestre nuevo.

El catalán y el gallego I: hablemos de vocales.

Por la presente y sin más solemnidad que la estrictamente necesaria —es decir, ninguna—, inauguro con esta una serie de entradas donde voy a hablar de cosillas que tienen nuestras lenguas vecinas, el catalán y el gallego. El objetivo es hablar de ellas como lo que son —lenguas—, ya que sobre todo estamos acostumbradas a oír de ellas como lo que no son —armas—.

Hace ya algún tiempo hablamos por aquí de las vocales del español, llegando a la conclusión de que tener solo cinco vocales es en realidad un poco aburrido y extremadamente mainstream. En realidad, tener siete u ocho, como tienen el gallego o el catalán, tampoco supone el colmo de la originalidad, pero nos puede resultar sorprendente, sobre todo porque el español tiene la suerte de tener tantas vocales como… letras para sus vocales. Tanto el gallego como el catalán tienen esas mismas letras, pero tienen más sonidos vocálicos, por lo que no se distinguen todos en la escritura (ambas lenguas usan tildes en algunas ocasiones para distinguirlas, pero nunca de forma sistemática).

Para explicar las vocales de estas dos lenguas creo que viene bien entender —y sé que me la estoy jugando: el que pase de este párrafo es un incondicional— de dónde venimos, es decir…: saber qué pasaba en latín.

Al principio de los tiempos, el latín tenía 10 vocales. Parecen muchas, pero en realidad podemos decir que tenían dos series de cinco vocales: las mismas que el español, pero una serie larga (escrita con una rayita por encima) y otra serie breve (escrita con un semicírculo por encima). En español, las vocales no se diferencian por su duración, pero en muchas otras lenguas sí: el latín era una de ellas. Básicamente, tenían una /a:/ que duraba más y otra /a/ que duraba menos, una /e:/ que duraba más y otra /e/ que… Bueno, ya lo van pillando. [Los dos puntos indican mayor duración.]

La cuestión es que ese sistema de diez vocales sufrió algunos cambios y acabó quedándose en un sistema de siete vocales, que es el sistema del que descienden las vocales de la mayoría de las lenguas romances (las excepciones son el sardo y el rumano). Lo que ocurrió fue que se perdió la diferencia de duración —que también llamamos de cantidad— y algunas vocales que sonaban parecido se fusionaron. En el esquema de abajo pueden ver ese proceso de fusión, donde habrá un par de cosas que quizá les sorprendan.

La primera es que quizá no saben qué narices es eso de /ɛ/y /ɔ/, que son los símbolos del alfabeto fonético para representar dos vocales más abiertas que la /e/ y la /o/ respectivamente, pero más cerradas que la /a/. Abran la boca para decir una /a/ y vayan soltando el aire continuamente mientras van adaptando su boca para decir una /e/. Paren antes de llegar. ¡Ese sonido (más o menos) es una /ɛ/! Y lo mismo pueden hacer con la /o/ y la /ɔ/.

La segunda cosa sorprendente es que, en vez de fusionarse las dos ues, las dos oes, etc., hubo un poco de batiburrillo: la i breve (ĭ) se fusionó con la e larga (ē) y lo mismo ocurrió con la u breve (ŭ) y la o larga (ō). Esto se debe a que, además de diferenciarse por su duración, en realidad las vocales latinas también se pronunciaban con una abertura de la boca un poco distinta, que permitió que se acabaran pareciendo más esos pares entre sí. Pero dejemos al latín ya en paz.

Simplificando enormemente, podríamos decir que el catalán y el gallego se quedaron con esas siete vocales y santas pascuas. Por ejemplo, en gallego, no es lo mismo oso, pronunciada con /o/ que óso,pronunciada con /ɔ/. La primera significa ‘oso’ y la segunda, ‘hueso’ (en los enlaces pueden escucharlas). Y lo mismo pasa en catalán, donde be (con /ɛ/) significa ‘cordero’ y (con /e/) significa ‘bien’.

Lo que ocurre es que esto es verdad solo a medias, porque este sistema de siete vocales en realidad se corresponde a las vocales que aparecen en… ¡sílaba tónica! ¿Cómo? ¿Las vocales del catalán y del gallego son distintas según tengan acento o no? (Ojo, que no estamos hablando del acento gráfico, de la tilde, sino del acento que hace que una sílaba sea más fuerte que otra). Volviendo a la pregunta: pues sí, pero no, pero sí. Vayamos por partes, empezando con el gallego.

En gallego, en sílabas átonas no pueden aparecer ni la /ɛ/ ni la /ɔ/. Y, en sílaba final, solo pueden aparecer tres vocales, la /a/, la /e/ y la /o/. De hecho…, eso es exactamente igual en español. Hay solo unos poquitos sustantivos que acaban en -i o -u en español y, en general, son extranjerismos —tribu, esquí, menú—. Igual que en gallego. (Sí, he especificado sustantivos, porque otros tipos de palabras van por otro camino.) Es más, el sistema vocálico del español y el gallego en realidad son paralelos: lo que pasa es que el español, en vez de conservar la /ɛ/ y la /ɔ/, ¡las diptongó! en gallego es pie en español y, como vimos antes, ósoen gallego es hueso en español. Y tan ricamente.

El catalán, en cambio, va por otro camino. Al menos parte del catalán, porque los dialectos occidentales (es decir, oeste de Cataluña y el valenciano) tienen un sistema átono idéntico al del gallego o el español. Pero los dialectos orientales, que son la base del catalán estándar de Cataluña, van a su bola. En posición átona reducen su sistema vocálico, sí, pero no es que se queden con algunas de las vocales que ya tenían, sino que también añaden una nueva.

El sistema átono del catalán es más reducido que el del español y el gallego, pues tiene solo tres vocales. La /i/ se queda tal cual; fusiona la /o/, la /ɔ/ y la /u/ en /u/, y amalgama la /a/, la /ɛ/ y la /e/ en una vocal distinta, que llaman vocal neutra: la /ə/ (también conocida como schwa). Esta es una vocal que se pronuncia por el medio de la boca, abriendo la boca ni mucho ni poco… Es decir, es como una vocal muy anodina, pero, por lo que sea, como que tiene gancho, no sé. No hay lingüista que no le ponga ojitos a una buena schwa.

En conclusión, las vocales del gallego, el español y el catalán salieron del mismo punto de partida (el sistema de siete vocales del latín), pero fueron tomando caminos ligeramente distintos, a pesar de que les afectaron condicionamientos muy similares (como el hecho de que la vocal sea tónica o no). Una última advertencia: en las dos lenguas hay diferencias dialectales que hacen que lo que he explicado no aplique exactamente a todas las variedades. En realidad, la historia de los tres sistemas es un poco más complicada (que si la diptongación, que si las vocales se influían unas a otras…). ¡Pero si sigo, pierdo hasta a los incondicionales!

Nota: para que puedan saber mejor cómo suenan todas las vocales de las que hemos hablado, aquí les dejo un enlace donde pueden escuchar los sonidos del alfabeto fonético internacional (AFI), aunque la verdad que los audios estos que se graban para ilustrar el AFI son algo exageradillos. ¡Pero muy entretenidos!

Ca padres, por Navidad

Acaban de entrar un montón de palabras en el Diccionario de la Lengua Española (las pueden consultar aquí) y acaba de salir un artículo mío sobre una palabra (¿dos?) que todavía no está. ¿Casualidad? Ya lo creo. La palabra en cuestión es ca, con el significado de ‘casa’, que han oído ustedes mil veces en ejemplos como estos (sacados del COSER):

  • Vamos esta noche en ca mi tía (Barrax, Albacete)
  • Comían a ca su suegra (Orellana de la Sierra, Badajoz)
  • Vas a buscarlas an ca los matanchines (Alaraz, Salamanca)

Estos usos en español se consideran vulgares y están bastante restringidos a las variedades rurales, aunque es una pena: fíjense en el francés, que con el mismo origen ha creado una preposición de lo más molona, chez. Ese origen de ca es fácil de imaginar: a partir de una secuencia como en casa de se empieza a producir un proceso de desgaste fonético: la preposición de se pierde con bastante facilidad (maestro escuela), entre otras cosas porque la d que aparece entre vocales se pierde con muchísima facilidad (cantao, to…). El paso de casa a ca es más raro: parece que hubo un paso intermedio cas, del que les hablo luego. Y luego queda una cosa interesante: la preposición que va delante. Si se fijan en los ejemplos de arriba, a veces tenemos en cuando normalmente diríamos a —porque es un verbo de dirección— o viceversa —con verbos estativos tenemos a—, y ¡hasta tenemos una preposición mixta an! Lo primero se debe a usos antiguos de la preposición en; lo segundo, quizá a una sobregeneralización de a, y lo tercero, a una fijación de la secuencia en ca, que al congelarse, puede aparecer precedida de otras preposiciones. Esta preposición puede incluso llegar a perderse (dando un resultado sintácticamente idéntico al chez francés):

  • Que es que voy ca Ceferina (Pedro Jiménez López, Cascarroteos y Repalandorias, 1912)

En el artículo investigo tanto la distribución dialectal de ca como su historia. Lo primero que llama la atención es la tremenda variación que se encuentra en español a este respecto. Consultando corpus de entrevistas orales y de textos escritos, así como los atlas lingüísticos encontramos que cualquiera de las formas posibles, ya sea ca, cas o casa, puede aparecer seguida o no de la preposición de y precedida de cualquiera de las preposiciones indicadas anteriormente en cualquier contexto o, incluso, sin preposición. Un caos, vamos. Pero en realidad el caos no es absoluto, porque sí hay algunos patrones más frecuentes que otros. La ausencia de de y el uso de en con verbos de dirección, por ejemplo, son mucho más frecuentes con ca que con cualquiera de las otras dos formas.

Otro hallazgo interesante que nos dan los atlas (aunque esta información es bastante parcial), es que las formas reducidas son frecuentes en todas las variedades peninsulares del español excepto… en la zona del navarro-aragonés. La ausencia de ca en español estándar, entonces, no viene de una cuña castellana —¿les suena? Sí, hombre, la hipótesis de Menéndez Pidal de que el español se extendió hacia el sur en forma de cuña desde Castilla—, sino que podría tener origen navarro-aragonés. No sería la primera vez que pasa. (Y, si esto les parece interesante, no puedo más que recomendarles vivamente el discurso de ingreso en la RAE de Inés Fernández-Ordóñez. Lo pueden leer aquí y/o ver aquí.) Ah, por cierto, en Canarias se prefiere la forma casa, pero cuando se usa la reducida, la más común es cas y no ca.

Estos datos vienen del Atlas Lingüístico de la Península Ibérica, del que ya hablamos aquí, y se los tengo que agradecer a Ana Estrada Arráez, que me los prestó en pleno confinamiento

El estudio de la historia de ca es difícil, porque su carácter vulgar o rural hace que sea difícil seguirle la pista en textos escritos… Salvo algunas documentaciones aisladas más tempranas, esta forma empieza a aparecer en los textos a partir del siglo XIX y siempre puesta en boca de hablantes de los estratos sociales bajos o en textos de la oralidad popular:

Estos datos vienen de todos los corpus textuales que pone la RAE a disposición de cualquiera

Pero los textos nos muestran algo muy interesante: la forma semirreducida cas fue bastante usada desde el siglo XV hasta el XVII y entonces no se considera necesariamente una forma vulgar… Miren, miren quiénes la usan:

  • Pássate por en cas de vn aloxero, y díle que me muero. (Lope de Vega, 1605)
  • Llevarte en cas de busconas es sola tu medicina […] (Francisco de Quevedo, 1621)

Y esta es un poco toda la movida. Que he pensado que de vez en cuando no está de más compartir las cosas académicas que voy haciendo. Y eso, que… ¡feliz Navidad!

Un par de palabras

Empiezo este post con el título de una canción de Hombres G, no porque Spotify acabe de decidir revelarnos ocultos secretos de nuestra personalidad nada sorprendentes, sino porque hace dos semanas exactas descubrí, bueno, confirmé, que mi nivel de alemán estándar es mucho peor del que todo el mundo se empeña en creer. Y una de las estupendas consecuencias fue aprender que la palabra Wort, que significa ‘palabra’, tiene dos plurales en alemán: Wörter y Worte. A ver, tener dos plurales no es lo más fascinante de esto, sino que cada uno de ellos ¡se refiere a una acepción distinta de Wort! Mientras que Wörter se refiere a ‘palabra’ en el sentido estricto, es decir, ‘unidad lingüística con significado’, Worte se refiere a ‘palabra’ como ‘discurso’.

Es decir, para una frase como «En esta oración hay tres palabras que no comprendo» usaríamos Wörter, mientras que en una frase como «Nos dijo algunas palabras de ánimo» usaríamos Worte. Por eso diccionario se dice Wörterbuch (como habrán adivinado, ‘libro de palabras’), mientras que para charlatán existe Wortemacher, que literalmente significa ‘hacedor de palabras’.

Este caso es muy parecido a uno que comenté aquí hace ya un lustro (se dice pronto): el de la contienda entre y sepo como primera persona del singular del verbo saber cuando significa ‘tener sabor’. Lo apasionante de estos casos es que en ellos es la flexión y no la derivación la que se emplea para marcar dos acepciones distintas. Esto no es muy común, sobre todo porque la flexión no suele presentar tantas alternativas morfológicas como la derivación. Es decir, para crear sustantivos a partir de verbos tenemos –miento (tratamiento), –ción (perdición), –azgo (liderazgo), –anza (templanza), entre otras muchas posibilidades, y podemos elegir entre ellas con cierta libertad.

Los morfemas flexivos, como los del plural, presentan muchas menos formas y estas suelen repartirse en virtud de criterios fonéticos o morfológicos bastante claros. El caso del plural del español es paradigmático (valga el chiste, que es para muy cafeteros): a grandes rasgos, las palabras acabadas en vocal toman –s (casa ~casas), las palabras acabadas en –s no cambian (crisis ~ crisis) y las palabras acabadas en otras consonantes o en semivocal toman –es (camión ~ camiones, rey ~reyes). El margen de error es muy pequeño: quitando algunos préstamos, que sí dan más problemas, también son problemáticas las palabras agudas que acaba en –í o en –ú (¿esquís, esquíes o esquises?, ¿menús o menúes?), pero son muy pocas.

Con las terminaciones de género viene a pasar lo mismo. El femenino presenta algunas posibilidades más de formación y genera algunos dobletes (como fuerza {motriz/motora}). De hecho, estos dobletes nos dan por lo menos un caso de diferenciación semántica: directriz, que significa’norma’, y directora, que significa ‘mujer que dirige’. Este es un caso equiparable al de Wörter/Worte, que también es posible en alemán porque en esta lengua del infierno maravillosa existe un buen puñado de morfemas del plural.

En fin, que un traductor se encontraría con un problema para traducir el título de la canción de Hombres G. Aunque en principio parece obvio que Un par de palabras debería ser Ein paar Worte, porque aquí palabras vale por ‘discurso, algo que decir’, en otra canción suya, No te tengo a ti, acuden a un interesante juego de dobles sentidos:

Para qué escribir canciones, a quién quiero mentir
Para qué un par de palabras, te quiero y no lloraré

Un par de palabras, Te quiero y No lloraré son títulos de canciones suyas, pero la oración resultante de esta lista de canciones también tiene una lectura literal que se aprovecha del hecho de que un par puede ser un indefinido (cuando significa ‘unas cuantas’) o tener un valor numérico concreto (cuando significa ‘dos’). En el primer caso, el alemán usaría Worte, pero en el segundo… creo que preferiría Wörter.

Así que cuando os digan lo de «El alemán tiene muchas cosas intraducibles, algunos conceptos solo se pueden decir en alemán, por eso es la lengua de la filosofía» podéis contestar ufanamente «Bueno, pero no daría para traducir bien a Hombres G, así que tampoco nos flipemos».

«No sé hablar»

Antes del verano me llamaron por teléfono para persuadirme de que contribuyera a una ONG (espóiler, teleoperadores del mundo: soy fácil de persuadir) y, ya no recuerdo a cuento de qué, la señora que me llamó me pidió perdón por su forma de expresarse, que «su marido le decía que no sabía ni hablar». Evidentemente, me ofrecí a extenderle un certificado explicándole al pieza de su marido que su mujer habla perfectamente.

Hace unas semanas leí esta entrevista a un futbolista, Fali (parece ser un estupendo futbolista, pero admito que yo no sabía quién era: espóiler, futboleros del mundo, no me sé ni la alineación del Atleti), donde aparece este fragmento:

Fragmento de la entrevista a Fali

Otra vez el infame «no saber hablar». Les informo: en el mundo hay muy pocos adultos que no sepan hablar. En el mundo hay muy pocas personas de más de… ocho años, año arriba año abajo, que no sepan hablar. No saber hablar es el resultado de un deterioro cognitivo importante, que no es el caso ni de Fali ni de la teleoperadora que me llamó. En este contexto, «no saber hablar» significa ‘no manejar la lengua estándar’, que es una cosa totalmente distinta. En este blog ya hemos hablado de la norma (y del cambio lingüísticodel usode que la lengua la hacen los hablantesdel papel de la RAE) y no somos ajenas al hecho de que no saber manejar la lengua estándar tiene penalizaciones sociales importantes, pero la más grave parece ser la de convencer a la persona que no la maneja de que… no sabe hablar. La falta de autoestima que conlleva esto es tanto más grave cuando nos damos cuenta de que las normas del estándar son absolutamente arbitrarias (desde el punto de vista gramatical, aunque no del social).

Vamos al caso que dice Fali, que es uno de mis favoritos. El me se ha caído. La regla mnemotécnica que menciona el futbolista la habremos oído todos alguna vez (o casi todos los españoles, porque este orden de los pronombres no se encuentra ni en Canarias ni apenas en América), pero no sirve para explicar nada. De hecho, las semanas no van antes que los meses: las semanas forman parte de los meses. Y, aunque lo fueran: ¿qué tendrá que ver eso con los pronombres átonos del español? NADA. NA-DA. ¡Ja!, siempre me escamó esa explicación y por fin me ha llegado la oportunidad de resarcirme. La cuestión es que no hay ningún motivo por el que la secuencia se me ha caído sea mejor que me se ha caído. Estas secuencias de pronombres no existían en latín, así que no podemos aducir un argumento etimológico. Nacen en las lenguas romances. Y ahí está la prueba de que la arbitrariedad gramatical del estándar: en italiano el orden estándar es el contrario: mi si é rotto un dente es como se dice ‘se me ha roto un diente’, pero literalmente es me se ha roto un diente (bueno, me se es roto un diente, pero ese es es por otras cosas que no vienen al caso).

Los lingüistas se han devanado los sesos para explicar los órdenes de los pronombres en las lenguas romances y, honestamente, estamos lejos de llegar a una regla elegante que te haga exclamar «¡Ah, claro, tal orden es el más lógico/eficiente/útil!». No. Son un caos. Son como son porque sí y podrían haber sido de cualquier otra manera, como nos demuestran las diferencias entre lenguas… y la variedad interna de las lenguas. Porque la demostración de que podrían haber sido de otra manera la tenemos en el propio español, que nos da los dos mundos posibles: aquel en el que las semanas van antes que los meses y aquel en el que los meses van antes que las semanas. Uno de esos dos mundos se convirtió en el culto y el otro se consideró vulgar, pero, desde el punto de vista de la eficacia comunicativa o la lógica del sistema, los dos son igualitos. Fali, habla usted divinamente. Simplemente usa una variedad a la que no le ha caído en gracia ser la variedad estándar, pero le puedo asegurar que las dos son exactamente igual de inexplicables. Y, además, no está usted solo: estas formas, aunque cada vez menos usadas, se usan en muchas hablas no normativas y son especialmente frecuentes en el oriente y el sur peninsulares (el levante y el mediodía peninsulares, por si me lee algún meteorólogo). Aquí les dejo un mapita a partir de los datos del COSER.

Dejo por aquí la referencia del artículo para el que hice el mapa, por si quieren saber por qué me apasionan los llamados «vulgarismos»

Pues eso. Que decirle a la gente que no sabe hablar sin haber pasado días tratando de averiguar los condicionamientos sistémicos del orden de pronombres del español es intrusismo laboral y…, venga, otro espóiler: sale regular.

La Palma: isla llena de gracia, de buenas horas y de vida

En esa isla bonita que es La Palma y que ahora está en las mentes de todos, teníamos puesta nuestra mente desde hace meses varios intrépidos filólogos , porque es una de las dos islas objeto de estudio del proyecto Rurican, que dirijo desde la Universidad de Zúrich, y con el que queremos recoger los cambios sociales y lingüísticos de las últimas décadas en la isla. La pandemia no nos había dejado acercarnos hasta allí durante el primer año del proyecto, pero el día 5 de septiembre pudimos aterrizar en la isla para empezar el trabajo de campo. Durante dos semanas hicimos entrevistas en las que, además de descubrir muchas cosas sobre la vida y costumbres de La Palma (y de comer divinamente, todo hay que decirlo), pudimos disfrutar de algunas maravillas lingüísticas que paso a compartir.

Por ejemplo, escuchamos la expresión de gracia, que significa ‘gratis’, pero que ya no es la forma más común de decirlo. La palabra gratis viene de un ablativo plural latino, es decir, aunque no contenga ninguna preposición viene a significar algo como ‘por las gracias’ (traducen Corominas y Pascual, no yo). Y es que, si se fijan, gratis puede ser un adjetivo o un… ¡adverbio! Es adverbio cuando decimos lo hicieron gratis. Y, si lo piensan, los pocos adverbios que no acaban en -mente en español tiene significados que parecen fundamentales cognitivamente hablando: espaciales (lejos, cerca), temporales (ahora, entonces), modales (así). Y luego viene gratis, que significa ‘sin pagar’. Que es un significado excelente, no me entiendan mal, pero no parece que se sitúe en el centro de la cognición humana. Pues gratis es adverbio porque lleva dentro ese ablativo original. En cambio, de gracia es ya una forma más castellana (es decir, menos latina) de decir lo mismo, con su preposición y su sustantivo, como debe ser. Y de este pequeño jaleo sale la mezcla de gratis, que con la preposición ya le da una estructura castellana a la cosa, pero se queda con la forma latina que, no nos vamos a engañar, es mucho más chic.

Aprendimos también una expresión que nunca habíamos oído (y que no encuentro documentada en los corpus de referencia más importantes del español): dar las buenas horas. Quizá lo hayan adivinado: es un sinónimo de saludar. Las buenas horas, por tanto, son los buenos días, las buenas tardes, las buenas noches… Eso de buenas horas lo usamos en algunas expresiones: ¡a buenas horas! significa que algo se hace con retraso, en buena hora o enhorabuena sonfelicitaciones, de buena hora significa ‘temprano’… Pero este contexto nos es desconocido y no parece estar documentado en otras fuentes. Hace poquísimo me preguntaba de dónde salía ese femenino cuando saludamos genéricamente con un ¡Buenas!, ¿será que lo que nos hemos comido es un horas? La verdad que merece la pena ponerse a indagar, aunque yo no sepa por dónde.

Un último ejemplo: nos encantó el uso de la palabra vida como sinónimo de ombligo: varias veces nos explicaron cómo las comadronas se ocupaban de cortar la vida (‘el cordón umbilical’) a los recién nacidos. Según el Diccionario Histórico del español de Canarias este uso viene de una etimología popular a partir de la forma portuguesa vide, que, efectivamente, hace referencia a una parte del cordón umbilical. ¿Que qué significa etimología popular? Pues se refiere al cambio fonético que sufre una palabra por influencia de otra que suena parecida y con la que tiene alguna relación de significado: por ejemplo, mondarina en vez de mandarina (ya que hay que mondarla) o vagamundo por vagabundo (¿por dónde se vaga, a ver?). La verdad es que la conexión entre ombligo (vide) y vida es más que evidente.

Si queréis saber algunas de las otras cosas que aprendimos, conté un par más en este hilo de Twitter. Y, si os parece interesante el proyecto, podéis seguirnos en nuestra cuenta de Instagram o consultar nuestra página web, que poco a poco irá teniendo más contenido, porque tengo dos compañeros (Elena Padrón y Antonio Corredor) que siguen allí, continuando su trabajo en unas circunstancias absolutamente excepcionales: muchísimas gracias a ellos y muchísimas gracias a todos los palmeros que siguen prestándose a colaborar y a ayudarnos para poder recoger las formas de vivir y las formas de hablar de una isla espectacular que está sufriendo tremendamente. Una isla que desde hace unos días nos ha hecho entender a todos lo que es de verdad un volcán. Una isla que nos hace reflexionar sobre la contradicción que entraña que la catástrofe terrible que es esta erupción resulte inevitablemente un espectáculo fascinante, porque no puede no serlo la tierra partiéndose para expulsar lava. Y una isla a la que, en cuanto se pueda, habrá que volver para visitar sus pueblos y recorrer su naturaleza, para comer sus plátanos, sus príncipes albertos y, sobre todo, su queso asado, pero no solo porque lo vayan a necesitar, sino porque bien lo merece. Que el próximo día de San Miguel le sea mejor que este.