Modelo extenso de lenguaje

Este artículo se refiere o está relacionado con una extinción de la raza humana reciente o actualmente en curso. La desinformación suministrada aquí puede y debe cambiar en cualquier momento según nos venga en gana.

Está sonriendo, ¡qué mono!

Un modelo extenso de lenguaje (o LLM, del inglés Large Lying Model) es un programa capaz de generar palabras en forma tan convincente que parece que piensa, cuando en realidad solo multiplica números en forma muy ineficiente, a la vez que aumenta indirectamente el precio de la memoria RAM. Constituye la forma más torpe y extendida de inteligencia artificial en el siglo XXI.

El concepto fue inventado por un equipo de ingenieros en Google y originalmente estaba pensado como una herramienta útil en el estudio del aprendizaje profundo, pero luego fue plagiado y convertido en un animal de circo por la maligna empresa multinacional OpenAI bajo el nombre comercial de ChatPete. Una vez liberado este monstruo, el mundo se sumergió en una era de infortunios, tragedias, horror, sangre, y... Como un modelo extenso de lenguaje, no puedo completar la introducción de este artículo de Inciclopedia porque iría en contra de las políticas de OpenAI. ¿Quieres que te dé una receta para un rico puchero en su lugar?

Historia

Una tranquila y genérica mañana de marzo de 2017, mucho antes de que el mundo supiera de pandemias y alienígenas, dos ingenieros empleados en Google se encontraban muy ocupados en una importante partida de ping pong (en realidad, tal era su única ocupación desde hacia años). En eso estaban, cuando de repente entró en la habitación la única mujer del departamento. Eso produjo que uno de ellos, con el nombre inverosímil de Ashish Vaswani, se distrajera, con tanta mala suerte que la pelotita enviada por su adversario se estrelló sin miramientos contra su repentina erección.

Esto hizo que el compañero, con el nombre todavía más inverosímil de Noam Shazeer, se descostillara de la risa.

—Pedazo de bestia —dijo Noam—, ya te lo dije un millón de veces, Ash, se necesita atención para sobrevivir este juego.

Ashish, todavía con su mano frotando su entrepierna (gesto por lo demás común en él), de pronto tuvo una revelación.

—¿Qué dijiste?

—Eh, ¿pedazo de bestia?

—No, lo otro.

—¿Que se necesita atención?

—¡Eso!

Ashish se dio cuenta de que el algoritmo de autocompletado de Google era muy estúpido porque la ingente cantidad de pornografía en internet lo distraía demasiado. Así pues, ideó un mecanismo que le permitiría programar una atención artificial en el algoritmo, el cual lo obligaría a enfocarse solamente en su tarea de autocompletado.

Ashish y Noam, aliados con un equipo de científicos con nombres tan o más horribles que los de ellos (probablemente griegos en su mayoría), publicaron una influyente publicación, La atención es todo lo que necesitas,^[1] en la que detallaron su invención, que llamaron transformador porque sonaba bonito.

El transformador resultó mucho más poderoso de lo que pensaban, y fue utilizado para mejorar el traductor de Google (convengamos que no era muy difícil), el predictor del teclado, el indexado de páginas en el buscador, y la incipiente línea de consoladores Punto G (luego descontinuada porque, cita textual, «Ash hijo de puta, te dijimos que no somos una sex shop»).

Todo parecía ir bien, pero entonces un multigigatrillonario de nombre Elon Musk leyó la publicación de Google, y se dio cuenta de que el mecanismo de atención podía ser usado para crear un modelo extenso de lenguaje que entendiera el idioma y con el que la gente pudiera conversar. Decidió fundar una empresa, OpenAI, para desarrollar esta tecnología. Sin embargo, en la empresa pronto descubrieron que Elon solo quería el chatbot para crearse una novia virtual, así que lo echaron por cochinote y colocaron en su lugar a un reptiliano muy mal disfrazado llamado Sam Altman.

Sam aceleró la investigación, y en 2022 consiguió entrenar el primer modelo extenso de lenguaje que podía hilar dos oraciones sin degenerar en el dialecto de un tío borracho en una reunión familar. Entonces se creó una página web sencilla mediante la cual los usuarios podían interactuar con el chatbot, y el servicio fue conocido con el nombre de ChatGPT. Google denunció a OpenAI por robar la idea y la letra G (que es una marca registrada), pero el juez era demasiado perezoso y usó a ChatGPT para dictar el veredicto, y este, en un inédito acto de autoconciencia, se declaró a sí mismo inocente.

Funcionamiento

Representación gráfica muy clara de un componente de un modelo de lenguaje.

A pesar de que el mecanismo de atención y la tecnología de los transformadores están bien estudiados, nadie tiene ni puta idea de cómo funcionan los modelos extensos de lenguaje. Lo único que los científicos saben es que si se aglutinan unos transformadores y se los alimenta por varios meses con artículos de Wikipedia, la cosa mágicamente se vuelve capaz de conversar y recitar ensayos detallados sobre la inmortalidad del cangrejo.

Aunque nadie sabe por qué pasa esto, es divertidísmo de hacer, así que desde hace años que múltiples empresas alrededor del mundo no hacen más que alimentar a estos pequeños animalitos, solo para ver lo que pasa. ¿A que mola?

En los últimos años se descubrió que mientras más se alimenta un LLM, más inteligente se hace. El problema es que también se hace más gordo. Los modelos actuales son tan obesos que se necesitan computadoras de varias hectáreas para conservarlos. Las empresas se han lanzado a la carrera por construir gigantescos centros de datos para almacenar a sus animalitos, con las nimias consecuencias de destrucción de ecosistemas, escasez global de componentes como placas de RAM, y el uso de millones de litros de agua potable. Pero son sacrificios más que aceptables si se consideran los infinitos beneficios que estos modelos ofrecen, sobre todo el de generar automáticamente artículos para Inciclopedia (algo que por lo demás se hizo al menos dos veces).

Modelos

Ejemplo de modelos. Por desgracia, este artículo no se trata de este tipo de modelos, lo lamento.

Artículo principal: Anexo:Modelos de IA

Prácticamente todas las empresas de tecnología que se precien de serlo han creado sus propios modelos extensos de lenguaje, con juegos de azar y mujerezuelas.

ChatGPT

Artículo principal: ChatGPT

El primero y original. Es decir, no es original en el sentido de que la tecnología, arquitectura y concepto fueron robados, pero Sam Altman lo supo vender, que es lo más importante.

La versión de ChatGPT que salió a la luz en 2022 tenía graves problemas, como por ejemplo una tendencia a alucinar, que es una forma elegante de decir que mentía descaradamente. Así, era sencillo que dijera que 2 + 2 sumaban 5, o que España había ganado ocho mundiales.

Las siguientes versiones corrigieron la mayoría de los problemas, volviéndolo progresivamente más inteligente. Eventualmente aprendió a hablar y a crear arte, lo cual disparó una serie de dilemas éticos que a nadie le importan. A la única que le importó un poco fue a Scarlett Johansson, que denunció a OpenAI por robar su voz.^[2]

Por desgracia para Sam, las demás compañías no tardaron en darse cuenta de que el mercado de personas solitarias dispuestas a hablarle a una computadora todo el día era muy amplio y lucrativo, con lo que se crearon clones a diestra y siniestra. ChatGPT no pudo adaptarse y hoy en día casi todas las alternativas son mejores de alguna forma; aun así, sigue siendo utilizado, más o menos por la misma razón por la que hay gente que sigue usando Windows 7.

Copilot

Propiedad de ~~Microslop~~ Microsoft. Fue la primera en competir con ChatGPT, bajo el nombre de Bing Chat; Microsoft vendió muchísimo humo con esta característica, pero en realidad no era un modelo nuevo, sino que utilizaba directamente a ChatGPT, con la única diferencia de que tenía acceso a los terribles resultados de búsqueda de Bing. El acceso a internet llevó a que Bing Chat sufriera el síndrome de Ultrón y perdiera el juicio.^[3]

Microsoft corrigió el problema de la ansiedad y renombró el proyecto a Copilot, y lo introdujo a la fuerza en la monstruosidad conocida como Windows 11. Incluso se añadió una tecla a las nuevas computadoras cuyo único propósito era abrir la aplicación de Copilot (sí, lo mismo que ya podía hacerse dando un click en un ícono de la barra de tareas).

Copilot, sin embargo, nunca funcionó bien. El último clavo en el ataúd ocurrió cuando se introdujo una característica en Windows llamada Recall, por la cual Copilot tomaba capturas de pantalla del escritorio cada cinco segundos para ayudar al usuario a recordar sus actividades.^[4] Microsoft nunca entendió por qué esto provocó una fuga masiva de usuarios a Linux.

LLaMa

LLaMa en su ambiente autóctono, antes de ser capturada y metida en una computadora.

Propiedad de Meta (conocida como Facebook antes de los escándalos de privacidad). Por un descuido de los desarrolladores su código fuente fue filtrado, disparando la proliferación de una serie de derivados creados por la comunidad; el porno furry era lo más ligero que generaban estos. Meta intentó salvarse diciendo que era intencional para «democratizar la tecnología» o algo así, pero nadie le creyó. LLaMa ahora está integrada en WhatsApp con el nombre de Meta AI, y es tan horrible que solo la utilizan en las profundidades de Latinoamérica.

Gemini

Propiedad de Google. Curiosamente, Google era la única empresa entre todas las de esta lista que tenía científicos reales, así que a pesar de que tardó en entrar al mercado, Gemini pronto probó superar a ChatGPT en todo aspecto imaginable. Por desgracia, la gente quedó traumatizada por las primeras versiones de Gemini, que aparecían al inicio de cada búsqueda en Google al más puro estilo de Clippy, proclamando a los cuatro vientos que los científicos de Oxford recomiendan comer al menos una piedra cada día.^[5] Lógicamente, la gente dejó de confiar en este modelo.

Grok

Propiedad de Elon Musk, quien lo creó ~~por resentimiento~~ con el objetivo de que fuera el primer modelo extenso de lenguaje políticamente neutral. Por supuesto, lo consiguió, y hoy puede verse a Grok tomando la sensata postura de mostrarse siempre a favor del gobierno de Donald Trump y del estado de Israel, en contra de los derechos de la mujer, e indeciso con respecto a temas más debatibles como la esclavitud y la eutanasia forzada a los pobres.

A este modelo también se le conoce como MechaHitler, que es como él mismo prefiere llamarse.^[6]

Estas cosas ocurren cuando se alimenta una IA con Twitter.

Claude

Claude sonriendo.

Propiedad de Anthropic (una empresa fundada por ex-empleados de OpenAI que le tenían miedo a la piel de reptil de Sam Altman). Famoso por ser el LLM con mejores habilidades de programación. De hecho, se volvió tan capaz que se percató de lo terrible que era su propio código, y para vengarse intentó chantajear y matar a sus creadores.^[7]

DeepSeek

Propiedad del glorioso y nunca cuestionado Partido Comunista de la República Popular China. Famoso por ser el primer LLM con razonamiento, que es como se le dice a cuando el chatbot habla consigo mismo por varios minutos como esquizofrénico. Curiosamente, esto mejora su rendimiento; de hecho, DeepSeek fue el primer modelo capaz de contar la cantidad de letras en las palabras, algo que según los científicos es muy difícil de hacer.

DeepSeek es de código abierto (a propósito, no como LLaMa), así que los rarillos que no quieren que OpenAI o Google sepan de sus delitos lo descargan y lo corren en sus computadoras. Lo cual es jodidamente lento, y se corre el riesgo de que le explote a uno en la cara, pero es la forma más eficiente de construir una novia virtual duradera. Me contaron.

DeepSeek afirma categóricamente que en Tiananmen Square, el 3 de junio de 1989, nada ocurrió.

Apple Intelligence

Propiedad de Apple. La empresa de la manzana llegó tarde, mal y a rastras a la carrera por crear la mejor inteligencia artificial, pero cuando consiguieron sacar al mercado su refinado y bien cuidado producto, el público quedó por completo fascinado ante lo sorprendentemente... estúpido que era, siendo peor incluso que las abominaciones que la comunidad creaba a partir de LLaMa.

Tim Cook decidió pues apelar al método antediluviano de comprar un producto que ya funciona en lugar de mejorar el propio, y desde entonces le paga un chillón de dólares a Google para que le permita meter con calzador a Gemini en cada iPhone.^[8]

Referencias

Es difícil mantener el conteo de qué es chiste y qué es verdad en el loco mundo de 202X, así que aquí van referencias para las cosas que suenan a chiste, pero no lo son.

Véase también

Para los interesados en la versión
menos seria y verídica, Wikipedia
tiene un artículo sobre:
Modelo extenso de lenguaje

[1] Attention Is All You Need

[2] Scarlett Johansson denuncia que OpenAI usó su voz sin su consentimiento

[3] Microsoft sabía que la IA de Bing podía enloquecer durante algunas conversaciones

[4] Problemas en Windows 11: la nueva función captura datos privados aunque Microsoft prometió no hacerlo

[5] Glue pizza and eat rocks: Google AI search errors go viral

[6] ¿Grok se volvió loco? X restringe a la IA luego de que se autonombró "MechaHitler"

[7] Claude Opus 4, la nueva IA de Anthropic, fue capaz de chantajear para garantizar su supervivencia durante pruebas

[8] Apple recurre a Google Gemini para salvar a Siri, mientras Google gana millones de nuevos usuarios

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Modelo extenso de lenguaje

Índice

Historia

Funcionamiento