Antes de arrancar, vamos a recapitular un poco. Hace menos de un par de años arrancó la ola de la inteligencia artificial generativa (IAGen). No de la IA, porque eso viene desde el principio de la computación así que tenemos que hablar con propiedad.
Aquel final de noviembre de 2022, cuando salió el GPT que cambió las reglas de juego la IAGen se popularizó y más rápido que despacio se incorporó a varias tareas y profesiones: resúmenes de texto, traducciones, generación de imágenes, audios, etc.
Lo que estamos viendo en estas últimas semanas es un salto cualitativo en ese avance (miren que no pasaron 2 años aún) con nuevos modelos capaces de “razonar”, modelos capaces de hacer videos mejores que muchas producciones de cine y también modelos capaces de “hablar casi como un humano” (o mejor que muchos).
Novedades de OpenAI
-Cuando empezó la moda GPTs, lo que impresionaba en su momento era la generación espontánea de una respuesta, producto de una cadena algorítmica que unía una palabra a la otra y formaba una frase más o menos coherente (más o menos cierta).
Pero no dejaba de ser eso, una respuesta estadística producto de leer millones de textos y sacar probabilidades. Esto, con la mejora de los modelos, fue cambiando (para mejor) y en los últimos días salió O1, el modelo que “razona”. Y uso las comillas porque en realidad no está muy claro qué es lo que hace. Lo más probable (suposición razonable) es que se tome “un tiempo para pensar” y en realidad esté generando en vez de una respuesta 10 o 100 y un segundo modelo elija según su entrenamiento la “mejor”.
También se nota que puede haber una interacción entre esas dos capas de IA (la normal y la que supervisa, digamos) que un poco también recuerda a los experimentos con AutoGPT o similares (sistemas que conectaban dos IAs y una recibía la orden y corregía los prompts que la otra generaba hasta llegar a un resultado que el usuario humano aprobara).
En fin, OpenAI lanza y seguramente los diferentes modelos comerciales o abiertos apliquen sus propias soluciones siguiendo esta guía de trabajo (hasta que aparezca algo mejor).

-Lo segundo y que lamentablemente se perdió un poco el hype inicial es que los usuarios premium ya pueden interactuar con el nuevo modelo de voz, que está bueno, es más natural (aunque medio duro en español). En las próximas ediciones les cuento cómo me va con ese modelo en la traducción en simultáneo en italiano (voy a estar una temporada en estas latitudes).
-Lo tercero y más técnico es que liberaron la API para trabajar en tiempo real con su modelo de voz (el del punto anterior). Sin ponernos técnicos, lo que se puede hacer es conectar esta tecnología de OpenAI a cualquier aplicación o sitio web. Pagando, obvio, y el costo al menos por ahora es bastante alto.
-También, como datito de color, está en beta la aplicación de GPT para Windows, no incorpora o al menos no vi nada nuevo, pero para el uso diario es más cómoda que tener que buscar el sitio.
La carta Google
Hace un tiempo estaba en beta para Estados Unidos NotebookLM, una herramienta de Google que permitía armar carpetas de archivos y poder hacerles preguntas con IA, pedir resúmenes, etc. Bueno, la liberaron y ahora también puede usar los documentos para armar un podcast en el que 2 “personas” debaten la temática de nuestros documentos (solo inglés).
La herramienta, en base, recuerda a Pinpoint (una herramienta de investigación que puede armar colecciones de hasta 200.000 archivos) que conectaron en beta a Gemini y podía establecer algunos patrones, responder sobre los documentos, pero no a este nivel.
La actual versión con su podcast en inglés, a algunos usuarios ya les permite generar un podcast y editarle voces y datos de guion o centrarse en algunos puntos particulares de los documentos (por lo que se podría tener capítulos sin crear nuevas colecciones). Además en breve se viene una versión mejorada y con foco en empresas, así que tendremos cosas nuevas para probar por ahí.
Dato curioso: en una de mis pruebas el podcast simuló una conversación donde una de las voces decía: “recuerdo haber leído ese caso en XXX” que era el documento que di de fuente, no sé, me gustó el detalle.
Como todo, si van a compartir documentos privados, suma precaución. La opción que podría ser más segura es ChatRTX (pero hay que tener una compu con una RTX de NVIDIA 3040 o superior).

Meta se ve bien
Mencionamos en otro newsletter que Llama (el modelo de Mark Zuckerberg) estaba bien posicionado y bueno, ahora están innovando en video con un nuevo modelo llamado: Meta Movie Gen.
Se pueden ver ejemplos en el sitio, o en este video en X (hay varios).
Los resultados se ven bastante bien y ya está en manos de creadores de la industria del cine a fin de perfeccionarse y lanzarse en 2025. Seguimos a la espera también del lanzamiento de las herramientas como Sora de OpenAI o ver qué es lo nuevo que se puede hacer con Premiere de Adobe.
Oh la, lá, señor francés
Los franceses de Mistral lanzaron dos modelos pequeños con foco en ejecutarse en moviles de alto desempeño y con muy buenos resultados. Se llaman Ministral 3B y Ministral 8B.

Los costos de ejecutar estos modelos en los servidores de ellos también son bajos, de 4 a 10 centavos el millón de tokens, lo que abre el juego a un modelo competitivo para aplicaciones de terceros (como 4o-mini de OpenAI que cuesta 15 centavos el millón). ¿Qué tan cerca estamos de descargar uno de estos modelos y cargarlo en un dispositivo conectado a una casa (domótica) para que gestione todo sin tener que programar nada? Si les interesa el tema podemos indagar un poco más…Mensaje M. S. Decker Díaz
La envidia no se queda atrás
Para cerrar este “estado del arte”, Nvidia (mencionada ya arriba) presentó su versión “modificada” de Llama teniendo resultados superiores en algunas pruebas a los modelos más populares del mercado.
Se llama Nemotron, es relativamente chico y como Llama está disponible para descargar y ejecutarlo (siempre que se tengan los equipos necesarios).
También se puede probar en la página de la empresa en este enlace; no deja de ser otra opción para tener algunas respuestas con cierto grado de razonamiento. En resumen lo que este modelo hace es tener más depurada la parte de respuestas razonables.
Que explote todo
Vi en X que algunos de mis conocidos aún no habían “explotado” nada con IA, así que les dejo acá la herramienta.
Se llama Pika y con sus Pikaffects se generan esos contenidos. Más allá de lo divertido de verlos, tengan presente el detalle que se logra al aplastar algo y cómo se deforman las imágenes con un realismo bastante bien logrado.
Bueno, hasta acá por hoy, me pareció necesario “ponernos al día” así en el próximo newsletter volvemos a recomendar herramientas, con tutoriales y alguna sorpresa. Nos leemos.