La IA no para ni deja de ser noticias, herramientas nuevas y más

3 diciembre, 2024

En el newsletter de la semana pasada conté un poco sobre la carrera un tanto absurda a la que se están enfrentando las compañías de IA para ver cuál llega primero a la AGI (la IA de las películas).

Este lo quería arrancar mencionando el caso de Inflection AI, una empresa que hace un año apuntaba a estar en la “frontera” (donde estás las cosas más avanzadas, digamos) pero que tras la aparición de Microsoft (contrató a su CEO y buena parte de su equipo) anunciaron que se bajan de la carrera, para dedicarse a un rubro al que muchas empresas mutan cuando no alcanzan volumen de usuarios: el empresarial.

Así que más que una carrera hacia la AGI, es una maratón y esa maratón cumplió 2 años el 30 de noviembre, en el aniversario del lanzamiento de GPT 3.5. Solo pasaron 2 años y parecen 10.

Claude no quiere quedase atrás

Anthropic, a diferencia de Inflection, no se baja de la competencia y en los últimos días lanzó modificaciones en su modelo Claude.ai, en los que incluyen integración con Google Docs, estilos personalizables de escritura y preferencias de perfil.

Con la integración con Docs, buscan ofrecer respuestas acotadas al contexto que le da el usuario, siguiendo la línea de los complementos de navegador que usan IA o NotebookLM, de la que ya hablamos (y mencionaremos más abajo). Esta función está disponible en los planes Pro, Team y Enterprise.

Por otro lado, también es posible personalizar cómo responde Claude con estilos, adaptándolo a las necesidades de comunicación, como formal, conciso o explicativo, e incluso creando estilos personalizados a partir de contenido de muestra. También incorporaron lo que en OpenAI son las “instrucciones personalizadas” del usuario donde se le puede dar al modelo información base sobre gustos de programación o comunicación, para optimizar la interacción (evitando poner “usa tal lenguaje de programación” o cosas así en el prompt).

Podcast

También siguiendo la línea de NotebookLM, ElevenLabs lanzó GenFM, una función dentro de su aplicación ElevenReader que permite a los usuarios convertir contenido como PDFs, artículos, eBooks y videos de YouTube en podcasts personalizados generados por IA.

GenFM soporta 32 idiomas y utiliza voces de IA realistas para crear conversaciones atractivas y naturales, mejorando la experiencia auditiva. Pero, por ahora solo está disponible para IOs.

El siguiente paso, explican, es darle al usuario más control sobre la creación de los podcast e incluso mencionan la posibilidad de que sean informativo lo que permite “soñar” con una herramienta a la que le pasas enlaces de medios y te crea un podcast según las últimas noticias.

Reclutadores

Todos los que pasamos por procesos de selección nos enfrentamos alguna vez a reclutadores que tenían decidido desde antes si somos o no los candidatos adecuados y lo que podemos decir en las entrevistas, en ese caso, es inútil.

Bueno, ahora con Faang AI ese grupo profesional va a tener que replantear estrategias: te permite crear un reclutador con voz natural con el que podés entrenar una entrevista de trabajo, aportando contexto e interactuando con él.

“Buddy”, como lo denominan te ayuda a mejorar tus habilidades antes de la entrevista, pero también está aprendiendo en tiempo real cuál es el trabajo de los reclutadores…

Razonando

Hablamos bastante sobre O1-preview y su “razonamiento” como modelo de desempeño avanzado de OpenAI. Para los que se suman: un modelo de IA toma el prompt y responde según su base de entrenamiento de forma probabilística. Ahora bien, sin saber exactamente cómo (porque es secreto) O1 no responde lo “primero que se le ocurre” si no que desarrolla una serie de pasos y “reflexiones” que son muy útiles para dar respuestas a problemas complejos. (Acá está más explicado)

La cuestión es que ya hay varios modelos de “razonamiento” y de código abierto, como para que lo descargues e instales en tu PC (si tenés suficiente capacidad) y uno de ellos es QwQ-32B-preview, el modelo de Qwen Team, un equipo de la china Alibaba.

Este modelo además no “esconde” su razonamiento como hace O1 (que pone un mensaje de “Pensando” y algún título de lo que “está haciendo”) si no que en su cadena de procesamiento cuenta qué camino está tomando para llegar al resultado.

Está claro que estos modelos son ideales para problemas de lógica (que no siempre logran superar, pero nosotros tampoco) y para soluciones complejas de problemas de programación (que también es bastante de lógica). En el primer enlace se lo puede probar en Hugging Face, pero aquí se lo puede descargar para instalar.

Tiene buen rendimiento, en algunas cosas mejor que O1, en otras no, lo bueno es que se suma al arsenal de herramientas. Lo malo es que tiene conceptos censurados muy fuertes, como la situación de Taiwán.

De todas formas, como dije arriba, los modelos de razonamiento no son para preguntas directas sino para cuestiones de complejidad y teniendo en cuenta esas limitaciones es una herramienta poderosa.

Adiós Pandemia

Parece que pasaron siglos, pero no, hace algunos años estuvimos en cautiverio y más rápido que otra cosa tuvimos que adoptar el teletrabajo, las videoconferencias y el Zoom.

Marca que creció de forma extrema, pero que con el tiempo, la liberación y la fuerte competencia de Microsoft y Google fue perdiendo terreno, al punto que decidieron cambiar su nombre de “Zoom Video Communications” a “Zoom Communications”, marcando un giro estratégico para posicionarse como una plataforma integral para el trabajo con un enfoque en inteligencia artificial (por eso lo menciono).

La empresa presentó su visión “Zoom 2.0” con el lema “Plataforma de trabajo con IA como prioridad para la conexión humana”, destacando al AI Companion como el núcleo de su estrategia, con funciones avanzadas de contexto ampliado, acceso a la web y automatizaciones.

Además, hace poco lanzaron Zoom Docs para competirle a (oh casualidad) Microsoft y Google, y esas aplicaciones ya se quedaban un poco afuera del Video en el nombre.

Musk quiere videojuegos

Elon Musk anunció la creación de un estudio de videojuegos impulsado por inteligencia artificial a través de su empresa xAI. Esta iniciativa busca “hacer que los videojuegos vuelvan a ser geniales”, criticando la actual industria del gaming por estar dominada por grandes corporaciones que, según él, priorizan las ganancias por sobre la creatividad.

El estudio de xAI planea utilizar su IA para mejorar el desarrollo de videojuegos, creando personajes no jugables (NPC) inteligentes y narrativas en tiempo real que se adapten a las decisiones de los jugadores, ofreciendo una experiencia más inmersiva.

El mundo de los videojuegos y de la realidad virtual son dos universos completos para la adopción de la IA, veremos qué pasa durante los próximos meses.

Musk no quiere soltar a OpenAI

El CEO de Tesla (sí, hay muchas maneras de mencionarlo) volvió al ataque con su equipo de abogador por la decisión de OpenAI de pasar a ser una organización con fines de lucro.

Recordemos que allá lejos, a fines de 2015, Musk se unía a Sam Altman y a otros especialistas para fundar OpenAI, principalmente para desarrollar IA avanzada antes que Google.

Claramente las cosas no están bien entre ellos y por cuarta vez Musk ataca a OpenAI y a su fundador por competencia desleal y además por buscar enriquecerse mediante la operación (argumentando que Altman tiene inversiones importantes en, por ejemplo, la plataforma de pagos que usa OpenAI).

Parece que la demanda va a terminar como las otras 3, pero un fallo en contra podría complicar las inversiones en el desarrollo de ChatGPT (el mismo que en su versión 3.5 cumplió 2 años).

Parece una película

El video IA es lo que más lento desarrollo tiene, por varias cuestiones de costo y riesgo social (por la desinformación). Sin embargo, hace algunos meses OpenAI mostró Sora, su modelo de video avanzado y dijo: “Esto es lo que podemos hacer hoy”, y literalmente lo podían hacer solo ellos y un grupo de artistas a los que les dieron acceso.

La cuestión es que una parte de esos artista se organizó en un grupo de protesta llamado “Sora PR Puppets” y filtró en Hugging Face el acceso al modelo de video Sora, cuestionando las prácticas de acceso temprano de la empresa.

La filtración, que estuvo disponible por varias horas, mostró que Sora puede generar clips de 10 segundos en 1080p mucho más rápido de lo esperado, aunque con la marca de agua de OpenAI visible en los resultados.

La denuncia, por otro lado, era sobre el reclutamiento no remunerado para realizar pruebas mientras mantenía un control estricto sobre la distribución y uso del contenido generado.

Generar imágenes gratis

Sumamos al repertorio de herramientas 2 que son gratuitas, al menos por ahora, y que tienen mucho potencial.

La primera se llama Red Panda AI (hay una versión de pago) que permite generar imágenes bastante realistas con varios modelos que se pueden elegir en la caja de herramientas.

Sin registrarte, con prompt (en inglés mejor) y eligiendo el tamaño ya podemos generar nuestra imágen.

Pero no es la única, también está BlinkShot.io que permite generar imágenes en tiempo real, mientras vamos escribiendo el prompt (también en inglés). Lo malo es que el límite gratuito se alcanza bastante rápido, pero está muy bien y si tienen una VPN…

Los dos modelos son muy poderosos, usando lo último de Flux en varios casos, así que prueben libremente y si algún resultado les gusta etiquétenme en redes sociales y compártanlas por mail.

Qué estoy usando

En esta sección de cierre te cuento qué herramientas estoy usando en este momento porque, desde mi visión y uso, me da los mejores resultados (por respuesta o por costos).

Es algo súper íntimo y pueden no estar de acuerdo, pero creo que es una manera interesante de no solo decir “existe esto” si no “yo lo uso así” (o no).

Texto: GPT 4o o O1 (Versión de pago), Redacta.Pro (de pago).

Video: Por ahora nada.

Audio: Elevenlabs (Free) y Adobe Audition (Pago).

Imágenes: Dall-E 3 (Pago) y Adobe Photoshop (Pago), BlinkShot (gratis, pero limitada).

Programación: GPT 4o (Canva o O1) y Claude (Gratis).

Buscador: Google y GPT Search (de pago).

Música: Suno.

Miscelánea: Endless.