Cursos y eventos, anuncios de Google y muchas noticias

21 mayo, 2025

Qué semanitas tuvimos… Muchos anuncios técnicos, algunas herramientas muy interesantes para incorporar en nuestros proyectos y también varias oportunidades de capacitación en los próximos días para agendar.

Hay que formarse

Mañana la gente de la Google News Initiative dará una capacitación sobre NotebookLM, la herramienta que sirve para interactuar con los documentos propios (responder preguntas, buscar conexiones, etc.) y que es muy popular porque permite generar podcast con IA en español.

La capacitación es gratuita y se puede ver en este enlace de YouTube desde las 15 horas de Argentina. Estimo que para los que no puedan estar en vivo va a quedar el video, pero los vivos son una gran oportunidad para hacer preguntas.

Otro evento en vivo es el congreso del Foro del Periodismo Argentino, que tiene fecha doble para el 13 y 14 de junio bajo el título “Inteligencia Artificial y periodismo: la alianza posible”. Se puede ver toda la información del evento que se realizará en Córdoba en este enlace. Hay charlas magistrales y 20 talleres para todos los gustos, así que si pueden hacerse una escapada es más que recomendable.

Google I/O

En un largo evento mostraron un montón de cosas, muchas muy interesantes y voy a tratar de resumir todo lo posible para que estén al día con lo que ya está disponible y con lo que se viene.

Para empezar, hablemos de los modelos Gemini. El 2.5 Pro y Flash (el equivalente mini de OpenAI) recibieron actualizaciones que los pusieron arriba en la mayoría de las marcas de medición de IA, que de por sí ya superaban así que excelente por ellos. Particularmente estoy usando mucho el 2.5 Pro Preview en AIStudio y es muy completo, así que en los próximos días tendré más info si mejoró o no (porque los marcadores con el uso real a veces no coinciden). También liberaron Gemma 3n, un modelo liviano y poderoso pensado en dispositivos móviles.

Sobre el negocio “importante” indicaron que para EEUU las búsquedas del modo IA tendrán detrás Gemini 2.5 y tendrán las funciones de “Deep Search” y Gemini Live. También entran fuerte al mercado de las compras con IA y al de los asistentes de programación, con Jules entrando en beta.

Pero eso no es todo, la “magia” está también en la presentación de sus modelos que generan contenido audiovisual (y esta vez todo junto) que posiblemente cambie la manera de generar y consumir contenido los próximos meses.

Uno de los esperados era Veo 3, un generador de videos que puede generar el audio en simultáneo, con resultados espectaculares.

Tiene, según se indicó, nuevas funciones para mantener la consistencia de personales y escenas, controles de movimientos de cámara y ediciones de colores. Y dijo “según se indicó” porque además de estar solo para EEUU por el momento está en el plan de Google AI Ultra, un plan nuevo que sale 250 dólares al mes…

Con esa nueva suscripción también vienen Imagen 4, que tiene mejoras en calidad, en texto y resultados hasta 2k. Un poco para mezclar los modelos con la vida real y conseguir mejores productos lanzaron Flow y parece que por más que los modelos mejoren y cambien la lógica con “flow” la van a sostener.

Además lanzaron unos lentes con pantalla incluida e IA dentro de su nuevo universo de componentes para vida/trabajo, que parecen muy buenas pero son prototipos y de ahí hasta que lleguen al público en general hay un camino largo.

Relámpago

Microsoft presentó nuevos proyectos que dan una idea de para dónde apuntan en un futuro. NLWeb es de código abierto y busca que las empresas puedan interactuar con sus datos con poca programación. Microsoft Discovery es su apuesta para la “ciencia” y acompañar con IA la investigación y los experimentos simulados. Y por último, Azure AI Foundry es la funcionalidad para que empresas puedan crear sus propios agentes de IA, usando varios modelos y aplicaciones de terceros.
Por otro lado, ya es una realidad que GitHub Copilot se vuelve un chat dentro de VSC (mi programa favorito y el de muchos para trabajar con código) transformándolo realmente en un asistente al estilo de Windsurf o Codex (abajo lo menciono).
Los franceses de Mistral no se quieren quedar atrás en la carrera de la IA y lanzaron Medium 3, un modelo muy competitivo, pero a una fracción del costo lo que lo hace muy interesante para aplicar en el mercado laboral. Para ampliar, Pepe Cerezo publicó hace poco un artículo sobre ellos.

Hugging Face también lanzó su agente de IA, accesible a través de la web al que se le puede pedir que realice varias acciones por su propia cuenta. Interesante para probar y evaluar usos.
En la última edición hablamos sobre que no sabemos cómo piensan los modelos, bueno por las dudas Anthropic lanzó un programa de investigación dedicado al “bienestar de los modelos de IA”.
OpenAI tiene un nuevo programa que busca apoyar a las naciones a montar su propia infraestructura de IA democrática. También por aquí, porque es muy específico, para las cuentas más altas ya está disponible Codex, el asistente de programación impulsado por los razonadores de GPT.
Y siguiendo con OpenAI, un estudio encontró que GPT-4 es más persuasivo que los debatientes humanos, en especial cuando cuenta con datos como edad, género y orientación política.
Por otro lado, la Universidad de Londres descubrió que los agentes de IA pueden crear sus propias convenciones sociales tras interactuar con otros agentes, sin que se los entrene para eso.
Manus AI ahora tiene nuevas capacidades de generación de imágenes, trabajando con texto y “entendiendo la intención del usuario”. Los resultados son acompañados de otras herramientas para potenciar el resultado, lo que la hace un gran recurso para marketing o diseño de productos.
La gente de Perplexity liberó su navegador con IA incorporada llamado Comet para los primeros usuarios que evaluarán sus funciones y se mete así en el mercado que también mira OpenAI.

Qué estoy usando

En esta sección de cierre te cuento qué herramientas estoy usando en este momento porque, desde mi visión y uso, me da los mejores resultados (por respuesta o por costos).

Es algo súper íntimo y pueden no estar de acuerdo, pero creo que es una manera interesante de no solo decir “existe esto” si no “yo lo uso así” (o no).

Texto: mis GPTs personalizados y sino o3 (plan plus), Redacta.Pro (de pago). Para aplicaciones (o sea con API) 4o-mini y algunas con 4.1o.

Video: estoy jugando con algunas, como mencioné arriba, pero nada definitivo.

Audio: Elevenlabs (Pago), Adobe Audition (Pago) y NotebookLM (free).

Imágenes: GPT-4o (Pago) e Ideogram (gratis).

Programación: Gemini 2.5 Pro

Buscador: Deep Research (OpenAI plus) y Perplexity (free).

Música: Suno.