¿Más cerca de Skynet? Modificar imágenes, una herramienta nueva y más

14 noviembre, 2024

El título puede parecer un clic bait, pero no lo es. O al menos no del todo. Es que las grandes empresas de tecnología e IA se están sumando de a poco a colaborar en cuestiones de defensa con Estados Unidos.

Es que tanto Meta, como OpenAI y Anthropic ya anunciaron que están trabajando o que van a trabajar en proyectos de Seguridad y desarrollo de inteligencia artificial con el país de Norte América.

¿Esto nos acerca al final, como en la película de Terminator? Todos los avances tecnológicos tienen su paso por el desarrollo armamentístico o a veces es al revés, es la misma esencia de la naturaleza humana. Lo que sí es seguro es que antes de los anuncios públicos, en otros lugares al menos ya se estaba trabajando en esta integración.

Es un momento en el que aprender sobre cuestiones de defensa puede ser un nicho para los especialistas en IA.

¿Otro buscador más?

El que está sumando más y más gente (un poco a la fuerza) al mundillo de la IA es Meta que integra en sus plataformas (Facebook, Instagram y WhatsApp) cada vez más recursos que corren sobre sus modelos Llama, que son Open Sourse.

Bueno, en las últimas semana está circulando cada vez más fuerte el rumor de un buscador desde Meta, un Metagle o Goota (?). En fin, como mencionamos en cartas anteriores, otro recurso más (o problema) para los especialistas SEO. Por cierto, éxitos a todos en el core de noviembre.

Edición de imágenes

Estuve jugando un poco esta semana con la herramienta Recraft V3, que tiene un buen plan gratuito y un modelo de IA que permite trabajar en escenarios al mejor estilo Illustrator.

A la derecha está el escenario, mesa de trabajo o escritorio (como quieran llamarlo) y a la izquierda el resultado post prompt. Muy sencillito y con mejores resultados, como suele ocurrir, si escribimos los prompts en inglés.

En la versión de pago además de tener más créditos, se pueden hacer mejores combinaciones, más cantidad, etc. Si se dedican al diseño puede ser una alternativa potable a Canva.

La segunda

Por otro lado, tenemos para probar en Hugging Face el modelo de PuLID-Flux que permite modificar imágenes desde una de referencia (sí, solo una) y que da resultados similares a los que daba a principio de año Midjourney con los caracteres de referencia.

No es el mejor resultado, pero tampoco está tan mal. Como dije antes, prompts en inglés y a dejar que vuele la imaginación. Tiene un par de configuraciones que podemos ir modificando para alternar entre creatividad y fidelidad.

Una breve

Suno está liberando para algunos usuarios de pago la opción de “crear cantantes”. La aplicación de música ahora deja “inventar un artista” y guardarlo, para que después interprete otras canciones. O sea que cuando la tecnología se ajuste (se parecen las voces, pero no son las mismas) se van a poder crear álbumes completos con las mismas voces.

Clonar voz

Y sí, hace una semana hablamos de un clonador de voz (con muchas advertencias) y su facilidad para generar copias bastante fieles con una base de 15 segundos de entrenamiento en inglés y en chino.

Bueno, un usuario de la comunidad ya entrenó el modelo para español y los resultados están bastante bien. No son wow, pero tengan en cuenta que se entrena con muy poca base de sonido.

Pueden probarlo, bajo su responsabilidad, en este enlace.Suscrito

Generador de notas

Un poco de contexto primero: hace cosa de un año que vengo trabajando como consultor en un par de medios sobre la implementación de la Inteligencia Artificial en los procesos. Según la escala de trabajo las recomendaciones, pero una cuestión muy recurrente es cómo resolver rápido el contenido fast food.

¿Qué sería eso? Ese contenido al que no se le puede agregar mucho valor, pero que hay que tener: entiendase por parte de prensa, partes policiales (un robo simple, un choque de autos), cómo van a funcionar los servicios el feriado próximo, cosas así.

Bueno, para simplificar mucho esa tarea en Tres Barbas lanzamos un asistente propio configurado como redactor periodístico (con foco en el SEO).

Funcionamiento

Es muy simple, uno le da el contexto (sea el parte de prensa) o las instrucciones, elige cuántas notas generar y a crear. Ya está.

La idea es que el modelo solo use la información que nosotros le damos y que escriba una nota con su título, su bajada, su volanta o copete, su texto con subtítulos SEO y la metadescripción (para mejorar el SEO, claro). También tiene un historial para ver las notas que se generaron en el mes.

Tecnología

Es un asistente de OpenAI que en este momento funciona con GPT 4o-mini y que tiene una base de conocimiento enfocada en el SEO. La idea es que una vez depurada, el medio o empresa que la quiera incorporar use un Fine-tune con su base de datos así tanto el conocimiento como la forma de escribir se ajustan más al estilo.

Si querés probarla gratis (el historial es compartido de todos los invitados a la beta) escribime a [email protected] y te mando un enlace. Esta versión la vamos a sostener al menos hasta la semana que viene.

Qué estoy usando

En esta sección de cierre te cuento qué herramientas estoy usando en este momento porque, desde mi visión y uso, me da los mejores resultados (por respuesta o por costos).

Es algo súper íntimo y pueden no estar de acuerdo, pero creo que es una manera interesante de no solo decir “existe esto” si no “yo lo uso así” (o no).

Texto: GPT 4o o O1 (Versión de pago).

Video: estoy probando una en beta privada confidencial (ya les contaré)

Audio: Elevenlabs (Free) y Adobe Audition (Pago).

Imágenes: Dall-E 3 (Pago) y Adobe Photoshop (Pago).

Programación: GPT 4o (Canva o O1) y Claude (Gratis)

Buscador: Google.

Música: Suno.

Miscelánea: Endless.