🧠 #01: Colaboraciones desesperadas, "estética" y bananas.

Bienvenido al Prompt, la newsletter sobre Inteligencia Artificial escrita con un poco de Inteligencia Natural

!Hola suscriptores! 4 de Septiembre (primera newsletter del mes) (y del año) (y de su historia), y no han faltado noticias de las que hablar. La semana pasada (y el mes pasado también, en realidad) ha sido muy movida en el mundo de la IA. Nuevos lanzamientos, nuevos modelos, rumores de compras, colaboraciones… ¡Empezamos!

En la newsletter de hoy…:

>>> Tres noticias destacadas
🍌 Nano Banana: El nuevo modelo de Imagen que se ha hecho viral (y con razón)
🍏 Apple está considerando aliarse con Gemini, de Google, para mejorar Siri
🎨 Meta se asocia con Midjourney para traer una “IA estética”

>>> HistorIAs de la IA
🎂 Efemérides: John McCarthy, el padre de la IA

>>> Una herramienta
🛠 Higgsfield AI: Crea videos con IA de calidad cinematográfica

¿Qué ha pasado esta semana en el mundo de la IA?

🍏 Apple se está considerando aliarse con Gemini, de Google, para mejorar Siri

La guerra de los asistentes de voz tiene un nuevo capítulo, y Apple podría estar perdiendo terreno. La compañía de Cupertino no está pasando por su mejor momento con respecto a la Inteligencia Artificial. El gran fiasco de este año, el lanzamiento fallido de Apple Intelligence, se une a los problemas que lleva arrastrando desde hace años con su asistente de voz, Siri. Aunque nunca ha sido el gran asistente que prometieron que sería, ahora mismo, que hay asistentes infinitamente mejores respaldados con IA, Siri se encuentra en un punto crítico.

En Apple lo saben, y llevan un par de años trabajando para rediseñarlo desde cero, y que llegue a estar al nivel de sus competidores. Pero el tiempo pasa, su lanzamiento se retrasa hasta 2026, y cada vez hay asistentes de voz alternativos mucho mejores, como los de Gemini, OpenAI o Anthropic.

Ahora mismo están barajando dos posibles versiones del nuevo Siri 2.0: una basada en sus propios modelos creados por ellos, y otra basada en, supuestamente, Gemini, que correría en los servidores internos de Apple. Aunque ambas empresas no son rivales y ya tienen acuerdos de colaboración millonarios (como el que permite a Google tener su navegador Chrome como predeterminado en los dispositivos Apple), este nuevo acuerdo supondría un golpe anímico a la empresa de Cupertino, cuyo modelo siempre se ha basado en desarrollar todos sus productos de manera interna (su sistema operativo, sus chips, su software…). Veremos por qué opción se decanta Apple al final, y cómo resulta la nueva Siri 2.0.

🎨 Meta se asocia con Midjourney para traer una “IA estética”

El pasado 22 de Agosto, Alexandr Wang, el joven prodigio recién nombrado Chief AI Scientist por Mark Zuckerber para liderar su nuevo “Laboratorio de Superinteligencia” anunció en su cuenta de X que habían cerrado un acuerdo de colaboración con Midjourney. El acuerdo, que según ambas partes es únicamente una colaboración tecnológica y no una adquisición, consiste en que Meta pueda licenciar la “estética” de los modelos de Midjourney en futuros modelos y lanzamientos que haga la gigante compañía.

Midjourney es una empresa que nació en Julio de 2022 dedicada exclusivamente a la creación de imágenes por IA generativa con un modelo propio (aunque recientemente también se han unido a la tendencia de sacar modelos de generación de Vídeo). El estilo de imágenes que crea Midjourney destaca por su hiperrealismo y por su sentido artístico muy estético, y ese estilo característico es precisamente el que busca Meta integrar en sus nuevos productos. No se saben muchos más detalles del acuerdo, así que solo nos queda esperar a ver con qué nos sorprende esta colaboración Meta+Midjourney.

Algunos ejemplos de estilos característicos de Midjourney. Fuente: Midjourney docs

🍌 Nano Banana: El nuevo modelo de Imagen que se ha hecho viral (y con razón)

El pasado 26 de agosto, Google Deepmind, la división de Google (o mejor dicho, de Alphabet, que es la compañía matriz) encargada de la investigación en IA, lanzó su último modelo de texto-a-imagen. La calidad de las imágenes que genera ha dejado asombrada a la comunidad de la IA. Capaz de fusionar imágenes, añadir y eliminar elementos, retoques, introducir texto, efectos fotográficos… es el primer candidato serio para dejar obsoleto Photoshop.

Y no sólo eso, sino que además es muchísimo mas rápido que sus rivales (5x-10x más rápido), y mucho más barato (0.04$ por imagen generada). Y la palabra “Nano” no es casual. El modelo es muy ligero, y se especula que pueda ser introducido en los Pixel, como asistente de edición de imagen.

El modelo se puede probar gratis en la app de Gemini o en AI Studio de Google. Un salto cualitativo que promete democratizar la edición profesional de imágenes.

Ejemplo de uso. Le das una imagen de modelo y un sketch y la edita para adaptarse. (Tomada de post en X de -Zho-)

¿Por qué Nano Banana?

Aunque inicialmente lo llamó Gemini Flash 2.5 Image de manera oficial, todo el mundo, incluso ellos mismos, lo denominaban Nano Banana. ¿Por qué? Lo cierto es que el 26 de Agosto, Google no presentó al público el modelo, sino que confirmó que era suyo, porque ese modelo ya llevaba unos días circulando por la red. El modelo, bajo el “pseudónimo” Nano Banana, apareció por sorpresa en la web LMarena.ai, que es una web donde cualquiera puede elegir dos modelos, enfrentarlos, compararlos y puntuarlos, para hacer un ranking del mejor modelo en cada área. Antes del 26 de Agosto, nadie en redes sabía de quién había desarrollado ese modelo misterioso, pero había un sentimiento unánime: era el mejor, de largo, en edición de imagen.

Para acabar, os dejo otro ejemplo de lo que es capaz: una de las dos fotos es real, la otra, fue generada por Nano Banana, a la que le pedí que añadiera 5 modificaciones sutiles para jugar al juego de encontrar las diferencias. ¿Las veis?

El modelo de la imagen dice que da su consentimiento 🤓

Qué, ¿te asusta llegar a un punto donde no reconozcamos si una imagen está hecha por IA o un humano? No te preocupes. Google (y otros) ya han pensado en eso 😏 . En el último post de mi blog te hablo de ello: 👇

¿Podemos saber si una imagen ha sido creada por IA? | El Prompt

Google DeepMind ha creado SynthID, una tecnología que identifica contenido generado por IA con una marca de agua invisible. Te explico qué es, cómo funciona y por qué cambiará nuestra relación con el contenido digital.

HistorIAs de la IA. Hoy: 🎂 Efemérides 🎂

John McCarthy, el padre que nos dio el nombre

Tal día como hoy, un 4 de septiembre de 1927 nacía John McCarthy, el matemático estadounidense que no solo acuñó el término "Inteligencia Artificial" en 1956, sino que sentó las bases teóricas de todo lo que hoy celebramos (y a veces ni entendemos). Creador del lenguaje de programación LISP en los años 50 y pionero en computación simbólica, McCarthy imaginó máquinas capaces de razonar como humanos décadas antes de que existieran las GPUs para entrenarlas. Curioso pensar que el hombre que nos dio las palabras para hablar de IA, y que hoy cumpliría 98 años, nunca pudo probar ChatGPT o ver a Nano Banana editando fotos en tiempo real.

Gracias a John McCarthy, yo hoy he sido capaz de hacerle un retrato “al estilo de los que les hacen a los ganadores de Nobel” en 10 segundos.

🛠 La Herramienta de la semana

Higgsfield AI

Higgsfield AI es una plataforma de generación de imagen y video con Inteligencia Artifical, donde bien puedes usar su modelo propio o, (y esto es lo bueno) cualquier otro modelo de última generación que hayan sacado terceros (incluyendo Nano Banana, ¡sí!)

Captura de la web de Higgsfield AI

Para muchos usuarios, usar un modelo de texto-a-video o imagen-a-video como Veo 3 de Google, o Sora de OpenAI puede ser suficiente. Pero para conseguir un video de calidad cinematográfica tienes que saber hacer el prompt perfecto. No hablo de describir lo que quieres que suceda, sino de cómo se está “grabando”. Especificar tipo de escena, de cámara, de lente, de plano, etc, mejorará el resultado final. Si se exprime todo su potencial, Higgsfield AI puede suponer un ahorro enorme en tiempo y dinero para gente en el mundo del anuncio, marketing, producción, efectos visuales…

Plataformas como Higgsfield AI te hacen la vida mucho más fácil en ese sentido. Su modelo de negocio se basa en una suscripción mensual donde, dependiendo del tipo de suscripción tendrás cierto número de créditos que gastar al mes, con los que podrás generar hastar cierto límite de imágenes o vídeo. Un modelo de negocio interesante para probar distintos modelos generadores sin tener que suscribirte individualmente a cada uno.

Y hasta aquí la entrega #01 de la Newsletter.

¿Qué te ha parecido el email de hoy? Puntúalo y deja un comentario si quieres 😇

🧠 🧠 🧠 🧠 🧠 ¡Alimento para la mente!
🧠 🧠 🧠 Tienes que pensarlo mejor
🧠 Han faltado neuronas

El Prompt | Científico y Divulgador de IA

El archivo completo de El Prompt. Artículos sobre Inteligencia Artificial, ciencia y productividad para darte la señal, no el ruido. Una publicación de Carlos Velasco.

❝

>>> ¡Nos vemos en la siguiente entrega!

Carlos Velasco | >>> El Prompt