SAM 3D de Meta convierte personas y objetos en Modelos 3D con IA

La Inteligencia Artificial aplicada a la visión por computador y la generación de contenido 3D está experimentando una revolución, y la más reciente prueba de ello es la presentación de SAM 3D de Meta, una potente herramienta que promete democratizar la reconstrucción tridimensional de personas y objetos. El pasado martes, 21 de noviembre de 2023, Meta anunció la tercera generación de su familia de modelos de segmentación, Segment Anything Model (SAM), introduciendo no solo el nuevo SAM-3, sino también su ambiciosa variante espacial, SAM 3D. Esta presentación marca un hito, ofreciendo a desarrolladores y creadores la capacidad de generar modelos 3D a partir de una única imagen o vídeo, sin requerir equipos especializados ni expertise avanzado.

La Evolución de SAM: Segmentación de Precisión y Reconstrucción 3D

La familia SAM se ha consolidado como un pilar en la comprensión del mundo visual por parte de la IA. Su objetivo principal es la segmentación, es decir, identificar y aislar objetos específicos dentro de una imagen o frame de vídeo.

¿Qué es SAM-3 y Por Qué es una Mejora Sustancial?

SAM-3 es el miembro más reciente de la familia de modelos de segmentación de Meta. Su principal mejora radica en su capacidad para interpretar instrucciones de texto y señales visuales simultáneamente, permitiendo una detección y un seguimiento de objetos mucho más precisos y detallados que sus predecesores.

Mientras que las versiones anteriores de SAM ya eran capaces de segmentar, SAM-3 puede manejar descripciones detalladas en lenguaje natural, haciendo que la edición de vídeo sea tan simple como escribir lo que deseas seleccionar o modificar. Esta funcionalidad es particularmente útil en la edición de vídeos cortos, como Meta planea aplicar en sus herramientas de creación de Reels en Instagram y Facebook, como Edits, el clon de CapCut. Los editores solo necesitarán escribir el nombre o una descripción del objeto en el prompt para que la IA se encargue de la selección y el seguimiento a lo largo de un clip. Esta precisión abre la puerta a efectos especiales rápidos y accesibles, e incluso se planea su aplicación en vídeos generados por IA dentro de herramientas como Vibes en un futuro.

SAM3D: Del Píxel al Espacio Tridimensional

El verdadero protagonista de esta presentación es SAM 3D. Este modelo lleva la segmentación de SAM-3 un paso más allá, no solo identificando y aislando un objeto o persona, sino reconstruyendo activamente su geometría y apariencia tridimensional a partir de los datos visuales de una sola imagen o secuencia de vídeo.

El proceso de SAM-3D utiliza las máscaras de segmentación de SAM-3 para aislar el elemento de interés. Una vez aislado, un módulo de reconstrucción especializado genera el modelo 3D. Este sistema se divide en dos módulos:

Módulo de Objetos y Escenas: Permite a los usuarios seleccionar elementos en una imagen, y la herramienta genera una reconstrucción.
Módulo Entrenado para Personas: Específicamente diseñado para identificar y generar una malla 3D aproximada de una figura humana, incluyendo un esqueleto simplificado para ajustes de pose (aunque en la versión de demostración en el Playground no permite la extracción del modelo humano).

El resultado son modelos 3D que pueden ser exportados en formatos estándar como PLY, listos para ser utilizados en software de modelado 3D profesional como Blender, o motores de videojuegos como Unreal Engine o Unity.

Aplicaciones y Limitaciones de la Reconstrucción 3D con IA

La tecnología subyacente a SAM-3D tiene un potencial transformador en múltiples industrias, aunque es importante entender el estado actual de la tecnología y sus limitaciones.

El Impacto de SAM 3D en la Tecnología y el Consumo

Meta ha identificado un amplio abanico de usos para SAM 3D, abarcando desde el comercio electrónico hasta la robótica. En el Marketplace, SAM 3D podría reconstruir un producto a partir de su foto y permitir a los usuarios visualizarlo en su entorno real mediante Realidad Aumentada (RA), facilitando las decisiones de compra.

Otras aplicaciones de alto impacto incluyen:

Robótica: La comprensión 3D de un entorno a partir de cámaras 2D es crucial para que los robots naveguen y manipulen objetos de manera efectiva.
Creación de Videojuegos y Experiencias VR/AR: Acelera drásticamente el proceso de creación de activos 3D, permitiendo a los desarrolladores escanear rápidamente objetos del mundo real e integrarlos.
Ciencia y Modelado: Permite a los investigadores generar modelos 3D de elementos de estudio con relativa facilidad.

A pesar de la promesa, es fundamental reconocer que los modelos exportados por SAM 3D en su versión de lanzamiento a menudo se presentan como una nube de puntos y no como una malla 3D completamente optimizada o texturizada con realismo fotográfico. Esto significa que, aunque el modelo captura la geometría, puede requerir trabajo adicional en software de terceros, como MeshLab o Blender, para obtener un activo final de alta calidad. La herramienta es una base poderosa, pero los resultados ultrarrealistas todavía dependen de procesos de edición y mejora.

La introducción de SAM 3D es un salto significativo en la democratización del contenido 3D. Al convertir la segmentación (SAM-3) en la base de la reconstrucción espacial (SAM 3D), Meta está poniendo en manos de un público amplio una capacidad que antes estaba reservada para expertos. Su lanzamiento el 21 de noviembre de 2023 marca el inicio de una era donde la IA no solo edita lo que vemos, sino que nos ayuda a reconstruir digitalmente el mundo a nuestro alrededor, prometiendo transformar la forma en que interactuamos con la Realidad Aumentada y Virtual.

Si quieres ir a SAM 3D, simplemente tienes que acceder en el siguiente enlace: SAM 3D

Noticia Anterior