A Snap Research apresenta um novo modelo de difusão de texto para imagem para IA generativa

Na Snap, somos inspirados por novas funcionalidades e produtos que aumentam a criatividade e dão vida à imaginação, tudo possível pela tecnologia de IA generativa. Embora haja um interesse enorme por estas experiências, dada a sua arquitetura técnica complexa, requerem muito tempo, recursos e poder de processamento para ganharem vida, especialmente ao nível móvel.

É por isso que hoje, estamos entusiasmados por partilhar que a Snap Research desenvolveu um novo modelo chamado SnapFusion que reduz o tempo de execução do modelo, desde a entrada de texto até à geração de imagens no telemóvel, para menos de dois segundos. O tempo mais rápido publicado até à data pela comunidade académica.

A Snap Research alcançou este avanço pela otimização da arquitetura da rede e do processo de denoising (atenuação de ruídos), tornando-os extremamente eficientes e ainda mantendo a qualidade da imagem. Por isso, agora é possível executar o modelo para gerar imagens com base em comandos de texto, e em resposta obter imagens nítidas e claras em meros segundos no telemóvel, em vez de minutos ou horas conforme apresentado noutras pesquisas.

Embora ainda seja cedo para este modelo, este trabalho tem o potencial de, futuramente, agilizar experiências de IA generativa de alta qualidade no telemóvel. Para saber mais sobre este avanço, consulta o nosso artigo mais detalhado aqui.

Voltar às Notícias

A Snap Research apresenta um novo Modelo de difusão de texto para imagem para IA generativa