Pesquisadores do Instituto de Tecnologia de Massachusetts (MIT) demonstraram que um LiDAR comum de consumo — como o de um smartphone ou um sensor de visão computacional de baixo custo — pode ser transformado em uma câmera primitiva que permite literalmente ver através de cantos. O efeito depende da trepidação da mão e da falta de estabilização da câmera — quanto maior a trepidação, mais precisa a imagem oculta.

Fonte da imagem: MIT
Visualizar objetos além da linha de visão é uma tarefa crucial para a visão computacional. Atualmente, esses experimentos são realizados principalmente em laboratório, pois tais soluções dependem de lasers potentes e calibração ultraprecisa com sensores ultrassensíveis. Cientistas do MIT propuseram uma abordagem diferente: utilizaram um LiDAR ToF (Time-of-Flight) fraco, ruidoso, porém amplamente disponível, e compensaram suas limitações com algoritmos de processamento multiframe, que ocorrem naturalmente quando a câmera está instável e sem estabilização de imagem.
O princípio básico da “câmera de visão em curva” baseia-se no registro de reflexos secundários de um feixe de luz provenientes de um objeto invisível. Isso não requer iluminação direta do objeto oculto. A luz pode refletir nele, refletindo em paredes e outros objetos ao redor e retornando à câmera da mesma forma. A inovação reside no registro de múltiplos frames com um sinal refletido fraco, capturados durante a filmagem sem estabilização. Nesse caso, quanto pior, melhor. Em seguida, uma imagem do objeto oculto é reconstruída a partir de uma série de frames utilizando algoritmos de predição.
Assim, a ideia principal dos pesquisadores do MIT não é combater o movimento da câmera, mas usá-lo como fonte de amostragem espacial adicional. Os autores chamam isso de MAS — “amostragem de abertura induzida por movimento”. Conceitualmente, é semelhante à abertura sintética: quando um smartphone ou sensor se move ligeiramente, ele recebe medições fracas de diferentes pontos, e um algoritmo as combina em uma imagem mais informativa. No modelo MAS, a forma do objeto oculto, seu movimento e a posição da câmera são reduzidos aUma metodologia de medição unificada seguida de modelagem usando a resposta ao impulso no tempo de cena (STIR).
Durante a demonstração, o sistema executou três classes de tarefas: reconstrução 3D aproximada de objetos ocultos, rastreamento de um ou mais objetos além da linha de visão e localização da câmera usando objetos ocultos como pontos de referência. Em todos os casos, o sistema produziu resultados satisfatórios, que podem ser aprimorados.
Se os cientistas conseguirem criar uma solução prática, isso expandirá significativamente as capacidades de smartphones, óculos de realidade aumentada e a visão computacional de robôs e drones. No entanto, a tecnologia atual não fornece uma “imagem nítida ao redor de cantos”: a resolução é baixa, as cenas precisam ser relativamente simples, as propriedades reflexivas dos materiais afetam significativamente os resultados e a complexidade computacional permanece alta. Contudo, ainda há espaço para melhorias, e essa é a chave.