Um algoritmo usa ondas de rádio em vez de luz visível para detectar o que as pessoas estão fazendo sem revelar como elas são.
Por Emerging Technology from the arXiv em 09 de outubro de 2019
A visão computacional tem uma marca impressionante. Ela tem a capacidade sobre-humana de reconhecer pessoas, rostos e objetos. Pode até reconhecer muitos tipos diferentes de ações, embora ainda não tão bem quanto os humanos.
Mas existem limites para seu desempenho. As máquinas têm um momento particularmente difícil quando pessoas, rostos ou objetos estão parcialmente obstruídos. E quando os níveis de luz caem muito, elas ficam efetivamente cegas, assim como os humanos.
Mas há outra parte do espectro eletromagnético que não é limitada da mesma maneira. As ondas de rádio inundam nosso mundo, seja de noite ou de dia. Eles passam facilmente através das paredes e são transmitidos e refletidos pelos corpos humanos. De fato, os pesquisadores desenvolveram várias maneiras de usar sinais de rádio Wi-Fi para ver a portas fechadas.
Mas esses sistemas de visão por rádio têm algumas deficiências. A resolução deles é baixa; as imagens são cheias de ruídos e reflexões de sinais que dificultam a compreensão do que está acontecendo.
Nesse sentido, imagens de rádio e imagens de luz visível têm vantagens e desvantagens complementares. E isso levanta a possibilidade de usar os pontos fortes de um para superar as deficiências do outro.
Enter Tianhong Li e colegas do MIT encontraram uma maneira de ensinar um sistema de visão por rádio a reconhecer as ações das pessoas, treinando-o com imagens de luz visível. O novo sistema de visão por rádio pode ver o que as pessoas estão fazendo em uma ampla gama de situações em que a imagem com luz visível falha. “Introduzimos um modelo de rede neural que pode detectar ações humanas através de paredes e oclusões e em más condições de iluminação”, afirma Li e colaboradores.
O método da equipe usa um truque. A idéia básica é gravar imagens de vídeo da mesma cena usando luz visível e ondas de rádio. Os sistemas de visão de máquina já são capazes de reconhecer ações humanas a partir de imagens de luz visível. Portanto, o próximo passo é correlacionar essas imagens com as imagens de rádio da mesma cena.
Mas a dificuldade está em garantir que o processo de aprendizado se concentre no movimento humano e não em outras coisas e objetos, como o fundo da sala. Então Li e seus companheiros introduzem uma etapa intermediária na qual a máquina gera modelos de bonecos em 3D que reproduzem as ações das pessoas na cena.

“Ao traduzir a entrada para uma representação intermediária baseada em esqueleto, nosso modelo pode aprender com os conjuntos de dados baseados em visão e baseados em radiofrequência e permitir que as duas tarefas se ajudem”, afirmam Li e seus colegas.
Dessa maneira, o sistema aprende a reconhecer ações na luz visível e, em seguida, a reconhecer as mesmas ações que ocorrem no escuro ou atrás das paredes, usando ondas de rádio. “Mostramos que nosso modelo alcança precisão comparável aos sistemas de reconhecimento de ações baseados em visão em cenários visíveis, mas continua a funcionar com precisão quando as pessoas não são visíveis”, afirmam os pesquisadores.
Esse é um trabalho interessante que tem um potencial significativo. As aplicações óbvias estão em cenários onde as imagens de luz visível falham – em condições de pouca luz e a portas fechadas.
Mas existem outras aplicações também. Um problema com imagens de luz visível é que as pessoas são reconhecíveis, o que levanta problemas de privacidade.
Leia também: Privacidade & Smart Cities: Privacidade, Segurança e Opacidade
Mas um sistema de rádio não tem a resolução para reconhecimento facial. Identificar ações sem reconhecer rostos não gera os mesmos medos de privacidade. “Ele pode trazer reconhecimento de ação às residências das pessoas e permitir sua integração em sistemas residenciais inteligentes”, afirmam Li e colegas. Isso poderia ser usado para monitorar a casa de uma pessoa idosa e alertar os serviços apropriados sobre uma queda, por exemplo. E faria isso sem muito risco à privacidade.
Isso está além da capacidade dos sistemas baseados em visão de hoje.
Ref: arxiv.org/abs/1909.09300: Tornando o invisível visível: reconhecimento de ações através de paredes e oclusões
Publicado originalmente em MIT Technology Review
Link para a publicação original