VideoMR

funding: RNP/Microsoft
begin: 2019
end: 2020

A popularização de equipamentos de captura de vídeo e serviços para seu armazenamento e transmissão, possibilitou a produção de um massivo volume de dados de vídeo. O Youtube, por exemplo, registrou em 2014 upload de 72 horas de vídeo por minuto. Enquanto que em 2018, esse número subiu para 400 horas de vídeo por minuto. Esse cenário apresenta desafio de controle do tipo de conteúdo que é carregado para esses serviços de armazenamento videos. Por exemplo, serviços como o video@RNP, videoaula@RNP, RUTE e ITVRP constituem redes de compartilhamento vídeo que se focam em conteúdo educacional e possuem restrições a conteúdos impróprios. O carregamento de conteúdo impróprio para essas plataformas por um usuário mal intencionado pode acarretar problemas jurídicos. Por exemplo, citamos o caso recente relativo aos assassinatos na Nova Zelândia, em que serviços como Facebook e Youtube estão sendo processados por terem hospedados vídeos dos assassinatos. A classificação conteúdo impróprio requer uma análise automática desse volume de forma eficiente e prática. Métodos baseados em Deep Learning(DL) setor se tornaram o estado-da-arte em vários segmentos relacionados a análise automática de mídia. Este projeto tem como foco avaliar e desenvolver tais métodos de DL para detecção de conteúdo impróprio em cenas de vídeo.

Consideramos como conteúdo impróprio cenas vídeos que estão na faixa 18+ do Sistema de Classificação Indicativa Brasileiro. ou seja, que contenham conteúdos: Violência de forte impacto (e.g. tortura, mutilação e gore) e sexo ou nudez sensualizada (e.g. sexo explícito e pornografia). Duas categorias de vídeo reconhecidas pela ferramenta de classificação. O projeto propõe utilizar uma arquitetura bimodal. Primeiro as CNNs, chamadas de backbones, serão usadas para extrair as features audio-visuais dos frames e áudio do vídeo de datasets de conteúdo próprio e impróprio. Para extração das features visuais serão avaliadas o uso de das CNNs Inception e ResNet. Já para extração de features de áudio, será avaliado o uso das CNN adaptadas AudioVGG e WaveNet. Após a extração, métodos sofisticados para agregação de features como LSTM e VLADNET são avaliados para minerar as features audio-visuais e realizar a classificação.

Mais informações: https://www.rnp.br/noticias/selecionados-os-projetos-desafio-rnp-e-microsoft-inteligencia-artificial