As vozes dos últimos 10 anos dos Oscars

Uma exploração de dados sobre o som e os diálogos dos dez últimos ganhadores do prêmio de Melhor Filme da academia

Nicolas Figueiredo
8 min readOct 23, 2020

Music Information Retrieval (MIR) dá nome ao estudo sobre o quanto de informação conseguimos extrair de uma música. A partir de características de timbre, tempo e melodia, a área busca solucionar os problemas de recomendação musical, transcrição automática, separação de fontes, reconhecimento de gênero, entre outros. Os princípios e técnicas de MIR, porém, são raramente utilizados para análise de áudio de obras audiovisuais. Esse artigo é uma exploração inicial dos princípios de MIR para obras cinematográficas, tentando responder o quanto de um filme podemos caracterizar a partir de seu som, quais ferramentas e descritores podem ser usados nesse processo e que informações obtidas podem ser úteis para estudos mais aprofundados sobre cinema e estética.

Pegamos como estudo de caso os últimos 10 ganhadores do Oscar de melhor filme. A partir de técnicas de MIR, procuramos responder as seguintes perguntas: é possível caracterizar um padrão nos ganhadores? Podemos identificar o “filme Oscar” pela sua distribuição de diálogos e ritmo? Há alguma progressão ao longo do tempo e filmes que fogem dessa tendência?

Metodologia

Para o nosso estudo, selecionamos os filmes ganhadores de 2011 a 2020: Parasita, Green Book, A Forma da Água, Moonlight, Spotlight, Birdman, 12 Anos de Escravidão, Argo, O Artista e O Discurso do Rei. Usando o inaSpeechSegmenter [1], segmentamos os filmes em trechos ocupados por vozes masculinas, vozes femininas, música e “ruído” (qualquer coisa que não se encaixe nas três classes mencionadas). Extraímos algumas medidas de ritmo prosódico das falas utilizando o script speechrate [2], e também fizemos medidas de intensidade sonora gerais a partir do modelo LARM [3] de medição.

Quanto, quando e quem fala?

Começamos com uma caracterização geral de cada filme, de acordo com o tempo ocupado pelas falas.

Em média, as falas ocupam 43% do tempo total dos filmes, com pouca variação. O ponto destoante é Moonlight, com 26,7% de tempo de fala. Esse filme representa uma quebra de diversas tradições do Oscar: é o primeiro filme com um elenco composto somente por atores negros e da temática LGBTQ a ganhar o prêmio de melhor filme. É também o filme com menor orçamento entre os analisados (1.5 milhão de dólares), e o penúltimo filme entre todos os ganhadores da história no quesito receita nas bilheterias dos EUA. Na contramão estilística, Spotlight aparece no topo com 61,4%. O Artista, por ser um filme mudo, foi excluído dessa análise.

Em que momentos essas falas aparecem? Seria possível notar uma diferença na distribuição de falas por atos, ou progressão ao longo do filme?

Mapa de calor de diálogos ao longo do tempo de um filme. Quanto mais intensa a cor, mais falas naquele minuto de filme.

À primeira vista, não há uma clara divisão por seções nos gráficos mostrados. Parece haver, porém, um certo agrupamento nos dados. Visualmente, a segunda metade dos filmes Parasita, A Forma da Água e Argo parece conter menos diálogos que a primeira. Essa impressão se comprova nos números: esses três filmes distribuem cerca de 40% do tempo total de fala na segunda metade. Spotlight e Birdman também fazem parte desse grupo com 43%, enquanto os restantes fazem essa divisão de forma aproximadamente igualitária (os minutos relativos aos créditos finais foram desconsiderados desse cálculo para não enviesar os dados). Uma possível explicação para esse comportamento é que, nos filmes citados, a apresentação dos personagens e do enredo se apoia mais em diálogos. Com a evolução da trama, as falas passam a dividir espaço com outros recursos narrativos. Estudos futuros são necessários para comprovar essa hipótese, e avaliar se essa estratégia é algo prevalente na tradicional estrutura de três atos.

Podemos analisar também, nesses diálogos, a presença de vozes femininas e masculinas:

Aqui, enxergamos o padrão mais explícito dentre todos os dados analisados. Somando os 10 filmes analisados, as vozes femininas tiveram 1h26min de fala, contra 6h42min de vozes masculinas. Excluindo Parasita dessa análise, a discrepância é ainda maior: 86,5% do tempo vai para vozes masculinas, e apenas 13,5% para vozes femininas.

Essa diferença é ainda mais aparente se representarmos as falas de cada gênero ao longo do tempo de cada filme:

Para cada minuto de filme, grafamos o tempo de fala de vozes masculinas (barra vertical azul) e femininas (barra vermelha)

Notadamente, Parasita é a exceção parcial à regra, destinando 56% de seu tempo de fala a homens e 44% a mulheres. Assim como Moonlight, essa quebra de padrão vem acompanhada de outros marcos: é o primeiro filme estrangeiro a ganhar o prêmio de melhor filme, primeiro filme coreano a ser indicado, e o primeiro filme estrangeiro desde 2003 a ganhar o prêmio de melhor roteiro. O prêmio de Parasita vem um ano após Green Book, com 93% de suas falas destinadas a homens, atingir a marca mais desigual desse padrão.

O ritmo de cada filme

Nessa seção, investigamos a possibilidade de caracterização do ritmo de um filme a partir de seu áudio. Aqui, o objetivo é similar ao do mapa de calor de diálogos. Será que há algo no som de um filme que sinaliza uma mudança de ato ou evolução da narrativa? Há algum padrão no ritmo dos filmes do Oscar?

Primeiramente, tentaremos medir o ritmo a partir de uma característica prosódica: o ritmo de fala. Dado um trecho de fala, seu ritmo é calculado como o número de sílabas dividido por tempo de fala. Investigamos aqui se há alguma relação entre tal ritmo e a narrativa de um filme, alguma progressão lógica que sirva de artifício para os filmes analisados. Além disso, procuramos responder se o ritmo de fala é um descritor útil para a caracterização estética de um filme.

Analisamos inicialmente o ritmo médio das falas de cada filme:

Essa medida parece ser um descritor útil do tom geral de um filme, uma medida que concorda com as características estéticas de narração dos filmes analisados. Ao longo do tempo, esse ritmo varia da seguinte forma:

No gráfico acima, as barras descrevem a variação local de ritmo com relação à média do filme. Ou seja, uma barra para cima indica um ritmo maior que a média, e para baixo um ritmo menor que a média. Essa variação é medida em desvios-padrão, e a cor de cada barra indica a proeminência de cada gênero naquele momento (barras vermelhas indicam maior presença de vozes femininas, barra azuis indicam vozes masculinas).

Há uma grande variação entre os diferentes perfis de ritmo, sem um padrão aparente ou separação por atos. Além disso, o ritmo de fala não tem uma clara relação com o ritmo geral do filme. O último ato de Parasita é um bom exemplo disso, com ritmos de fala mais lentos que sua média durante o grande ápice do filme. Essa desaceleração, porém, pode caracterizar a dramaticidade do desfecho. Similarmente ao ponto feito sobre a quantidade de falas, os diálogos mais rápidos do início de Parasita podem sinalizar a apresentação dos personagens e fio narrativo, que vão dando espaço a falas mais dramáticas e pontuais.

Como comparação, extraímos de cada minuto dos filmes uma medida geral de intensidade do som que busca medir o volume percebido ao longo do tempo. Incluímos nessa análise os filmes completos, e não somente os trechos contendo falas, em uma abordagem diversa para a caracterização de ritmo.

Variação de intensidade em torno da média de cada filme, medida em desvios-padrão. A intensidade sonora foi medida segundo o modelo LARM.

Apesar de uma primeira vista não revelar padrões gerais, certas observações podem ser feitas. Alguns filmes, como Parasita, Moonlight, Birdman e Argo, aumentam a sua variação de intensidade na medida que se aproximam de um desfecho. Além disso, em momentos finais, parece ser comum a utilização de um contraste de energia: momentos de baixa intensidade seguidos de momentos de alta intensidade. Isso pode indicar um uso mais impactante de som em tais pontos do filme. Análises locais são necessárias para estabelecer a relação entre o uso de intensidade no contexto narrativo de cada filme, mas em um primeiro momento a intensidade de som parece ter uma relação mais próxima com o ritmo geral de um filme do que o ritmo de voz.

Conclusão

Embora não revele um claro padrão sonoro nos últimos 10 ganhadores do prêmio de melhor filme, o estudo apresentado oferece alguns pontos de discussão. É notável que as duas grandes surpresas dos últimos anos, Parasita e Moonlight, mostram diversidade também em suas características sonoras com relação às outras produções. Ou seja, a diversidade de nacionalidade, sexualidade e raça trazida por esses filmes se manifesta como uma variedade estilística capturada pela análise acústica conduzida. As diferentes vozes trazidas pelo primeiro ganhador estrangeiro e o primeiro ganhador com um elenco inteiramente negro, definitivamente, soam diferente do que a academia está acostumada a ouvir.

A assustadora distribuição de tempo de fala por gênero mostrada aqui não é nenhuma novidade. Além do famoso estudo do Polygraph de 2016, um estudo de 2018 de pesquisadores da USC mostra que os filmes mais populares de 2007 a 2017 contém, em média, 30% de personagens femininos. Nos últimos dez anos de Oscar, essa desigualdade se materializa de uma forma ainda mais escancarada: no total, as mulheres somam apenas 17,7% do tempo total de fala. Ou seja, além de serem menos numerosas, o espaço de fala das personagens femininas é também muito menor do que o dado aos homens. Novamente, é simbólico que a marca menos desigual desse padrão venha de um filme estrangeiro, removido do contexto tradicional contemplado pelos Oscars.

A exploração inicial apresentada aqui abre caminho para estudos dirigidos sobre a relação entre os descritores utilizados e seus papéis nos enredos analisados. Ao longo do texto, sinalizamos algumas questões em aberto, como o uso do ritmo de fala e sua variação como artifícios estilísticos, que podem ser investigadas com uma análise mais próxima desses descritores em conjunto com as narrativas nas quais estão inseridos. As ferramentas apresentadas também possibilitam estudos comparativos sobre as características acústicas das falas (melodia, ritmo, intensidade) de diferentes movimentos estilísticos, o uso de diálogo e som por diferentes diretores, e como tendências sonoras variam ao longo do tempo. Em conclusão, essas são ferramentas viáveis para o auxílio de estudos teóricos sobre cinema e estética, além de abrirem novas possibilidades de estudos de corpus cinematográficos.

Referências

[1] Doukhan, David, et al. “An open-source speaker gender detection framework for monitoring gender equality.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.

[2] De Jong, Nivja H., and Ton Wempe. “Praat script to detect syllable nuclei and measure speech rate automatically.” Behavior research methods 41.2 (2009): 385–390.

[3] Skovenborg, Esben, and Soren H. Nielsen. “Evaluation of different loudness models with music and speech material.” Audio Engineering Society Convention 117. Audio Engineering Society, 2004.

--

--

Nicolas Figueiredo
Nicolas Figueiredo

Written by Nicolas Figueiredo

Computação musical, ciência de dados, humanidades digitais e política.

No responses yet