Cervejas e Fraldas: A Correlação Impossível

Uma Análise de Insights e Desafios em Analytics

Durante o Summit Executivo da TDWI em San Diego, Mark Madsen provocou uma pergunta intrigante: há uma correlação estatisticamente significativa entre as vendas de cervejas e fraldas?

Embora essa pergunta tenha sido respondida, o foco de Madsen, analista de pesquisa da Third Nature, foi explorar a origem, evolução e utilização — muitas vezes equivocada — dessa alegada correlação desde a sua descoberta.

Origem da História

A saga da cerveja e fraldas remonta a 1992, quando Karen Heath, então consultora da Teradata (atualmente gerente sênior de análise de saúde na Accenture), estava vinculada a um varejista do Meio-Oeste dos EUA.

A descoberta, feita através de consultas SQL no armazém de dados Teradata, visava identificar correlações entre itens de alta margem, como fraldas. Embora a conexão tenha sido autêntica, Madsen destaca que a ênfase não estava na base estatística rigorosa.

Não Mineração de Dados, Apenas SQL

O aspecto mais intrigante da conexão original entre cerveja e fraldas é que não se trata de mineração de dados ou de outras formas avançadas de análise.

Heath e sua equipe utilizaram consultas SQL nos dados do armazém Teradata para encontrar a correlação, visando organizar produtos correlacionados nas prateleiras da loja. A hipótese era que a colocação conjunta impulsionaria as vendas.

Tentativas de Repetir a Descoberta

Ao longo dos anos 1990, Madsen validou e invalidou a alegada correlação em diferentes contextos de varejo. O desafio residia na crescente dificuldade de validar a correlação, dado o conhecimento generalizado da história.

Em alguns casos, a própria história se tornou autovalidante, com varejistas criando dados para confirmar a suposta conexão.

Auto-realização da História?

Madsen destaca que, à medida que a história se popularizava, tornava-se mais difícil validar a correlação de forma objetiva. Mesmo que uma correlação fosse detectada, os varejistas precisariam controlar a promoção cruzada no nível da loja para evitar conclusões equivocadas.

A história, amplamente conhecida, poderia influenciar a disposição dos gerentes de loja em posicionar cerveja e fraldas em prateleiras adjacentes.

Lições e Reflexões

O ponto principal da apresentação de Madsen vai além da história específica da cerveja e fraldas.

Ele destaca como os insights da análise avançada diferem da inteligência de negócios (BI) e do armazenamento de dados. Madsen ressalta que os insights analíticos nem sempre são prontamente aplicáveis e exigem um nível de confiança no modelo.

Ele enfatiza que a abordagem correta é avaliar a verdade da correlação do ponto de vista operacional específico, destacando que não se pode simplesmente aplicar modelos de outras pessoas em um ambiente diferente.

Ao contrário da BI, onde os dados são dados, a análise avançada envolve a construção de modelos com aleatoriedade e vieses, exigindo validação e escala.

E Daqui em Diante?

A história da cerveja e fraldas oferece uma visão fascinante sobre como a análise de dados pode ser influenciada por narrativas, popularização e autenticidade dos modelos.

Como destaca Madsen, a confiança nos insights analíticos é crucial, e a aplicabilidade desses insights depende do contexto operacional específico.

Ao explorar essa história peculiar, podemos extrair valiosas lições sobre a complexidade da análise de dados e a necessidade de uma abordagem cuidadosa na interpretação de correlações.