Todo projeto de ciência de dados começa pela análise de dados disponíveis. O objetivo final pode ser chegar a um modelo que consegue prever o churn de usuários ou conseguir recomendar produtos relevantes.
Independente da aplicação, o entendimento claro e aprofundado dos dados e das informações existentes é um importante princípio para projetos de dados.
Abordar problemas de negócio a partir de uma perspectiva de dados têm se tornado cada vez mais relevante para diferentes ramos do mercado. Sendo assim, os números resultantes das análises de dados impactam diretamente nas decisões tomadas.
Um exemplo interessante foi o Projeto Oxygen, desenvolvido por um time de pesquisa dentro do RH da Google. Por meio de dados, a equipe conseguiu mostrar que times com bons gerentes apresentam diferença significativa na produtividade, contentamento e retenção dos liderados.
E a partir desse estudo, conseguiram formular novas perguntas de dados e obter insights sobre comportamentos percebidos nos melhores gerentes da empresa.
Quer entender um pouco mais como a análise de dados podem gerar boas métricas e, consequentemente, as melhores escolhas para uma empresa? Basta seguir com a leitura!
Como se inicia um processo simples de análise de dados?
Para mostrar a importância de entender bem os dados, vamos examinar um processo simples de análise de dados a partir de um exemplo hipotético.
Começamos por uma pergunta de negócio: quando devo enviar uma notificação ao meu usuário para que ele retorne ao website após o primeiro acesso? Não queremos que a pessoa se sinta importunada logo que sair da página, nem que ela se esqueça do site. Portanto, olhar para os dados históricos pode nos indicar um momento mais adequado.
Nossa variável principal de interesse para esse caso é a quantidade de dias que um usuário leva para retornar ao website após a primeira interação. Imagine que já passamos pelas fases iniciais de extração, limpeza e validação dos dados e podemos iniciar a análise.
Podemos responder à pergunta extraindo uma métrica que represente bem esses dados. Um indicador bastante utilizado é a média aritmética, que é obtida por meio da divisão da soma dos valores pela quantidade de elementos do conjunto.
Para o nosso caso, o tempo médio de retorno dos usuários ao website é de 24 dias. Podemos, por exemplo, tomar uma decisão para nosso negócio baseados nesse número ou repassar essa informação a uma próxima fase do processo de ciência de dados.
A média foi uma boa escolha?
Assumimos que a média é uma boa métrica para o nosso caso, mas esquecemos de algo importante: ela não é uma medida representativa em todos os casos! Ela será uma boa medida descritiva dos dados dependendo de sua distribuição estatística.
E qual é a distribuição estatística dos nossos dados?
A primeira conclusão é que essa não é uma distribuição simétrica, pois está altamente concentrada nos menores valores. A segunda é o fato de ela ter uma cauda longa, o que indica que temos alguns valores bem altos que aparecem poucas vezes. Esse é justamente o caso em que a média não é a medida de centralidade indicada para resumir os dados.
Podemos também fazer uma interpretação que se associa diretamente à origem desses dados. Para nosso caso de tempo de retorno dos usuários a um site, essa distribuição está indicando que a maior parte dos usuários retorna em pouco tempo e que uma porcentagem bem menor demora bastante tempo para retornar.
Além disso, a média sozinha não nos indica o quanto os dados variam em torno desse valor central. Outras medidas, como o desvio-padrão, indicam essa informação.
Quais outras medidas posso usar?
Algumas outras medidas estatísticas podem ser utilizadas para se analisar distribuições assimétricas como essa. Uma delas é a mediana – o número que divide o conjunto de dados exatamente na metade, de forma que metade dos elementos são menores que esse valor, e a outra metade é maior que esse valor.
Ao utilizar a mediana evitamos que os valores extremos de uma distribuição assimétrica influenciem no resultado, como ocorre com a média. Para o caso da distribuição apresentada, o valor da mediana é 11, bem menor que a média de 24.
É importante saber também a respeito da variação dos dados. O desvio-padrão é uma medida de dispersão que indica o quanto os valores estão próximos ou distantes da média.
Calculando para a distribuição acima, encontramos um desvio-padrão igual a 31. Esse valor é alto e maior do que a média, mostrando que há uma grande dispersão dos valores, confirmando o que foi visto no gráfico da Figura 1.
Outra medida interessante a ser obtida é a de percentil. Essa medida divide em 100 partes iguais os valores ordenados do conjunto e cada percentil concentra uma determinada porcentagem da distribuição dos dados.
No gráfico abaixo, alguns percentis são apresentados e comparados com os valores da média, da mediana e com o valor máximo do conjunto de dados.
Para nossa distribuição, o 75º percentil é igual a 33, e o 95º percentil é 94. Isso é o mesmo que dizer que somente 25% dos dados é maior do que 33, e que apenas 5% dos dados é maior do que 94.
Em grande parte das análises, não estamos interessados nesses valores extremos, pois podem representar, por exemplo, um erro no sistema. Porém, existem algumas exceções em que é interessante investigar justamente esses extremos, pois podem indicar um caso especial a ser tratado.
Quais são os impactos de fazer uma análise de dados para o negócio?
Vimos algumas métricas que podem nos ajudar a compreender melhor nosso conjunto de dados. Percebemos que o valor médio de 24 dias é influenciado pelos valores extremos da nossa distribuição estatística assimétrica. A mediana de 11 dias é uma medida central melhor para o nosso caso.
Ainda assim o desvio-padrão de 31 dias indica que os usuários apresentam tempos bem diferentes de retorno ao website. Mesmo com essa grande variação, nossa análise poderia desconsiderar os outliers acima do 95° percentil de 94 dias, pois representam somente 5% dos casos.
Uma das conclusões da nossa investigação é que não precisamos esperar um tempo de 24 dias para notificar o usuário, pois corremos o risco de perdê-lo ou deixar passar o momento adequado. Se utilizarmos o valor da mediana de 11 dias, atuaremos no valor central mais apropriado.
Outra opção é notificar os usuários de forma personalizada, dada a grande variação que temos no tempo de retorno. Por meio de algoritmos de inteligência artificial, seria possível segmentar nossos usuários de acordo com características de seu perfil e predizer o momento mais indicado para notificá-lo.
Os chatbots entram, aqui, como uma boa solução. Afinal, o software consegue enviar mensagens automáticas para o usuário depois de X dias de interação, retomando a conversa e, claro, impactando nos negócios.
Quais os benefícios de entender bem os dados?
Uma análise mais completa nos ajuda a reportar métricas mais representativas e relevantes, como ocorre nesse caso ao escolher apresentar a mediana ao invés da média e complementá-la com outras medidas.
Esse processo também nos ajuda a perceber quando estamos diante de problemas mais simples, que podem ser resolvidos obtendo apenas métricas importantes, ou quando precisamos de soluções mais avançadas, como as de inteligência artificial.
Para tomarmos decisões melhores, baseada da análise de dados, precisamos confiar nas informações que obtemos deles e ter um olhar holístico quanto ao problema. E um bom entendimento dos dados é o primeiro passo nessa direção. Continue no nosso blog e descubra o é xAI, a Inteligência Artificial Explicável!