Quando uma empresa entra em contato conosco para iniciar um projeto de ciência de dados, geralmente a primeira coisa que fazemos é um diagnóstico das necessidades estratégicas da empresa, seguida ou combinada por uma análise exploratória.
Essa etapa do projeto tem como propósito organizar e limpar as bases de dados disponíveis e identificar padrões de comportamento que só se tornam aparentes quando olhamos diretamente para os dados. Essas descobertas irão validar - ou contradizer - suposições que a empresa tem sobre o comportamento de seus clientes e dos seus próprios processos internos, além de produzir insights para embasar melhor suas decisões estratégicas.
A análise exploratória é o momento ideal para experimentar visualizações, testar hipóteses e, de uma forma geral, exercitar a curiosidade.
Esse tipo estudo exige sim uma boa dose de matemática, estatística, computação, conhecimentos de negócios mas é acima de tudo um processo criativo e colaborativo. E há aqui o risco de que a equipe envolvida no projeto acabe descambando para uma busca aleatória e não consiga fazer descobertas de qualidade.
Quando as possibilidades de exploração são infinitas, saber a direção do caminho a seguir se torna uma ferramenta mais poderosa do que qualquer algoritmo avançado.
O que determina o sucesso de um estudo?
Os projetos de exploração em ciência de dados muitas vezes são confundidos com entregas de software ou a confirmação de uma crença, ou seja, a expectativa é de que o resultado obtido seja palpável (como a inclusão de botão em uma tela) ou valide uma hipótese.
O que acontece muitas vezes é que esse processo pode não validar a hipótese formulada e, definitivamente, a saída não será um botão funcional. Então como sabemos que a fase de estudos obteve sucesso?
Assim como outros tipos de projetos, precisamos de objetivos bem estabelecidos já desde a fase inicial. Para que isso ocorra, temos alguns pontos importantes a determinar:
- Que perguntas de negócio queremos responder/analisar?
- De que forma respondemos estas perguntas atualmente?
- Quantas pessoas/áreas de negócio estas perguntas atendem dentro da empresa?
- Estas pessoas/áreas de negócio respondem as perguntas da mesma forma (mesmos cálculos)?
- Os conceitos e termos utilizados internamente estão alinhados em todas as áreas de negócio? Por exemplo, a palavra performance pode conter diversos significados e variáveis dependendo da área/setor da empresa.
- Que dados estão disponíveis para responder as perguntas feitas?
- Esses dados podem ser acessados por todos os setores da empresa envolvido no projeto? Há alguma limitação de privacidade e segurança?
- Confiamos nestes dados? Se não confiamos, o que podemos fazer para mudar o cenário?
O ponto mais relevante da lista acima é o primeiro, perguntas de negócio. É através delas que orientamos as definições das próximas perguntas listadas.
Além de termos os objetivos bem definidos, precisamos também de métricas relacionadas ao desenvolvimento do projeto. Algumas delas fazem parte das métricas tradicionais de gestão, e envolvem: prazo, tempo, equipe, riscos e orçamento. Mas outras métricas podem ser relevantes para a análise exploratória:
- Que métricas (índices ou indicadores) já possuímos internamente? Como são calculadas? São métricas tradicionais do mercado?
- Queremos incluir novas métricas? O que pretendemos medir?
E como saber se estou fazendo as perguntas certas?
Uma das partes mais desafiadoras do trabalho dos cientistas de dados, bem como de vários pesquisadores, é a formulação de perguntas, mas por quê? Nas áreas de negócio é comum encontrarmos perguntas muito amplas, ou seja, elas não tem um recorte que possa ser respondido de forma eficiente em uma análise de dados. Compare, por exemplo, as perguntas amplas e específicas abaixo:
Perguntas amplas
- Qual o perfil dos clientes?
- Qual o comportamento dos clientes?
- Qual a performance dos colaboradores?
Perguntas específicas
- Que fatores motivam o abandono dos clientes no processo de assinatura?
- Quais características socioeconômicas são predominantes nos clientes que assinam o produto?
- As entregas geradas pelo trabalho dos colaboradores estão relacionadas aos objetivos da empresa?
Se observarmos bem as perguntas específicas, conseguimos identificar quais variáveis serão relevantes para a execução da análise, ou o tipo de informações que serão necessárias. Elas fazem um papel importante, orientando os cientistas durante a captura dos dados e exploração.
Já as perguntas mais amplas, ao invés de servirem de orientação, muitas vezes acabam deixando mais dúvidas e podem resultar em análises que não abrangem as variáveis esperadas pelos gestores de negócio. Esse processo também acaba abrindo margem para interpretações setoriais ou não vinculadas ao objetivo inicial podendo gerar bastante retrabalho.
E se travar no meio do caminho?
Vamos supor que o projeto contém a seguinte pergunta de negócio:
P: Quais os fatores que diferenciam os clientes assinantes dos não assinantes?
Após o estudo, é possível que cheguemos na resposta abaixo:
R: nenhuma diferença significativa no padrão de comportamento destes clientes foi encontrada.
E agora? O que tentar em seguida?
Podemos utilizar um novo conjunto de dados ou aplicar algum novo método de coleta em uma nova iteração da análise de dados para confirmar esse resultado negativo. Se há fortes indícios - fora dos dados - de que deveria haver uma diferença no padrão de comportamento, o ideal é que essa solução entre para o desenvolvimento de longo prazo, e que o time revisite as explorações feitas no estudo inicial com os novos dados.
Fazer isso, porém, apresenta riscos ao projeto quando olhamos para as métricas de prazo, tempo, custos e equipe. Um caminho para esta situação seria avaliar outras perguntas que precisam ser respondidas e fazer uma re-priorização do estudo, dando foco à outras questões tão relevantes quanto a primeira. A velocidade com que essa re-priorização é feita afeta diretamente os resultados finais do projeto.
Se esgotar as ideias de testes e novas análises para fazer, há também uma outra possibilidade que, apesar de amarga, precisamos aceitar. Muitas vezes um resultado negativo é só isso mesmo: um resultado negativo. Talvez realmente não haja diferença significativa entre os grupos, talvez não existam clusters nos dados e tudo bem. O importante é ver se isso pode impulsionar novas perguntas de negócios.
Resumindo: quando algum resultado não sai como o esperado, avalie se vale a pena repetir o estudo com novos dados mas, acima de tudo, re-priorize.
Olhando pro futuro
O conhecimento adquirido em um estudo inicial é o que servirá de insumo para traçar os novos caminhos do projeto. E isso geralmente se manifesta em forma de novas perguntas:
- Se o estudo expôs fragilidade no modelo de negócios ou na própria organização dos dados, que ações devo tomar para minimizar esses riscos?
- Surgiram novas perguntas a serem exploradas com os dados existentes? Ou seria melhor coletar mais dados para fazer outras validações?
- A empresa se beneficiaria se esses insights se tornasse um relatório recorrente? Quem sabe até um dashboard?
- Com os dados já bem organizados, seria agora o momento de explorar algoritmos de Machine Learning? Com qual propósito?
A análise de dados é um processo contínuo, dinâmico e iterativo. Os objetivos da empresa, os tipos de dados disponíveis bem como as necessidades do mercado no país ou no mundo podem mudar com o tempo. É importante ficar atento a estes fatores e ir se adequando às mudanças.
Lembre-se, são as perguntas que orientam o desenvolvimento e as descobertas na exploração dos dados. Elas servem de norte para a definição do produto a ser desenvolvido. Muito mais do que perguntas certas, precisamos definir perguntas que possam ser respondidas com dados.
Se ao final do seu projeto de dados você e sua equipe estiverem cheios de novas perguntas, não se preocupe, esse pode ser um sinal de que estão no caminho certo.