Como Formular a Pergunta Certa para Big Data

6 de julho de 2015
Compartilhe

Muitas vezes sou surpreendido com pessoas querendo desenvolver projetos “de Big Data”. A meu ver, isso é um tanto quanto equivocado. A questão não é fazer um projeto de Big Data, mas sim saber se Big Data vai ajudar a resolver uma boa questão de negócio. Entendo que Big Data não é o bolo, mas sim a cereja.

Para ter uma boa questão de negócio é importante que a estratégia da organização esteja claramente definida. Com base na estratégia é possível identificar projetos que permitam alcançar um ou mais destes elementos.

Identificado um ou mais projetos, é a hora de perguntar se a empresa possui um repositório de dados que possua condições de identificar e entender as situações do passado. Este repositório normalmente é o Data Warehouse. Costuma-se dizer que o Data Warehouse é como se fosse o retrovisor de um veículo. Se conseguimos enxergar com clareza o histórico de dados da organização, é bem provável que consigamos identificar padrões no Data Warehouse. A partir de um padrão, é possível realizar as previsões.

Portanto, antes de iniciar qualquer projeto que pode ou não vir a utilizar Big Data, verifique se o seu Data Warehouse está bem estruturado. Ele será importante para criar os modelos que atenderão os objetivos de negócio da empresa.

Mas e a questão de Big Data? Eu desenvolvi um mapa mental para guiar o tipo de questão que pode ser aplicado para resolver problemas de negócio.

artigo celso

De todos os tipos de questões possíveis, notamos que o menos usual (pelo menos por enquanto) são as questões mecânicas ou puramente físicas. Todas as outras são possíveis de serem propostas e testadas utilizando abordagens relacionadas aos dados. As questões exploratórias e descritivas normalmente são bem resolvidas com o Data Warehouse, portanto podem servir para identificar padrões (data mining), mas não necessariamente para realizar previsões. Por outro lado, questões inferenciais, causais e preditivas são utilizadas amplamente para as previsões.

Observe que para realizar previsões será necessário ter disponíveis as causas e a descrição do que aconteceu. Vou tentar esclarecer com um exemplo mais prático: se quero saber a previsão de vendas para o próximo trimestre, pode ser suficiente coletar dados de produtos, vendas e período em que as vendas ocorreram (dados históricos). Aplico um modelo matemático (neste caso uma regressão linear pode ser suficiente) e projeto as vendas para um período posterior. Para este processo, eu utilizo dados que descrevem o passado para identificar um padrão e poder extrapolar os dados para o futuro.

Para este exemplo, uma boa questão de negócio seria: “Qual a previsão de faturamento de um determinado produto para o próximo trimestre?”.

O vínculo da questão com a estratégia da empresa é fundamental para justificar um projeto. Um grande jornal norte-americano, em função da queda constante no volume de assinaturas, precisou elaborar uma questão que permitisse estancar ou pelo menos diminuir este problema. A questão de negócio, neste caso, foi: “Qual a probabilidade do cliente X cancelar a assinatura do jornal nos próximos três meses?”.

Identificada a questão, inicia-se uma busca nos dados disponíveis e inicia-se o processo de criação do modelo que melhor responde a demanda.

Mas e o Big Data? Como argumentei no início, ele pode ser visto como a cereja do bolo. Eu posso responder estas e diversas outras questões de negócio sem precisar utilizar um único dado externo à organização (Big Data, por exemplo). Mas se eu conseguir um bom modelo matemático que permita realizar as previsões com boa dose de acerto, certamente conseguirei acrescentar uma ou mais variáveis que envolvem Redes Sociais, Sensores, Dados disponíveis na Internet, Previsão do Tempo e inúmeros outros dados que irão melhorar este modelo.

De um modo geral, a minha sugestão é procurar iniciar um projeto com os dados que estão disponíveis na empresa, validar e testar o modelo. A partir de um bom modelo é possível identificar potencial para melhoria da previsão através da utilização de Big Data.

 

Celso Poderoso é coordenador dos cursos de MBA da FIAP (Arquitetura de Redes e Cloud Computing, Big Data – Data Science -, Business Intelligence), professor dos cursos de pós-graduação da FIAP. É mestre em Tecnologia, especialista em redes sociais aplicadas à Educação e economista. Atua desde 1984 na área de TI, especialmente em desenvolvimento de sistemas e banco de dados Oracle, atualmente é gerente de serviços na MicroStrategy.  Possui cinco livros publicados na área de banco de dados, como SQL Curso Prático e Oracle PL/SQL 10g. Todos editados pela Novatec Editora.

Nosso site armazena cookies para coletar informações e melhorar sua experiência. Gerencie seus cookies ou consulte nossa política.

Prosseguir