Modelagem Preditiva e Produtos Relacionados aos Dados

12 de janeiro de 2015
Compartilhe

O Big Data trouxe uma nova era para a Computação: a exploração dos dados para melhorar o processo de tomada de decisão nas organizações. Utilizar dados para tomar decisões está longe de ser uma novidade, mas a computação evoluiu a ponto de fazer com que diversas tecnologias se relacionassem para permitir o acesso e o uso dos dados em um volume, variedade e com a velocidade cada vez maior.

A Análise Preditiva é uma técnica estatística para modelar e encontrar padrões que utiliza dados históricos para realizar previsões de tendências, padrões de comportamento ou eventos futuros. Desde o final século XIX, utiliza-se este tipo de técnica para apoiar o processo de gestão de negócios.

No final da década de 60, houve uma maior atenção a este tema devido ao surgimento dos primeiros sistemas de suporte à decisão, e depois com os sistemas ERP (enterprise resource planning) e DW (data warehouses). Desde então, diversos produtos relacionados à gestão dos dados, especialmente aqueles voltados para Modelagem Preditiva, têm surgido.

A Modelagem Preditiva utiliza-se de estatística e modelos matemáticos para prever resultados futuros. Basicamente, escolhe-se o melhor modelo fundamentado na probabilidade de um resultado ocorrer conforme um conjunto de dados de entrada. Esses modelos utilizam um ou mais classificadores que avaliam a probabilidade de um conjunto de dados pertencerem a outro conjunto.

Estas técnicas de previsão são muito úteis e, infelizmente, pouco utilizadas no Brasil. Algumas possíveis aplicações para estas previsões estão nas seguintes áreas:

  • CRM (Customer Relationship Management): prever o cancelamento de uma assinatura, por exemplo.
  • Seguros: medir riscos de incidentes baseado no perfil do segurado.
  • Saúde: medir o risco de pacientes terem recaídas no tratamento.
  • Varejo: identificar a relação entre produtos adquiridos.
  • Finanças: identificar fraudes, por exemplo, em cartões de crédito.

Contudo, situações como estas se limitam a realizar previsões que podem ajudar a tomar decisões, evitar situações indesejáveis, ou até mesmo diminuir o risco de operações das organizações.

Há espaço para um passo além quando se imagina um processo de tomada de decisão orientada para a prescrição de ações. A ideia central por trás disto é que haja sistemas que além de gerar mais dados (na forma de previsões) sejam capazes de produzir orientações para se atingir resultados.

Uma das técnicas utilizadas para esta finalidade é a abordagem Drivetrain, que ficou amplamente difundida com o gigante e sua máquina de buscas conhecido como Google. Os quatro passos para a adoção desta abordagem são:

  • Qual o resultado que se quer alcançar: definir o objetivo sem se importar com as restrições ou qualquer limitação existente. É uma questão de negócio que precisa estar alinhada com uma necessidade real da organização.
  • Quais são os elementos que podem alavancar o processo (alavancadores): identificar quais as variáveis de entrada que se tem controle e, portanto, importantes utilizar para atingir o objetivo. É fundamental listar todas as que tenham qualquer nível de influência no resultado esperado. É possível que em algumas destas variáveis não se tenha o controle completo.
  • Quais são os dados necessários: localizar os dados que podem ser coletados e utilizados no modelo ou os dados que ainda não existam, mas que sejam necessários. Em um primeiro momento, é possível que nem todos os dados estejam disponíveis ou que seja necessário um esforço muito grande para consegui-los. Este é o passo no qual se vincula o que se deseja com o que é possível em termos de dados, e ter uma visão do que será necessário produzir para alcançar o objetivo.
  • Criar os modelos: vincular os alavancadores do processo com os dados disponíveis para criar os modelos adequados para atingir o objetivo.

Os modelos gerados serão formados por si mesmos e também pelas variáveis de entrada (alavancadores). Normalmente será gerado mais de um modelo para acomodar as variáveis de entrada. Os resultados destes modelos devem ser combinados para prever e indicar a prescrição da ação esperada (objetivo). A prescrição será o resultado das iterações realizadas através de cada um dos modelos utilizados até se atingir o objetivo final.

Matérias relacionadas:

http://www.fiap.com.br/2014/10/27/fiapx/cloud-computing-3/

http://www.fiap.com.br/2014/03/19/fiapx/big-data-arquitetura-do-ambiente/

http://www.fiap.com.br/2014/06/26/fiapx/a-gestao-de-projetos-de-big-data/

 

Celso Poderoso é coordenador dos cursos de MBA da FIAP (Arquitetura de Redes e Cloud Computing, Big Data – Data Science -, Business Intelligence), professor dos cursos de pós-graduação da FIAP. É mestre em Tecnologia, especialista em redes sociais aplicadas à Educação e economista. Atua desde 1984 na área de TI, especialmente em desenvolvimento de sistemas e banco de dados Oracle, atualmente é gerente de serviços na MicroStrategy.  Possui cinco livros publicados na área de banco de dados, como SQL Curso Prático e Oracle PL/SQL 10g. Todos editados pela Novatec Editora.

 

 

Nosso site armazena cookies para coletar informações e melhorar sua experiência. Gerencie seus cookies ou consulte nossa política.

Prosseguir