Visão Geral da Arquitetura de Big Data

8 de dezembro de 2014
Compartilhe

Em artigo anterior, comentei sobre os fundamentos de Big Data. Depois comentei sobre Cloud Computing, sua importância e integração com Big Data. Vou estender esta discussão sobre a Arquitetura que envolve Big Data para poder, nos próximos artigos, explorar e detalhar os elementos que compõem esta arquitetura. Com isso vou passar a mesclar conteúdos mais gerenciais com conteúdos mais técnicos.

Eu desenvolvi um Mapa Mental para visualizar os principais componentes de uma Arquitetura de Big Data.

artigo poderoso

 

Estão grafados no Mapa os principais elementos, preocupações e necessidades de um ambiente de Big Data. Por ser um Mapa Mental, tanto faz por onde comecemos a analisá-lo. Utilizando uma ordem arbitrária, vou começar argumentando sobre Negócios e suas subdivisões de Competição Analítica, CRM, Marketing e Redes Sociais.

Sem uma boa visão e definição de Negócio é impossível ter uma solução ou mesmo um projeto de Big Data. Saber a questão adequada para um problema de Big Data e vincular esta questão com uma necessidade real do negócio da empresa é fundamental para este tipo de projeto. Identificar oportunidades competitivas envolve conhecer melhor o cliente, o produto, a cadeia de distribuição ou produção, os fornecedores e os competidores. Big Data pode ser uma boa ferramenta para atender este objetivo. Mas sem ter em mente com clareza e precisão onde se quer chegar, fatalmente levará este tipo de projeto ao fracasso.

Outro elemento extremamente importante é o Armazenamento dos Dados (o primeiro dos três Vs de Big Data). O Armazenamento envolve questões que nascem em uma Plataforma Distribuída, passa pelos bancos específicos (NoSQL) e terminam em um ambiente de Tomada de Decisão (representado pelo SQL e Data Warehouse no Mapa). Não considero um grande problema. Atualmente há ferramentas que atendem com relativa facilidade esta questão.

A Escalabidade tem a ver com o Volume, mas também envolve a Variedade das origens (o segundo dos Vs) encontrada neste tipo de projeto. E isso se resolve com Processamento Paralelo, Bancos Não-Relacionais (NoSQL) e Cloud Computing. É uma solução técnica. Certamente irá evoluir para facilitar o processo, mas não é algo que deva atemorizar o condutor deste tipo de projeto.

A Coleta e Integração de Dados também é um problema que envolve os dois primeiros Vs. Está relacionado com Cloud Computing, mas encontra seus principais desafios na Ingestão e Limpeza / Tratamento de Dados. Permitam-me a redução conceitual, mas a Ingestão para mim é um ETL de alta complexidade, com inúmeras fontes e com técnicas de solução do problema muito semelhantes, mas, naturalmente, adaptadas ao volume e variedade de dados do Big Data.

A Segurança não está apenas relacionada à questão da Governança e seus acordos para acesso, controle e disseminação dos dados. Está intimamente relacionada à questão Ética. O que é ético fazer com dados que na grande maioria das vezes são públicos? Como uma análise dos dados públicos pode interferir na vida das pessoas? Estas questões precisam de calma e sensatez para se encontrar as respostas.

A Visualização dos Dados envolve o uso e prática de técnicas estatísticas adequadas para responder as questões de negócio que justificarão o desenvolvimento do projeto. Com estes importantes recursos da matemática será possível estabelecer Análises de Correlação que utilizam técnicas de Data Mining (mineração de dados) aplicadas em um grande volume de dados.

Por fim, e não menos importante, o uso de técnicas de Análise avançadas, Machine Learning (aprendizagem de máquina) com algoritmos especialmente testados, desenvolvidos e aplicados para modelos de previsão permitem que o terceiro V (Velocidade) atenda às necessidades do negócio. Mostrar estas análises de maneira adequada ao tomador de decisão ou estabelecer visualização para modelos criados é o produto final de um projeto de Big Data.

Como é possível notar, todos estes elementos são importantes e devem ser considerados em um projeto de Big Data.

Ao longo dos próximos artigos relacionados com a arquitetura e a tecnologia, irei explorar estes conceitos com maior profundidade.

Até lá!

 

Celso Poderoso é coordenador dos cursos de MBA da FIAP (Arquitetura de Redes e Cloud Computing, Big Data – Data Science -, Business Intelligence), professor dos cursos de pós-graduação da FIAP. É mestre em Tecnologia, especialista em redes sociais aplicadas à Educação e economista. Atua desde 1984 na área de TI, especialmente em desenvolvimento de sistemas e banco de dados Oracle, atualmente é gerente de serviços na MicroStrategy.  Possui cinco livros publicados na área de banco de dados, como SQL Curso Prático e Oracle PL/SQL 10g. Todos editados pela Novatec Editora.

 

 

Nosso site armazena cookies para coletar informações e melhorar sua experiência. Gerencie seus cookies ou consulte nossa política.

Prosseguir