Desde a década de 90 as empresas, principalmente as grandes, criaram suas estruturas de Data Warehouse e Business Inteligence para integrar os dados que estavam dispersos em vários silos e diversos setores para terem um olhar mais voltado para o cliente do que para os produtos que possuíam.
Exemplo desta época são os bancos em que cada produto (poupança, aplicações financeiras, seguros, etc) possuía seu próprio cadastro e não existia a visão focada no cliente para entender seu relacionamento e produtos que consumia, dificultando a possibilidade de criar ofertas específicas para aumentar o relacionamento banco-cliente.
Ainda que esta iniciativa trabalhasse com dados estruturados, o que facilitou muito a integração, ainda era necessário uma limpeza dos dados para evitar duplicação e campos sem informação. Era necessário escolher também um dos campos que estivesse em todas as tabelas para que pudéssemos criar um link entre as tabelas de dados (primary key) e armazená-los em um banco de dados. Para isso era utilizada uma ferramenta chamada ETL (Extract, Transform, Load), e a necessidade de um processador que fosse rápido o suficiente para mastigar todos estes dados a cada nova pesquisa realizada.
Aplicação
Toda essa experiência inicial pode e vai será utilizada nos modernos Big Data. Entretanto, com o crescimento da internet e seus filhotes – como o Comercio Eletrônico, Redes Sociais, os próprios dados de navegação, entre outros – gerou-se uma quantidade gigantesca de dados que podem ser úteis para conhecermos melhor nossos clientes, automatizar processos, gerar novos produtos e por ai vai. O grande problema neste caso é que estes dados, em sua maioria, não são estruturados.
Atualmente, o Google talvez seja o maior exemplo do uso de Big Data por uma empresa, com a coleta de dados de quase tudo que é gerado na web, por meio dos serviços que eles dispõem no mercado e gerando mais e mais serviços. Este é o tipo de uso de Big Data disponível para todos, fornecidos por empresas que coletam, tratam e geram serviços que são depois comercializados.
A pergunta que fica é:
Como utilizar Big Data para trabalharmos os dados de nossas empresas?
Em primeiro lugar, precisamos entender que não é somente um software que vai oferecer tudo material necessário para construir um Big Data, há a necessidade de se pensar em uma plataforma de hardware MPP (Masively Parallel Processing) para que o sistema consiga dar um retorno rápido à análise deste volume enorme de dados. Para isso, opções não faltam no mercado, você pode contar com sistemas já prontos, de hardware e software, criados por empresas como IBM e Oracle, ou montar seu quebra-cabeça via os parceiros do Google para sua plataforma Big Query.
Já que o problema não é infraestrutura, o que falta para as empresas entrarem de cabeça e usufruírem tudo o que o Big Data pode oferecer? Profissionais e a própria infraestrutura irão consumir uma verba bastante robusta do orçamento e há necessidade de criar projetos ou responder a perguntas que possam dar um retorno mais rápido, isso é primordial para que o projeto não naufrague.
O ponto inicial é esse: termos em mente onde queremos começar e traçar um projeto evolutivo para que você tenha tempo de criar casos de sucesso internos e preparar a mudança cultural que este projeto irá criar na sua empresa. Para terminar não podemos esquecer a peça chave deste processo todo, o analista, agora chamado de Cientista de Dados, bonito nome para um profissional que irá misturar conhecimentos de negócios, estatística e TI, entre outros, importantíssimo para que seu projeto e os resultados que você espera.
*Ruy Carneiro é Sócio-Diretor da WA Consulting e membro do Comitê de Digital Analytics do IAB Brasil.