O que diabos é ... Big Data?
Por Manoel Martini Pereira | 23/09/2013 | TecnologiaO que diabos é ... Big Data?
Este artigo eu li num blog do Bernard Marr e quis traduzi-lo e divulga-lo para um maior número de pessoas, no Brasil, pelas informações interessantes que ele nos fornece.
Big Data é o grande tema do momento e acredito ele irá mudar o mundo. Alguns dizem que será ainda maior do que a Internet. O certo é que, big data irá impactar a vida de todos. Dito isto, eu também acho que o termo "big data" não é muito bem definido e não é, na verdade, bem escolhido. Deixe-me usar este artigo para explicar o que está por trás do enorme burburinho do 'big data' e desmistificar alguns desses exageros.
Basicamente, big data se refere à nossa capacidade de coletar e analisar grandes quantidades de dados que estão agora sendo gerados no mundo. A capacidade de aproveitar a massa cada vez maior de dados está transformando completamente a nossa capacidade de compreender o mundo e tudo dentro dele. Os avanços na análise de grandes volumes de dados nos permitem, por exemplo, decodificar DNA humano em minutos, encontrar a cura para o câncer, prever com precisão o comportamento humano, frustrar ataques terroristas, identificar os esforços de marketing e prevenir doenças. Vejamos este exemplo de negócio: a Wal-Mart é capaz de levantar os dados de seus padrões de compra do passado, suas informações de estoque interno, os dados de localização de telefones celulares, mídias sociais, bem como informações sobre a temperatura externa e analisar tudo isso em segundos para que ele possa enviar-lhe um voucher de um limpador de churrasqueira para o seu telefone - mas só se você possui uma churrasqueira, o clima é agradável e você está atualmente dentro de um raio de 3 quilômetros de uma loja Wal-Mart, que tem o limpador de churrasqueira no estoque. Isso é uma coisa assustadora, mas um passo de cada vez, vamos primeiro olhar porque nós temos hoje muito mais dados do que nunca tivemos.
Em minhas palestras e treinamentos sobre grandes volumes de dados, eu falo sobre a "datificação” do mundo. Esssa “datificação” é causada por uma série de coisas, incluindo a adoção de mídias sociais, a digitalização de livros, músicas e vídeos, o uso crescente da Internet, bem como sensores mais baratos e melhores que nos permitam medir e acompanhar tudo. Basta pensar nisso por um minuto:
- Quando você estava lendo um livro no passado, nenhum dado externo foi gerado. Agora, se você usar um dispositivo Kindle ou Nook, eles rastreiam o que você está lendo, quando você estiver lendo, quantas vezes você leu, a rapidez com que você o leu, e assim por diante.
- Quando você estava ouvindo CDs no passado nenhum dado foi gerado. Agora ao ouvir o MUSIC.com no seu tocador de música digital ou iPhone, estes dispositivos estão gravando dados sobre o que você está ouvindo, quando e quantas vezes, em que ordem, etc.
- Hoje, a maioria de nós carrega telefones inteligentes e eles estão constantemente coletando e gerando registros de dados da nossa localização, seguindo a nossa velocidade, monitorando que aplicativos estão usando, bem como o que estamos ouvindo ou nossas mensagens de texto.
- Os sensores estão cada vez mais sendo usados para monitorar e capturar tudo, desde a temperatura ao consumo de energia, dos movimentos do oceano ao fluxo do tráfego, das coletas de lixo ao seu ritmo cardíaco. Seu carro é cheio de sensores e também o são as TVs inteligentes, relógios inteligentes, geladeiras inteligentes, etc. Pegue, por exemplo, a minha nova balança (que eu - como um gadget freak - amo), elas medem (e mantém registro) o meu peso, meu % de gordura corporal, a minha frequência cardíaca e até mesmo a qualidade do ar no meu quarto de dormir. Quando eu subo na balança ela me reconhece automaticamente, tira toda a medição e, em seguida, as envia, via Bluetooth, ao meu iPhone o que me dá estatísticas sobre como a forma do meu Índice de Massa Corporal, entre outras coisas, está mudando. Esta informação é então também sincronizada com os dados recolhidos pela minha Up band (uma pulseira), que acompanha as calorias que eu tenho consumido e queimado em um dia e quão bem eu dormi durante a noite.
- Finalmente, combina tudo isso agora com os bilhões de buscas na internet realizadas diariamente, milhares de milhões de atualizações de status, mensagens no mural, comentários e “likes” gerados no Facebook a cada dia, as mais de 400 milhões de tweets enviados no Twitter por dia e às 72 horas de vídeo enviado para o YouTube a cada minuto.
Tenho a certeza que você está entendendo. O volume de dados está crescendo a uma taxa crescente. O Presidente executivo do Google, Eric Schmidt, diz sobre isso: “Desde o início da civilização até 2003, a humanidade gerou cinco exabytes de dados. Agora produzimos cinco exabytes a cada dois dias... e o ritmo está crescendo”.
Não só temos uma grande quantidade de dados, também temos um monte de novos e diferentes tipos de dados: texto, vídeo, logs de busca na web, dados de sensores, transações financeiras e pagamentos com cartão de crédito, etc. No mundo de "Big Data" falamos sobre o 4 Vs que caracterizam grandes dados:
- Volume - as vastas quantidades de dados gerados a cada segundo
- Velocidade - a velocidade com que novos dados são gerados e circulam (detecção de fraudes de cartão de crédito é um bom exemplo, onde milhões de transações são controladas por padrões incomuns quase em tempo real)
- Variedade - os cada vez mais diferentes tipos de dados (dos dados financeiros para feeds de mídia social, das fotos para os sensores de dados, da captura de vídeo para gravações de voz)
- Veracidade - a confusão dos dados (apenas pense nos posts do Twitter com hashtags, abreviaturas, erros de digitação e fala coloquial).
Portanto, temos uma grande quantidade de dados, em diferentes formatos, que estão se movendo rápido e de qualidade variável - por que isso mudaria o mundo? A razão pela qual o mundo mudará é que agora temos a tecnologia para juntar todos esses dados e analisá-los.
No passado tivemos as ferramentas dos bancos de dados tradicionais e analíticas que não podiam lidar com dados extremamente grandes, bagunçados, desestruturados e de mudanças rápidas. Sem entrar em muitos detalhes, agora temos softwares como o Hadoop e outros que nos permitem analisar volumes de dados estruturados ou não, extensos, confusos e de rápida transformação. Isto é conseguido através da divisão de tarefa entre vários computadores diferentes (que é um pouco parecido como o Google divide a sua função de busca). Como consequência disso, as empresas podem agora reunir essas fontes diferentes e inacessíveis de dados para gerar resultados impressionantes. Vejamos alguns exemplos reais de como “big data” é usado hoje para fazer a diferença:
- O FBI está combinando os dados de mídias sociais, câmeras de circuito fechado, telefonemas e textos para rastrear criminosos e prever o próximo ataque terrorista.
- O Facebook está usando as ferramentas de reconhecimento facial para comparar as fotos que você carregou com os de outros para encontrar seus potenciais amigos.
- Os políticos estão usando análise de mídias sociais para determinar onde eles têm de trabalhar mais arduamente a campanha para ganhar a próxima eleição.
- A análise de vídeo e sensores de dados dos jogos de beisebol ou futebol é usada para melhorar o desempenho dos jogadores e equipes. Por exemplo, agora você pode comprar uma bola de beisebol com mais de 200 sensores que lhe dão um feedback detalhado sobre como melhorar o seu jogo.
- Artistas, como Lady Gaga, estão usando os dados de nossas preferências e sequências musicais para determinar a lista mais popular para seus shows ao vivo.
- O carro de auto condução, sem motorista, do Google está analisando uma quantidade gigantesca de dados de sensores e câmeras em tempo real para ficar na estrada com segurança.
- A informação do GPS de onde o nosso telefone está e quão rápido ele está se movendo é agora usado para fornecer ao vivo atualizações de tráfego.
- As empresas estão usando as análises de sentimento postadas no Facebook e Twitter para determinar e prever o volume de vendas e o valor da marca.
- Os supermercados estão combinando seus dados de cartão de fidelidade com informações da mídia social para detectar e alavancar mudanças nos padrões de compra. Por exemplo, é fácil para o varejo prever que uma mulher está grávida, simplesmente com base na mudança nos seus padrões de compra. Isto lhes permite atingir mulheres grávidas com promoções para os bens relacionados ao bebê.
- A unidade hospitalar, que cuida de bebês prematuros e doentes está gerando um acompanhamento ao vivo de cada batimento cardíaco. Em seguida, analisa os dados para identificar padrões. Com base na análise do sistema agora pode detectar infecções 24hrs antes que o bebê iria mostrar quaisquer sintomas visíveis, o que permite a intervenção precoce e tratamento.
E esses exemplos são apenas o começo. As empresas estão apenas começando a se familiarizar com o novo mundo de grandes volumes de dados. Concluindo então, big data irá mudar o mundo. Em termos de linguagem, prefiro falar sobre a “dataficação” do mundo em relação às quantidades crescentes de dados e de análise em larga escala (ou simplesmente' analytics ', porque o que é grande agora será normal amanhã), em relação à nossa capacidade de analisar e explorar grandes volumes de dados.