Se você tiver coletado uma grande quantidade de dados que você deseja analisar, o go-to método há anos tem sido a de seguir um paradigma de programação chamada MapReduce, tipicamente utilizando framework Hadoop do Apache. É um processo de verdade e tentou, mas não é simples: Hadoop, que é principalmente escrito em Java, tem uma reputação de ser difícil.
As empresas que querem levar a sério a análise de dados, muitas vezes tem que contratar programadores de elite que se especializam em tarefas de gravação Hadoop MapReduce. Ou, eles poderiam contratar uma empresa de terceiros, tais como Cloudera para facilitar este tipo de análise. Nenhuma destas opções são uma tarefa fácil ou barato. Isso tudo significa que empresas em fase inicial ou projectos, muitas vezes simplesmente não têm os recursos ou know-how para tirar proveito de "big data".
Paquiderme é uma nova startup lançar fora da classe de Y Combinator Inverno 2015, que tem como objetivo fazer a análise de dados grande muito mais simples e acessível. Alegando para fornecer a energia de MapReduce sem a complexidade de Hadoop, Paquiderme é uma ferramenta open source que pretende permitir aos programadores para executar análise de grandes quantidades de dados sem escrever uma linha de Java ou saber uma coisa sobre como MapReduce funciona.
Por ex-funcionários RethinkDB Co-fundada Joey Zwicker e Joe Doliner , Paquiderme é possível por causa de uma série de melhorias de infra-estrutura que surgiram ao longo dos últimos dez anos, sistema de gestão mais notavelmente aglomerado CoreOS e Docker , a implantação app em nuvem e língua-agnóstico plataforma.
De acordo com os fundadores, usando Paquiderme, que está disponível em seu site e GitHub, todo um programador que quer analisar uma grande quantidade de dados tem que fazer é implementar um servidor http que se encaixa dentro de um recipiente Docker. A empresa apregoa que "se você pode se encaixar em um recipiente Docker, Paquiderme vai distribuir mais de petabytes de dados para você." Um exemplo legal que usa Paquiderme é este trabalho MapReduce para analisar e aprender com erros em jogos de xadrez.
A coisa emocionante sobre o Paquiderme está fazendo é que ele poderia fazer análise de dados muito mais acessível para as pessoas além de back-end e de infra-estrutura engenheiros. Com Paquiderme, a promessa é que os programadores especializados em engenharia de front-end e design poderia executar trabalhos do tipo MapReduce graves a si mesmos, para ajudar a informar todos os tipos de decisões de produto. "A barreira para fazer análise de dados muito interessante deve ser muito menor do que é", diz Doliner.
Financiado apenas por Y Combinator, no momento, Paquiderme agora é ainda em seus estágios iniciais. Ele eventualmente planeja ganhar dinheiro, da mesma forma que outras empresas modernas orientadas para o open source fazer, através do fornecimento de recursos e serviços adicionais pagos. Paquiderme também planeja construir uma interface de plataforma web GitHub-like para escrever trabalhos de análise de dados.
Vale observar que o Paquiderme não é a única plataforma de código aberto atualmente com o objetivo de fornecer uma alternativa para Hadoop MapReduce quando se trata de processar grandes quantidades de dados: Faísca Apache e Tempestade são variações sobre um tema semelhante, e línguas como o Scala surgiram para tornar o uso do Hadoop mais fácil.
Isso tudo vai mostrar que enquanto "big data" tem sido um chavão durante anos, na verdade, fazendo mais do mesmo é um problema que está longe de ser resolvido. Com o apoio da Y Combinator e o potencial apoio da sua comunidade mais ampla de desenvolvedores, Paquiderme tem uma boa chance de emergir como um importante player na próxima geração de processamento de dados.