• Roberto Thomazette

A chave para a recuperação de dados no Big Data



Dados são fundamentais para qualquer organização e seu volume cresce exponencialmente. Ao lado dos “V” do Big Data: Volume, Velocidade, Variedade e Veracidade é igualmente importante ter em mente onde os dados são armazenados, como são acessados e como as ferramentas de data discovery processam, visualizam e analisam os dados.


Com o advento das novas tecnologias de Big Data, as organizações estão sendo desafiadas a levar ainda mais em consideração o acesso aos dados e determinar a melhor abordagem para um desempenho ótimo.


Neste texto, revisaremos várias abordagens para acesso a dados, como os conhecidos modos in-memory e in-datasource. Também falaremos sobre as arquiteturas flexíveis que permitem aos usuários acessar os dados por meio de uma combinação de formas tradicionais, como a abordagem data-on-demand.



In-Memory


Uma das abordagens mais tradicionais para acessar dados é a in-memory. Como o nome indica, baseado em critérios de pesquisa, a ferramenta de visualização traz todos os dados relevantes para sua própria memória interna a partir da fonte de dados. Os dados são ordenados em um formato que permite fazer os cálculos necessários para visualizar os dados de forma rápida e eficiente.


Esse método, sem dúvida, oferece grandes benefícios de performance e velocidade, na medida em que os dados carregados na memória não são muito grandes e levam menos tempo para que os dados carregados na memória sejam suficientes para atender as questões específicas que são feitas e também quando a necessidade de atualização de dados é inconstante. O ponto fraco dessa abordagem aparece quando considerações como volume de dados, tempo para carregamento de dados da fonte na memória, idas e voltas para os dados novos atualizarem os resultados, velocidade e confiabilidade da rede, espaço em memória, etc., se tornam mais e mais relevantes e críticas para a performance.



In-datasource


Outra abordagem comum para acesso de dados é o in-datasource (anteriormente chamado de in-database, antes do advento do Hadoop e de outras tecnologias não baseadas em database). Nesse cenário, os dados sendo analisados ficam na origem dos dados e somente os resultados são trazidos como visualizações para análise futura.


 Esse método parece muito mais eficiente, entretanto tem seu próprio conjunto de limitações, especialmente quando alguém começa a fazer perguntas como:


Quantos threads (linhas de execução) a máquina de database deve ter para executar solicitações?


Como a performance é impactada quando as consultas se tornam mais complexas e requerem detalhes ao nível de linha?


Outra abordagem que recai nessa forma de recuperação de dados é pré-criar regularmente um conjunto de respostas query de forma que as perguntas mais comuns podem ser respondidas rápida e eficientemente. Pensando em cubo? Cubos são pré-construídos com dimensões e unidades específicas (objetos numéricos) que contêm respostas pré-construídas para perguntas comuns e os resultados podem ser visualizados assim que as dimensões e unidades correspondam ao que você deseja visualizar.



Data-On-Demand


Uma terceira opção para acesso de dados é o híbrido entre in-memory e in-datasource, em que os dados permanecem na fonte de dados e os dados relevantes são recuperados da fonte somente quando são necessários. Essa abordagem otimiza os recursos de sistema e não degradam a performance, oferecendo essencialmente o melhor dos dois mundos.


A chave para a recuperação visual de dados no Big Data é acessar os dados em uma combinação de formas diferentes ao mesmo tempo, a partir da mesma análise ou dashboard.


As plataformas de recuperação visual de dados oferecem uma arquitetura flexível e ágil e são capazes de analisar dados de virtualmente qualquer fonte de dados. As melhores soluções oferecem conectores de dados para um largo espectro de fontes de dados, permitindo que elas trabalhem in-datasource. Bases de dados relacionais têm diferentes recursos, entretanto, os cubos com suas unidades calculadas, são bem diferentes de fontes de dados relacionais. Todas essas diferentes tecnologias relacionais e não-relacionais podem ser harmonizadas com facilidade, possibilitando opções de conexão muito boas. 


Além de visualizar Big Data, essas tecnologias oferecem funcionalidades analíticas avançadas como rodar modelos estatísticos. A chave para isso também é a combinação de técnicas in-datasource e in-memory. Por exemplo, quando rodar análise preditiva, somente os dados relevantes são analisados e computados in-datasource, depois levados e enriquecidos com as capacidades de expressão in-memory.


Para saber mais, leia os outros textos do nosso blog e não se esqueça de deixar suas dúvidas e opiniões.



(*) Em tradução livre, data discovery é uma arquitetura de BI voltada para desenvolver relatórios interativos e dados exploráveis a partir de várias fontes.