O que é Data Clustering?


Data clustering é o processo de agrupar itens, com base em similaridades entre os itens de um grupo. Pode ser utilizado para compressão de dados, data mining, reconhecimento de padrões e aprendizado de máquina (campo da inteligência artificial dedicado ao desenvolvimento de algoritmos e técnicas que permitam ao computador aprender, isto é, que permitam ao computador aperfeiçoar seu desempenho em alguma tarefa).


Exemplos de aplicações incluem agrupamento de consumidores em segmentos de mercado, classificação de unidades manufaturadas por seus padrões de falhas, identificar pontos sujeitos a crimes e identificar regiões com características geográficas similares. Uma vez que os agrupamentos (clusters) são definidos, o próximo passo deve ser construir um modelo preditivo. 


Dois métodos podem facilitar o clustering:


Agrupamento K-Médias (K-Means)


Um método de clustering que objetiva particionar n observações entre k grupos, onde cada observação pertence ao grupo mais próximo da média. Isso resulta em uma divisão do espaço de dados em um Diagrama de Voronoi.


Para realizar o agrupamento K-médias é preciso criar um gráfico de linhas no qual cada linha é um elemento que você gostaria de representar. Em seguida, o usuário pode selecionar vários atributos no eixo Y, que podem ser da mesma escala ou podem usar múltiplas escalas e aparecem como pontos na linha. É importante notar que valores nulos não serão usados nos cálculos do cluster.


É possível selecionar a distância e o número de clusters na entrada dos dados para cálculo, assim como atualizar os dados existentes.



As opções de distância incluem: 


Distância Euclidiana: compara a distância entre pontos da linha. Isso é, a magnitude dos valores ao longo do eixo Y tem um impacto significativo na

comparação. 


Similaridade de correlação: compara a forma das linhas. Isso é, a magnitude dos valores ao longo do eixo Y é menos importante que as mudanças nas direções entre os pontos de dados.

O resultado desse cálculo é uma coluna categórica, que automaticamente atribui cada linha a um agrupamento (cluster) e mostra cada grupo do cluster em um painel no gráfico de linha resultante. A visualização desse gráfico permite uma facilidade de interpretação. É importante notar que essa nova categoria de coluna chamada "K-means Clustering” pode ser atualizada.


Agrupamento hierárquico


O agrupamento hierárquico organiza itens em uma hierarquia, com uma estrutura de árvore, baseada na distância ou similaridade entre os itens. A representação gráfica da hierarquia resultante é um gráfico chamado dendrograma (dendro = árvore), que oferece insights visuais e facilidade de interpretação.


O melhor algoritmo usado para o agrupamento hierárquico é baseado no método hierárquico aglomerativo. Para o agrupamento das linhas, a análise do cluster começa com cada linha colocada em um agrupamento separado. Em seguida, a distância entre todas as possíveis combinações de duas linhas é calculada usando uma distância selecionada previamente.


Os dois clusters mais semelhantes são então agrupados e formam um novo cluster. Em seguida, a distância entre o novo cluster e todos os demais clusters é recalculada usando um método de agrupamento escolhido. O número de clusters é então reduzido a um em cada passo de iteração.


Eventualmente, todas as linhas são agrupadas em um grande cluster. A ordem das linhas em um dendrograma é definida pelo peso escolhido previamente. A análise do cluster funciona da mesma forma para o agrupamento por colunas.


O cálculo do agrupamento hierárquico pode resultar na visualização de um mapa de calor (heat map), com os dendrogramas escolhidos.


Agrupamento com função de dados de importância variável


Essa função de dados aceita uma tabela de entrada com colunas numéricas e usa o agrupamento K-means para encontrar grupos de linhas que pertencem a clusters. Em seguida, um modelo random forrest é construído para encontrar quais variáveis são mais influentes em determinar os clusters. As duas variáveis mais influentes são devolvidas e podem ser plotadas em um gráfico de dispersão. Se uma transformação logarítmica for apropriada, pode ser aplicada antes do agrupamento e do cálculo.



Este artigo foi útil? Fique atento a tendências e novidades de mercado lendo outros textos do nosso blog e não se esqueça de deixar suas dúvidas e opiniões.