Data Munging (também conhecido como Data Wrangling, Data Preparation ou Data Manipulation) é o processo de limpeza e reestruturação de grandes conjuntos de dados para torná-los mais úteis e compreensíveis. Envolve classificar e selecionar dados, converter tipos de dados, consolidar dados, mesclar conjuntos de dados, remover valores ausentes e muito mais.
O Data Munging pode ser aplicado a qualquer tipo de dados, incluindo texto, números, imagens, vídeos e outras informações digitais. É frequentemente usado ao lidar com conjuntos de dados confusos ou incompletos. Por exemplo, um processo de coleta de dados pode envolver a combinação de diversas fontes de dados em um conjunto de dados significativo ou o preenchimento de valores ausentes com estimativas apropriadas. O objetivo da coleta de dados é melhorar a qualidade dos dados para que possam ser usados de forma mais eficaz em inteligência de negócios, análise e mineração de dados.
Data Munging é uma etapa essencial no processo de ciência de dados. Muitas vezes é o primeiro passo num projeto de ciência de dados, pois prepara o terreno para o resto da análise de dados, transformando os dados numa forma mais utilizável e quantificável.
A coleta de dados é uma tarefa difícil, pois requer muito trabalho manual. Na maioria dos casos, a coleta de dados é feita manualmente por uma equipe de cientistas de dados, mas existem inúmeras ferramentas e scripts automatizados disponíveis que podem simplificar e acelerar significativamente o processo. Além disso, a manipulação de dados pode exigir software adicional, como pacotes estatísticos, e um certo grau de conhecimento técnico.