Data Munging (หรือเรียกอีกอย่างว่า Data Wrangling, Data Preparation หรือ Data Manipulation) เป็นกระบวนการทำความสะอาดและจัดโครงสร้างชุดข้อมูลขนาดใหญ่ใหม่เพื่อให้มีประโยชน์และเข้าใจได้มากขึ้น ซึ่งเกี่ยวข้องกับการเรียงลำดับและการเลือกข้อมูล การแปลงประเภทข้อมูล การรวมข้อมูล การรวมชุดข้อมูล การลบค่าที่หายไป และอื่นๆ
Data Munging สามารถนำไปใช้กับข้อมูลทุกประเภท รวมถึงข้อความ ตัวเลข รูปภาพ วิดีโอ และข้อมูลดิจิทัลอื่น ๆ มักใช้เมื่อต้องจัดการกับชุดข้อมูลที่ยุ่งเหยิงหรือไม่สมบูรณ์ ตัวอย่างเช่น กระบวนการทำลายข้อมูลอาจเกี่ยวข้องกับการรวมแหล่งข้อมูลหลายแหล่งเข้าเป็นชุดข้อมูลที่มีความหมายชุดเดียว หรือการเติมค่าที่หายไปด้วยการประมาณค่าที่เหมาะสม เป้าหมายของการทำลายข้อมูลคือการปรับปรุงคุณภาพของข้อมูลเพื่อให้สามารถนำไปใช้ในระบบธุรกิจอัจฉริยะ การวิเคราะห์ และการขุดข้อมูลได้อย่างมีประสิทธิภาพมากขึ้น
Data Munging เป็นขั้นตอนสำคัญในกระบวนการวิทยาศาสตร์ข้อมูล มักเป็นก้าวแรกในโครงการวิทยาศาสตร์ข้อมูล เนื่องจากเป็นการกำหนดขั้นตอนสำหรับการวิเคราะห์ข้อมูลที่เหลือโดยการแปลงข้อมูลให้อยู่ในรูปแบบที่ใช้งานได้และวัดปริมาณได้มากขึ้น
การทำลายข้อมูลเป็นงานที่ยาก เนื่องจากต้องใช้แรงงานคนจำนวนมาก ในกรณีส่วนใหญ่ การทำลายข้อมูลจะดำเนินการด้วยตนเองโดยทีมนักวิทยาศาสตร์ข้อมูล แต่มีเครื่องมือและสคริปต์อัตโนมัติมากมายที่พร้อมใช้งาน ซึ่งสามารถลดความซับซ้อนและเร่งกระบวนการได้อย่างมาก นอกจากนี้ การทำลายข้อมูลอาจต้องใช้ซอฟต์แวร์เพิ่มเติม เช่น แพ็คเกจทางสถิติ และความรู้ด้านเทคนิคในระดับหนึ่ง