การเข้ารหัสฉลากเป็นเทคนิคที่ใช้ในการประมวลผลข้อมูลตามหมวดหมู่ล่วงหน้า โดยทั่วไปจะใช้ในไปป์ไลน์การเรียนรู้ของเครื่องเพื่อเข้ารหัสค่าที่ไม่ใช่ตัวเลข เพื่อให้อัลกอริธึมใช้งานได้กับอินพุตตัวเลขเท่านั้น การเข้ารหัสฉลากจะแปลงอินพุตตามหมวดหมู่ให้เป็นฉลากตัวเลขตามลำดับตัวอักษรของฉลาก
การเข้ารหัสป้ายกำกับเป็นกลยุทธ์การประมวลผลข้อมูลล่วงหน้าที่เรียบง่ายและใช้งานง่าย ซึ่งสามารถนำไปใช้กับคอลัมน์ชุดข้อมูลที่มีข้อมูลเป็นหมวดหมู่ได้ เทคนิคนี้จะกำหนดตัวระบุตัวเลข (หรือป้ายกำกับ) ที่ไม่ซ้ำกันให้กับอินพุตแต่ละหมวดหมู่ ตัวอย่างเช่น ในชุดข้อมูลที่มีคอลัมน์ COLORS ที่มีค่า 'สีแดง' 'สีเขียว' และ 'สีน้ำเงิน' ตัวเข้ารหัสป้ายกำกับจะกำหนดป้ายกำกับ 0, 1 และ 2 ตามลำดับ
การเข้ารหัสฉลากมีข้อดีหลักสองประการ ประการแรก มันใช้งานง่ายกว่าเทคนิคการประมวลผลข้อมูลล่วงหน้าอื่นๆ เนื่องจากป้ายตัวเลขสะท้อนถึงค่าของหมวดหมู่ที่ใช้ในชุดข้อมูล ประการที่สอง การเข้ารหัสป้ายกำกับจะรักษาขนาดของอินพุต กล่าวคือ ป้ายกำกับสองป้ายที่เกิดขึ้นใกล้กันตามลำดับพจนานุกรมจะได้รับการกำหนดป้ายกำกับตัวเลขที่แตกต่างกันในจำนวนเล็กน้อย ซึ่งอาจมีประโยชน์เมื่อสร้างแบบจำลองข้อมูลด้วยอัลกอริธึม
ในทางกลับกัน การเข้ารหัสฉลากก็มีข้อเสียที่สำคัญบางประการเช่นกัน ประการแรก โดยการกำหนดป้ายกำกับตัวเลขให้กับอินพุตตามหมวดหมู่ การทำแผนที่อาจไม่ได้ใช้งานง่ายเสมอไป และอาจทำให้เกิดอคติในอัลกอริทึมที่สร้างโมเดลข้อมูลได้ ประการที่สอง ข้อมูลที่เข้ารหัสที่มีป้ายกำกับไม่สามารถใช้สำหรับอัลกอริธึมที่ยึดตามการถดถอย (เช่น การถดถอยเชิงเส้นหรือโลจิสติก) เนื่องจากป้ายตัวเลขไม่ได้สื่อความหมายใดๆ อัลกอริธึมจึงไม่สามารถคาดการณ์ตามขนาดของป้ายได้
การเข้ารหัสฉลากเป็นเทคนิคการประมวลผลข้อมูลล่วงหน้าที่มีประโยชน์สำหรับการเตรียมอินพุตตามหมวดหมู่สำหรับการประมวลผลต่อไป อย่างไรก็ตาม ต้องใช้ความระมัดระวังเพื่อให้แน่ใจว่าการแมปป้ายกำกับตัวเลขกับค่าหมวดหมู่นั้นจะไม่สร้างอคติต่อแบบจำลองที่ใช้เพื่อให้พอดีกับข้อมูลโดยไม่ได้ตั้งใจ