หน่วยวัดความคล้ายคลึงกันหรือที่เรียกว่าการวัดความคล้ายคลึงกัน เป็นวิธีทางคณิตศาสตร์ในการคำนวณความเหมือนหรือความสัมพันธ์ของวัตถุสองชิ้น วัตถุอาจเป็นอะไรก็ได้ตั้งแต่คำและเอกสารไปจนถึงรูปภาพ หรือแม้แต่อัลกอริธึมซอฟต์แวร์ เป้าหมายของการวัดเหล่านี้คือการเปรียบเทียบค่าของวัตถุตั้งแต่สองชิ้นขึ้นไปที่ถือว่าเกี่ยวข้องกัน และค้นหาว่าวัตถุทั้งสองมีความคล้ายคลึงกันเพียงใด
การวัดความคล้ายคลึงกันมักจะถูกกำหนดโดยการกำหนดฟังก์ชันความคล้ายคลึงกันก่อน ซึ่งจะวัดความคล้ายคลึงกันระหว่างวัตถุสองชิ้น ความคล้ายคลึงกันมีรูปแบบที่แตกต่างกันออกไป เช่น ตามลำดับ เวกเตอร์ หรือความน่าจะเป็น แต่การวัดที่ได้รับความนิยมจะขึ้นอยู่กับการคำนวณระยะห่างระหว่างวัตถุสองชิ้น หรือความต่างกันของวัตถุทั้งสอง
มาตรการเหล่านี้สามารถใช้ได้ในหลายพื้นที่ เช่น การเรียนรู้ของเครื่อง ปัญหาการจัดกลุ่ม การประมวลผลภาพ และการประมวลผลภาษาธรรมชาติ นอกจากนี้ยังมีประโยชน์อย่างมากในการดึงข้อมูลเพื่อให้ตรงกับเอกสารหรือระบุความคล้ายคลึงกันของคำ
ตัวชี้วัดความคล้ายคลึงกันยอดนิยม ได้แก่ แก้ไขระยะทาง ความคล้ายคลึงโคไซน์ ความคล้ายคลึงกันของแจ็กการ์ด และระยะทางแบบยุคลิด แก้ไขระยะทางหรือระยะทาง Levenshtein เป็นอัลกอริทึมที่ประมาณความคล้ายคลึงกันของอักขระ 2 สาย โดยจะวัดจำนวนการแก้ไขขั้นต่ำ (การเปลี่ยนแปลงอักขระ การแทรก หรือการลบ) ที่จำเป็นในการแปลงสตริงหนึ่งเป็นอีกสตริงหนึ่ง ความคล้ายคลึงกันของโคไซน์ใช้เวกเตอร์สองตัวของปริภูมิผลคูณภายในและคำนวณโคไซน์ของมุมระหว่างพวกมัน มักใช้ในการดึงข้อมูลและการจำแนกประเภทเอกสาร ความคล้ายคลึงกันของแจ็กการ์ดคือการวัดความคล้ายคลึงกันระหว่างชุดตัวอย่าง และคำนวณเป็นอัตราส่วนของจุดตัดกันของทั้งสองชุดต่อการรวมกันของทั้งสองชุด ระยะทางแบบยุคลิดคือระยะห่างระหว่างจุดสองจุดในปริภูมิแบบยุคลิด และคำนวณเป็นระยะห่างระหว่างจุดสองจุดตามแนวเส้นตรง
หน่วยวัดเหล่านี้และอื่นๆ ถูกนำมาใช้บ่อยครั้งในแอปพลิเคชันวิศวกรรมซอฟต์แวร์และวิทยาศาสตร์คอมพิวเตอร์ ซึ่งถือเป็นวิธีที่มีประสิทธิภาพในการประเมินความคล้ายคลึงกันของออบเจ็กต์