Inverse Reinforcement Learning (IRL) เป็นเทคนิคการเรียนรู้ของเครื่องประเภทหนึ่งที่ตัวแทนเรียนรู้ที่จะเลียนแบบพฤติกรรมของครูโดยการอนุมานฟังก์ชันการให้รางวัลที่ซ่อนอยู่ซึ่งควบคุมพฤติกรรมของครู IRL มักใช้สำหรับการเรียนรู้พฤติกรรมที่ซับซ้อนในวิทยาการหุ่นยนต์และปัญญาประดิษฐ์ ช่วยให้ครูสามารถให้ข้อเสนอแนะในรูปแบบของรางวัลโดยไม่ต้องตั้งโปรแกรมฟังก์ชันรางวัลเข้าสู่ระบบอย่างชัดเจน
IRL เกี่ยวข้องอย่างใกล้ชิดกับการเรียนรู้แบบเสริมกำลัง ซึ่งเป็นการเรียนรู้ประเภทหนึ่งที่มีการมอบรางวัลให้กับตัวแทนเพื่อให้บรรลุเป้าหมายหรือผลลัพธ์ที่แน่นอน ในการเรียนรู้แบบเสริมกำลัง ฟังก์ชันการให้รางวัลจะถูกตั้งโปรแกรมไว้ในระบบอย่างชัดเจน อย่างไรก็ตาม ใน IRL ฟังก์ชันการให้รางวัลจะอนุมานได้จากพฤติกรรมของครู ดังนั้นในกระบวนการเรียนรู้ฟังก์ชันการให้รางวัล ตัวแทนจะต้องเลียนแบบพฤติกรรมของครู
การเรียนรู้การเสริมแรงแบบผกผันถูกนำมาใช้ในการประยุกต์ใช้งานต่างๆ มากมาย ตัวอย่างเช่น มันถูกใช้เพื่อเรียนรู้พฤติกรรมของหุ่นยนต์ในสภาพแวดล้อมจำลองและในโลกแห่งความเป็นจริง เพื่อพัฒนากลยุทธ์เกมและทักษะการเล่นที่หลากหลาย และเพื่อให้ระบบสามารถวางแผนกิจกรรมหรืองานของพวกเขาได้โดยอัตโนมัติ นอกจากนี้ยังถูกนำมาใช้ในด้านปัญญาประดิษฐ์ การประมวลผลภาษาธรรมชาติ การนำทาง และการขับขี่แบบอัตโนมัติ
โดยรวมแล้ว การเรียนรู้แบบเสริมกำลังแบบผกผันเป็นเครื่องมือที่ทรงพลังอย่างเหลือเชื่อสำหรับการเรียนรู้พฤติกรรมที่ซับซ้อนและไดนามิก เป็นเครื่องมืออันทรงพลังในด้านวิทยาการคอมพิวเตอร์ หุ่นยนต์ และสาขาอื่นๆ สำหรับการเรียนรู้จากพฤติกรรมที่สังเกตได้ ซึ่งช่วยให้ตัวแทนสามารถเลียนแบบครูของตนได้