Dữ liệu sai (còn được gọi là "dữ liệu xấu") là dữ liệu được nhập không chính xác hoặc được hiển thị không chính xác. Sự không chính xác có thể xuất phát từ bất kỳ nguồn nào, chẳng hạn như các giá trị được đo không chính xác hoặc được nhập không chính xác, dữ liệu nằm ngoài ngữ cảnh hoặc được trình bày có chọn lọc hoặc đơn giản là các phép đo không chính xác.
Dữ liệu sai có thể dẫn đến kết quả không chính xác khi sử dụng trong tính toán, báo cáo sai lệch, chẩn đoán không chính xác và các vấn đề khác tùy thuộc vào ứng dụng. Để tránh những tình huống như vậy, việc kiểm tra chất lượng dữ liệu có thể được thực hiện để xác định và xóa mọi tập dữ liệu không hợp lệ hoặc không sạch, cũng như đảm bảo độ chính xác theo thời gian thông qua khai thác dữ liệu và các kỹ thuật kiểm soát chất lượng khác. Các nhà phân tích dữ liệu cũng phải cẩn thận để đảm bảo rằng các chính sách và thủ tục được áp dụng để đảm bảo nhập dữ liệu chính xác.
Nói tóm lại, điều quan trọng là phải nhận ra dữ liệu sai sót và hiểu cách ngăn chặn hoặc sửa chữa dữ liệu đó. Kiểm soát chất lượng và xác thực dữ liệu là những thành phần quan trọng đối với bất kỳ hệ thống hoặc tổ chức nào vì chúng có thể giúp đảm bảo rằng thu được kết quả chính xác từ bất kỳ phân tích được thực hiện hoặc quyết định nào được đưa ra.