Loại bỏ từ dừng là một hình thức xử lý trước dữ liệu được sử dụng để cải thiện các tính năng của công cụ tìm kiếm, chủ yếu trong các hệ thống xử lý ngôn ngữ tự nhiên (NLP). Từ dừng là những từ có ít ý nghĩa trong ngữ cảnh của truy vấn hoặc tìm kiếm và thường bị xóa khỏi văn bản trước khi lập chỉ mục hoặc phân tích. Ví dụ về các từ khóa phổ biến là “the”, “a”, “and” và “or”.
Mục đích của việc loại bỏ mật khẩu là giảm số lượng từ và liên kết trong một truy vấn hoặc văn bản, cũng như giảm thời gian và bộ nhớ cần thiết để xử lý một truy vấn hoặc văn bản. Điều này có thể được sử dụng để cắt giảm dữ liệu không cần thiết trước khi lưu trữ nó vào cơ sở dữ liệu hoặc bộ chỉ mục. Việc xác định và xóa mật khẩu cũng cho phép các công cụ tìm kiếm tập trung hơn vào các từ quan trọng trong truy vấn và có thể giúp cải thiện mức độ liên quan của kết quả đầu ra.
Quá trình xóa mật khẩu thường được thực hiện bằng cách kiểm tra văn bản và sau đó so sánh nó với danh sách mật khẩu được xác định trước để xác định bất kỳ kết quả trùng khớp nào. Trong hệ thống NLP, quá trình này được gọi là 'lọc từ dừng'. Nó còn được gọi là 'lọc chữ thường' vì các từ khóa phổ biến đều là các từ viết thường. Một số hệ thống cũng sử dụng danh sách động dựa trên các bài kiểm tra thống kê.
Loại bỏ từ dừng là một bước quan trọng trong Xử lý ngôn ngữ tự nhiên vì nó giúp tập trung vào các từ khóa hoặc thông tin quan trọng trong tài liệu thay vì các từ không cần thiết. Quá trình này, mặc dù hữu ích cho việc tối ưu hóa công cụ tìm kiếm, nhưng nó hiếm khi được sử dụng trong các ứng dụng chuyển giọng nói thành văn bản vì hầu hết các từ dừng đều không thể thiếu để truyền đạt ý nghĩa.