Mục lục:
Định nghĩa - Phát hiện ngoại lệ có nghĩa là gì?
Phát hiện ngoại lệ là quá trình phát hiện và sau đó loại trừ các ngoại lệ khỏi một bộ dữ liệu nhất định.
Một ngoại lệ có thể được định nghĩa là một phần của dữ liệu hoặc quan sát sai lệch đáng kể so với định mức hoặc trung bình của tập dữ liệu. Một ngoại lệ có thể được gây ra đơn giản là do tình cờ, nhưng nó cũng có thể chỉ ra lỗi đo lường hoặc tập dữ liệu đã cho có phân phối đuôi nặng.
Đây là một kịch bản đơn giản trong phát hiện ngoại lệ, một quy trình đo liên tục tạo ra số đọc từ 1 đến 10, nhưng trong một số trường hợp hiếm hoi, chúng tôi nhận được số đo lớn hơn 20.
Các phép đo hiếm này vượt quá định mức được gọi là ngoại lệ vì chúng "nằm ngoài" đường cong phân phối bình thường.
Techopedia giải thích Phát hiện ngoại lệ
Thực sự không có phương pháp toán học chuẩn hóa và cứng nhắc để xác định ngoại lệ vì nó thực sự thay đổi tùy thuộc vào tập hợp hoặc dân số dữ liệu, do đó việc xác định và phát hiện cuối cùng trở nên chủ quan. Thông qua việc lấy mẫu liên tục trong một trường dữ liệu nhất định, các đặc điểm của ngoại lệ có thể được thiết lập để giúp phát hiện dễ dàng hơn.
Có các phương pháp dựa trên mô hình để phát hiện các ngoại lệ và họ cho rằng tất cả dữ liệu được lấy từ một phân phối bình thường và sẽ xác định các quan sát hoặc điểm, được coi là không thể dựa trên độ lệch trung bình hoặc độ lệch chuẩn, như các ngoại lệ. Có một số phương pháp để phát hiện ngoại lệ:
- Thử nghiệm cho các ngoại lệ của Grubb - Điều này dựa trên giả định rằng dữ liệu là phân phối bình thường và loại bỏ một ngoại lệ tại một thời điểm với thử nghiệm được lặp lại cho đến khi không thể tìm thấy các ngoại lệ nữa.
- Kiểm tra Q của Dixon - Cũng dựa trên tính quy tắc của tập dữ liệu, phương pháp này kiểm tra dữ liệu xấu. Nó đã được lưu ý rằng điều này nên được sử dụng một cách tiết kiệm và không bao giờ nhiều hơn một lần trong một tập dữ liệu.
- Tiêu chí của Chauvenet - Điều này được sử dụng để phân tích nếu ngoại lệ là giả hoặc vẫn nằm trong ranh giới và được coi là một phần của tập hợp. Độ lệch trung bình và độ lệch chuẩn được lấy và xác suất xảy ra ngoại lệ được tính toán. Kết quả sẽ xác định xem có nên đưa vào hay không.
- Tiêu chí của Pierce - Giới hạn lỗi được đặt cho một loạt các quan sát, ngoài ra tất cả các quan sát sẽ bị loại bỏ vì chúng liên quan đến lỗi lớn như vậy.