TIÊU CHUẨN QUỐC GIA TCVN 4548:2009 VỀ THỐNG KÊ ỨNG DỤNG – LOẠI BỎ CÁC GIÁ TRỊ BẤT THƯỜNG
TCVN 4548 : 2009
THỐNG KÊ ỨNG DỤNG – LOẠI BỎ CÁC GIÁ TRỊ BẤT THƯỜNG
Applied statistics – Rejection of outliers
Lời nói đầu
TCVN 4548 : 2009 thay thế cho TCVN 4548-1988;
TCVN 4548 : 2009 do Ban kỹ thuật tiêu chuẩn quốc gia TCVN/TC 69 Ứng dụng các phương pháp thống kê biên soạn, Tổng cục Tiêu chuẩn Đo lường Chất lượng đề nghị, Bộ Khoa học và Công nghệ công bố.
THỐNG KÊ ỨNG DỤNG – LOẠI BỎ CÁC GIÁ TRỊ BẤT THƯỜNG
Applied statistics – Rejection of outliers
1 Phạm vi áp dụng
Tiêu chuẩn này quy định quy tắc đánh giá tính bất thường của các kết quả quan trắc và được sử dụng để xử lý số liệu quan trắc của các biến ngẫu nhiên có phân bố chuẩn.
2 Quy định chung
2.1. Giá trị quan trắc là bất thường nếu nó lệch một cách đáng kể so với những giá trị còn lại.
2.2. Giá trị bất thường có thể được tạo ra do mắc phải các sai số thô khi ghi chép, tính toán… Trong trường hợp này, nó không thuộc cùng một tổng thể với các giá trị khác. Do đó phải loại bỏ nó khi ước lượng các tham số của tổng thể (trung bình, phương sai…).
Khi gặp giá trị bất thường, phải xem xét hết sức thận trọng và trước tiên phải tìm hiểu những điều kiện thu được giá trị này.
2.3. Các quy tắc được dùng trong tiêu chuẩn này cần đến giả thuyết về phân bố chuẩn của biến ngẫu nhiên đang xét. Do đó cần kiểm tra giả thuyết về phân bố chuẩn.
2.4. Các quy tắc trong các Điều 3, 4, 5 và 6 về cơ bản giống nhau, chỉ khác nhau ở chỗ là đã biết hoặc chưa biết về giá trị trung bình và độ lệch chuẩn của tổng thể. Quy tắc nêu trong Điều 7 là quy tắc dựa vào tỉ số giữa các độ lệch, không đòi hỏi tính giá trị trung bình và độ lệch chuẩn.
3. Quy tắc đánh giá tính bất thường của các giá trị quan trắc khi không biết trung bình m và độ lệch chuẩn s của tổng thể
Với mẫu đã được sắp thứ tự:
y1 £ y2 £ … £ yn
tính trung bình mẫu:
và độ lệch chuẩn mẫu:
Tính:
Với cỡ mẫu n và xác suất a1, dùng Bảng 1 tra được giá trị h.
Nếu Un ³ h (U1 ³ h) thì giá trị nghi ngờ được coi như là bất thường cần phải loại bỏ. Nếu ngược lại thì giá trị đó được coi là bình thường.
Nếu n > 25 thì dùng Bảng 3.
4. Quy tắc đánh giá tính bất thường của các giá trị quan trắc khi đã biết độ lệch chuẩn s nhưng giá trị trung bình m vẫn chưa biết
Với mẫu đã được sắp thứ tự:
y1 £ y2 £ … £ yn
tính trung bình mẫu:
và các đại lượng:
Cho trước cỡ mẫu n và xác suất a dùng Bảng 2 để tra giá trị h. Nếu n > 25, dùng Bảng 3.
Nếu tn ³ h (t1 ³ h) thì giá trị yn (y1) là bất thường. Ngược lại chúng là bình thường.
5. Quy tắc đánh giá tính bất thường của các giá trị quan trắc khi biết độ lệch chuẩn s và trung bình m
Với mẫu đã được sắp thứ tự:
y1 £ y2 £ … £ yn
Tính:
Giá trị Vn (V1) sẽ được so với giá trị h tra trong Bảng 3 ứng với cỡ mẫu n và xác suất a. Nếu Vn ³ h (V1 ³ h) thì yn (y1) được xem là bất thường và loại ra khỏi mẫu. Ngược lại chúng được xem là bình thường.
6. Quy tắc đánh giá tính bất thường của các giá trị quan trắc theo mô đun của độ lệch của chúng so với trung bình
6.1. Trong một số trường hợp xử lý các kết quả quan trắc, cần phải đánh giá tính bất thường của chúng dựa vào độ lệch so với trung bình lớn hơn hs hay nhỏ hơn hs với xác suất a* cho trước, hoặc nếu s không biết thì thay bằng hs và (-hs).
6.2. Trong trường hợp độ lệch chuẩn chưa biết, cần xác định:
U* = max |Uk}
trong đó:
Đại lượng U* được so với giá trị h tra trong Bảng 1 với cỡ mẫu n và xác suất a*.
Nếu U* ³ h thì yk tương ứng với U* là bất thường và có thể bỏ được. Trường hợp ngược lại, nó là bình thường.
6.3. Khi đã biết độ lệch chuẩn nhưng chưa biết trung bình, xác định:
t* = max |tk|
trong đó:
Đại lượng t* được so với h tra trong Bảng 2 với cỡ mẫu n và xác suất a*.
Nếu t* > h thì yk có thể được xem là bất thường và loại bỏ. Trong trường hợp ngược lại, nó là bình thường.
6.4. Nếu độ lệch chuẩn và trung bình đều đã biết, cần xác định:
V* = max |Vk|
trong đó:
Đại lượng V* được so với h tra trong Bảng 4 tương ứng với cỡ mẫu n và xác suất a.
Nếu V* ³ h thì giá trị yk là bất thường và có thể loại bỏ. Trường hợp ngược lại, nó là bình thường.
6.5. Vì a* » 2a nên để đánh giá tính bất thường của các kết quả theo độ lệch so với trung bình, trong Bảng 1 và Bảng 2, các giá trị của xác suất a* phải đọc từ phía dưới bảng.
7. Quy tắc Dixon
Với mẫu đã được sắp thứ tự:
y1 £ y2 £ … £ yn
Tính thống kê:
Với xác suất a và cỡ mẫu n, tra bảng để tìm giá trị tới hạn h.
Nếu R1i ³ h thì giá trị nghi ngờ y1 là bất thường. Ngược lại, nó là bình thường.
Trường hợp giá trị nghi ngờ là yn thì các thống kê cần tính có dạng:
Nếu nghi ngờ đồng thời có y1 và yn tính:
Trong trường hợp này ta có quy tắc hai phía nên xác suất a* = 2a.
Bảng 1 – Giá trị tới hạn h trong trường hợp không biết độ lệch chuẩn s
|
||||
Cỡ mẫu n |
Giá trị tới hạn h với xác suất a |
|||
0,100 |
0,075 |
0,050 |
0,025 |
|
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |
1,15 1,42 1,60 1,73 1,83 1,91 1,98 2,03 2,09 2,13 2,17 2,21 2,25 2,28 2,31 2,34 2,36 2,38 |
1,15 1,44 1,64 1,77 1,88 1,96 2,04 2,10 2,14 2,20 2,24 2,28 2,32 2,35 2,38 2,41 2,44 2,46 |
1,15 1,46 1,67 1,82 1,94 2,03 2,11 2,18 2,23 2,29 2,33 2,37 2,41 2,44 2,48 2,50 2,53 2,56 |
1,15 1,48 1,72 1,89 2,02 2,13 2,21 2,29 2,36 2,41 2,47 2,50 2,55 2,58 2,62 2,66 2,68 2,71 |
Cỡ mẫu n |
0,200 |
0,150 |
0,100 |
0,050 |
Giá trị tới hạn h với xác suất s* |
a* là xác suất để hay lớn hơn h.
Bảng 2 – Giá trị tới hạn h trong trường hợp đã biết độ lệch chuẩn s nhưng giá trị trung bình m chưa biết
Cỡ mẫu n |
Giá trị tới hạn h với xác suất a |
|||
0,100 |
0,050 |
0,010 |
0,005 |
|
3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 |
1,497 1,696 1,835 1,939 2,022 2,091 2,150 2,200 2,245 2,284 2,320 2,352 2,382 2,409 2,434 2,458 2,480 2,500 2,519 2,538 2,555 2,571 |
1,738 1,941 2,080 2,184 2,267 2,334 2,392 2,441 2,484 2,523 2,557 2,589 2,617 2,644 2,668 2,691 2,712 2,732 2,750 2,768 2,784 2,800 |
2,215 2,431 2,574 2,679 2,761 2,828 2,884 2,931 2,973 3,010 3,043 3,072 3,099 3,124 3,147 3,168 3,188 3,207 3,224 3,240 3,255 3,269 |
2,396 2,618 2,764 2,870 2,952 3,019 3,074 3,122 3,163 3,199 3,232 3,261 3,287 3,312 3,334 3,355 3,375 3,393 3,409 3,425 3,439 3,453 |
Cỡ mẫu n |
0,200 |
0,100 |
0,020 |
0,010 |
Giá trị tới hạn h với xác suất a* |
Bảng 3 – Giá trị tới hạn h trong trường hợp độ lệch chuẩn s và trung bình m đã biết
Cỡ mẫu n |
Giá trị tới hạn h với xác suất a |
||||
0,100 |
0,050 |
0,010 |
0,005 |
0,001 |
|
1 2 3 4 5 6 7 8 9 10 15 20 25 30 40 50 100 250 500 |
1,282 1,632 1,818 1,943 2,036 2,111 2,172 2,224 2,269 2,309 2,457 2,559 2,635 2,696 2,792 2,860 3,076 3,339 3,528 |
1,645 1,955 2,121 2,234 2,319 2,386 2,442 2,490 2,531 2,568 2,705 2,799 2,870 2,928 3,015 3,082 3,285 3,534 3,703 |
2,326 2,575 2,712 2,806 2,877 2,934 2,981 3,022 3,057 3,089 3,207 3,289 3,351 3,402 3,480 3,541 3,723 3,946 4,108 |
2,576 2,807 2,935 3,023 3,090 3,143 3,188 3,227 3,260 3,290 3,402 3,480 3,539 3,587 3,662 3,716 3,892 4,108 4,263 |
3,090 3,290 3,403 3,481 3,540 3,588 3,628 3,662 3,692 3,719 3,820 3,890 3,944 3,983 4,054 4,108 4,263 4,465 4,607 |
Bảng 4 – Giá trị tới hạn h đối với trường hợp độ lệch chuẩn s và trung bình m chưa biết
Cỡ mẫu n |
Giá trị tới hạn h với xác suất a* |
|||||||
0,500 |
0,200 |
0,100 |
0,050 |
0,020 |
0,010 |
0,002 |
0,001 |
|
1 2 3 4 5 6 7 8 9 10 15 20 25 30 40 50 100 250 500 |
0,674 1,052 1,261 1,410 1,518 1,605 1,673 1,733 1,787 1,835 2,003 2,118 2,206 2,273 2,381 2,462 2,698 2,995 3,197 |
1,281 1,619 1,801 1,929 2,017 2,091 2,152 2,206 2,246 2,286 2,435 2,543 2,617 2,678 2,772 2,846 3,055 3,325 3,514 |
1,646 1,949 2,111 2,226 2,313 2,381 2,435 2,482 2,522 2,556 2,698 2,792 2,867 2,921 3,008 3,076 3,278 3,528 3,703 |
1,964 2,239 2,388 2,489 2,570 2,624 2,648 2,725 2,765 2,799 2,927 3,015 3,082 3,157 3,224 3,285 3,474 3,710 3,878 |
2,327 2,577 2,711 2,806 2,873 2,934 2,981 3,022 3,065 3,089 3,204 3,285 3,352 3,399 3,480 3,534 3,728 3,939 4,108 |
2,577 2,806 2,934 3,022 3,089 3,143 3,190 3,224 3,258 3,292 3,399 3,480 3,541 3,587 3,662 3,716 3,892 4,108 4,263 |
3,089 3,292 3,399 3,480 3,541 3,588 3,629 3,662 3,689 3,716 3,818 3,892 3,946 3,986 4,054 4,108 4,263 4,465 4,607 |
3,292 3,480 3,588 3,662 3,716 3,764 3,804 3,838 3,868 3,892 3,986 4,054 4,108 4,148 4,214 4,263 4,418 4,607 4,755 |
Bảng 5 – Giá trị tới hạn ứng với quy tắc Dixon
Thống kê |
Cỡ mẫu n |
Xác suất a |
|||
0,10 |
0,05 |
0,01 |
0,005 |
||
R10 |
3 4 5 6 7 |
0,886 0,679 0,557 0,482 0,434 |
0,941 0,765 0,642 0,560 0,507 |
0,988 0,889 0,780 0,698 0,637 |
0,994 0,926 0,821 0,740 0,680 |
R11 |
8 9 10 |
0,479 0,441 0,409 |
0,554 0,512 0,477 |
0,683 0,635 0,597 |
0,725 0,677 0,639 |
R21 |
11 12 13 |
0,517 0,490 0,467 |
0,576 0,546 0,521 |
0,679 0,642 0,615 |
0,713 0,675 0,649 |
R22 |
14 15 16 17 18 19 20 21 22 23 24 25 |
0,492 0,472 0,454 0,438 0,424 0,412 0,401 0,391 0,382 0,374 0,367 0,360 |
0,546 0,525 0,507 0,490 0,475 0,462 0,450 0,440 0,430 0,421 0,413 0,406 |
0,641 0,616 0,595 0,577 0,561 0,547 0,535 0,524 0,514 0,505 0,497 0,489 |
0,674 0,647 0,624 0,605 0,589 0,575 0,562 0,551 0,541 0,532 0,524 0,516 |
|
0,20 |
0,10 |
0,02 |
0,01 |
|
Xác suất a* |
Phụ lục A
(tham khảo)
Ví dụ ứng dụng các quy tắc đánh giá tính bất thường của các kết quả quan trắc
A.1. Ví dụ 1: Minh họa Điều 3
Độ cứng của 5 quả cầu tháp được cho như sau:
HB 180 182 183 184 196
với a = 0,05, giá trị HB 196 có phải là bất thường không?
Ta có:
Với n = 5 và a = 0,05, tra Bảng 1 ta tìm được h = 1,67.
Vì Un > h nên giá trị HB 196 là bất thường và được loại bỏ. Kết luận này có thể rút ra với xác suất cao hơn vì:
n = 5 và a = 0,025 ta có h = 1,72.
A.2. Ví dụ 2: Minh họa Điều 4
Độ cứng của 5 chi tiết được cho như sau:
HB 178 180 184 186 197
Ta có:
Do đó:
Trong trường hợp này Un < h (h = 1,67 với n = 5 và a = 0,05) và do đó giá trị HB 1976 không thể coi là bất thường.
A.3. Ví dụ 3: Minh họa Điều 4
Người ta cho chạy thử 10 lốp ô tô cho đến khi mòn và ghi lại số km như sau:
65 000, 66 160, 65 700, 65 800, 66 500, 67 000, 64 700, 65 000, 64 000, 60 200.
Độ lệch chuẩn s = 970 km
Với mức a = 0,005 giá trị 60 200 km có thể coi là bất thường hay không?
Ta tính:
Với n = 10 và a = 0,005 ta có h = 3,122 vì t1 > h nên có thể coi y10 = 60 200 km là bất thường và có thể loại bỏ.
A.4. Ví dụ 4: Minh họa Điều 5
Xét 12 van có đường kính tính bằng milimet là:
40,00; 40,02; 39,99; 39,98; 40,00; 40,03; 39,99; 39,98; 40,01; 40,08; 40,04; 39,97.
Giả sử độ lệch chuẩn s = 0,024 trung bình m = 40,00.
Giá trị 40,08 mm có được coi là bất thường hay không?
Ta có:
Bằng cách nội suy tuyến tính, nhờ Bảng 3 với n = 12 và a = 0,005 ta tìm được h = 3,335.
Vì Vn < h nên giá trị yn = 40,08 mm được coi là bình thường.
A.5. Ví dụ 5: Minh họa 6.2
Khi xác định mật độ tích điện, thu được các kết quả sau: 215, 210, 201, 217, 215, 214, 209, 217, 228.
Các giá trị 201 và 228 bị nghi là bất thường. Cần đánh giá theo mô đun của độ lệch so với trung bình.
Tính:
Suy ra
Tra Bảng 1, với n = 11 ta tìm được h = 2,36 và h = 2,23 ứng với các xác suất a* = 0,05 và a* = 0,1.
Sau khi nội suy, ta có a* = 0,092 với h = 2,25. Do đó không thể coi y = 228 là bất thường. Điều tương tự cũng đúng cho y = 201.
A.6. Ví dụ 6: Minh họa 6.3
Ta có các kết quả đo sau:
3,68 5,08 1,81 4,45 3,11
2,95 4,65 3,43 4,76 6,35
3,27 3,26 2,75 3,78 4,08
2,48 4,15 4,49 4,51 4,84
Độ chính xác của các phép đo đặc trưng bởi s = 1,00. Hãy xét tính bất thường của các giá trị 1,81 và 6,35.
Ta có:
Tra Bảng 2 với n = 20 ta thấy t* = 2,46 ứng với xác suất a > 0,20, do đó không có cơ sở để loại giá trị 6,35. Với giá trị y1 = 1,81 kết luận cũng tương tự.
A.7. Ví dụ 7: Minh họa Điều 7
Ta có 5 giá trị quan trắc như sau:
23,2 |
23,4 |
23,5 |
24,1 |
25,5 |
Giá trị 25,5 có phải là bất thường không?
Mẫu đã được sắp theo thứ tự tăng dần. Do đó:
Tra Bảng 5 với n = 5, a = 0,05 ta có h = 0,642, vì R10 < h = 0,642 nên giá trị 25,5 không phải là bất thường với xác suất 0,05.
MỤC LỤC
Lời nói đầu
1. Phạm vi áp dụng
2. Quy định chung
3. Quy tắc đánh giá tính bất thường của các giá trị quan trắc khi không biết trung bình m và độ lệch chuẩn s của tổng thể
4. Quy tắc đánh giá tính bất thường của các giá trị quan trắc khi đã biết độ lệch chuẩn s nhưng giá trị trung bình m chưa biết
5. Quy tắc đánh giá tính bất thường của các giá trị quan trắc khi đã biết độ lệch chuẩn s và trung bình m
6. Quy tắc đánh giá tính bất thường của các giá trị quan trắc theo môđun của độ lệch của chúng so với trung bình
7. Quy tắc Dixon
Phụ lục A (tham khảo) Ví dụ ứng dụng các quy tắc đánh giá tính bất thường của các kết quả quan trắc
TIÊU CHUẨN QUỐC GIA TCVN 4548:2009 VỀ THỐNG KÊ ỨNG DỤNG – LOẠI BỎ CÁC GIÁ TRỊ BẤT THƯỜNG | |||
Số, ký hiệu văn bản | TCVN4548:2009 | Ngày hiệu lực | |
Loại văn bản | Tiêu chuẩn Việt Nam | Ngày đăng công báo | |
Lĩnh vực |
Lĩnh vực khác |
Ngày ban hành | |
Cơ quan ban hành | Tình trạng | Còn hiệu lực |
Các văn bản liên kết
Văn bản được hướng dẫn | Văn bản hướng dẫn | ||
Văn bản được hợp nhất | Văn bản hợp nhất | ||
Văn bản bị sửa đổi, bổ sung | Văn bản sửa đổi, bổ sung | ||
Văn bản bị đính chính | Văn bản đính chính | ||
Văn bản bị thay thế | Văn bản thay thế | ||
Văn bản được dẫn chiếu | Văn bản căn cứ |