TIÊU CHUẨN QUỐC GIA TCVN 4548:2009 VỀ THỐNG KÊ ỨNG DỤNG – LOẠI BỎ CÁC GIÁ TRỊ BẤT THƯỜNG

Hiệu lực: Còn hiệu lực

TIÊU CHUẨN QUỐC GIA

TCVN 4548 : 2009

THỐNG KÊ ỨNG DỤNG – LOẠI BỎ CÁC GIÁ TRỊ BẤT THƯỜNG

Applied statistics – Rejection of outliers

Lời nói đầu

TCVN 4548 : 2009 thay thế cho TCVN 4548-1988;

TCVN 4548 : 2009 do Ban kỹ thuật tiêu chuẩn quốc gia TCVN/TC 69 Ứng dụng các phương pháp thống kê biên soạn, Tổng cục Tiêu chuẩn Đo lường Chất lượng đề nghị, Bộ Khoa học và Công nghệ công bố.

 

THỐNG KÊ ỨNG DỤNG – LOẠI BỎ CÁC GIÁ TRỊ BẤT THƯỜNG

Applied statistics – Rejection of outliers

1 Phạm vi áp dụng

Tiêu chuẩn này quy định quy tắc đánh giá tính bất thường của các kết quả quan trắc và được sử dụng để xử lý số liệu quan trắc của các biến ngẫu nhiên có phân bố chuẩn.

2 Quy định chung

2.1. Giá trị quan trắc là bất thường nếu nó lệch một cách đáng kể so với những giá trị còn lại.

2.2. Giá trị bất thường có thể được tạo ra do mắc phải các sai số thô khi ghi chép, tính toán… Trong trường hợp này, nó không thuộc cùng một tổng thể với các giá trị khác. Do đó phải loại bỏ nó khi ước lượng các tham số của tổng thể (trung bình, phương sai…).

Khi gặp giá trị bất thường, phải xem xét hết sức thận trọng và trước tiên phải tìm hiểu những điều kiện thu được giá trị này.

2.3. Các quy tắc được dùng trong tiêu chuẩn này cần đến giả thuyết về phân bố chuẩn của biến ngẫu nhiên đang xét. Do đó cần kiểm tra giả thuyết về phân bố chuẩn.

2.4. Các quy tắc trong các Điều 3, 4, 5 và 6 về cơ bản giống nhau, chỉ khác nhau ở chỗ là đã biết hoặc chưa biết về giá trị trung bình và độ lệch chuẩn của tổng thể. Quy tắc nêu trong Điều 7 là quy tắc dựa vào tỉ số giữa các độ lệch, không đòi hỏi tính giá trị trung bình và độ lệch chuẩn.

3. Quy tắc đánh giá tính bất thường của các giá trị quan trắc khi không biết trung bình m và độ lệch chuẩn s của tổng thể

Với mẫu đã được sắp thứ tự:

y1 £ y2 £ … £ yn

tính trung bình mẫu:

và độ lệch chuẩn mẫu:

Tính:

Với cỡ mẫu n và xác suất a1, dùng Bảng 1 tra được giá trị h.

Nếu Un ³ h (U1 ³ h) thì giá trị nghi ngờ được coi như là bất thường cần phải loại bỏ. Nếu ngược lại thì giá trị đó được coi là bình thường.

Nếu n > 25 thì dùng Bảng 3.

4. Quy tắc đánh giá tính bất thường của các giá trị quan trắc khi đã biết độ lệch chuẩn s nhưng giá trị trung bình m vẫn chưa biết

Với mẫu đã được sắp thứ tự:

y1 £ y2 £ … £ yn

tính trung bình mẫu:

và các đại lượng:

Cho trước cỡ mẫu n và xác suất a dùng Bảng 2 để tra giá trị h. Nếu n > 25, dùng Bảng 3.

Nếu tn ³ h (t1 ³ h) thì giá trị yn (y1) là bất thường. Ngược lại chúng là bình thường.

5. Quy tắc đánh giá tính bất thường của các giá trị quan trắc khi biết độ lệch chuẩn s và trung bình m

Với mẫu đã được sắp thứ tự:

y1 £ y2 £ … £ yn

Tính:

Giá trị Vn (V1) sẽ được so với giá trị h tra trong Bảng 3 ứng với cỡ mẫu n và xác suất a. Nếu Vn ³ h (V1 ³ h) thì yn (y1) được xem là bất thường và loại ra khỏi mẫu. Ngược lại chúng được xem là bình thường.

6. Quy tắc đánh giá tính bất thường của các giá trị quan trắc theo mô đun của độ lệch của chúng so với trung bình

6.1. Trong một số trường hợp xử lý các kết quả quan trắc, cần phải đánh giá tính bất thường của chúng dựa vào độ lệch so với trung bình lớn hơn hs hay nhỏ hơn hs với xác suất a* cho trước, hoặc nếu s không biết thì thay bằng hs và (-hs).

6.2. Trong trường hợp độ lệch chuẩn chưa biết, cần xác định:

U* = max |Uk}

trong đó:

Đại lượng U* được so với giá trị h tra trong Bảng 1 với cỡ mẫu n và xác suất a*.

Nếu U* ³ h thì yk tương ứng với U* là bất thường và có thể bỏ được. Trường hợp ngược lại, nó là bình thường.

6.3. Khi đã biết độ lệch chuẩn nhưng chưa biết trung bình, xác định:

t* = max |tk|

trong đó:

Đại lượng t* được so với h tra trong Bảng 2 với cỡ mẫu n và xác suất a*.

Nếu t* > h thì yk có thể được xem là bất thường và loại bỏ. Trong trường hợp ngược lại, nó là bình thường.

6.4. Nếu độ lệch chuẩn và trung bình đều đã biết, cần xác định:

V* = max |Vk|

trong đó:

Đại lượng V* được so với h tra trong Bảng 4 tương ứng với cỡ mẫu n và xác suất a.

Nếu V* ³ h thì giá trị yk là bất thường và có thể loại bỏ. Trường hợp ngược lại, nó là bình thường.

6.5. Vì a* » 2a nên để đánh giá tính bất thường của các kết quả theo độ lệch so với trung bình, trong Bảng 1 và Bảng 2, các giá trị của xác suất a* phải đọc từ phía dưới bảng.

7. Quy tắc Dixon

Với mẫu đã được sắp thứ tự:

y1 £ y2 £ … £ yn

Tính thống kê:

Với xác suất a và cỡ mẫu n, tra bảng để tìm giá trị tới hạn h.

Nếu R1i ³ h thì giá trị nghi ngờ y1 là bất thường. Ngược lại, nó là bình thường.

Trường hợp giá trị nghi ngờ là yn thì các thống kê cần tính có dạng:

Nếu nghi ngờ đồng thời có y1 và yn tính:

Trong trường hợp này ta có quy tắc hai phía nên xác suất a* = 2a.

Bảng 1 – Giá trị tới hạn h trong trường hợp không biết độ lệch chuẩn s

Cỡ mẫu

n

Giá trị tới hạn h với xác suất a

0,100

0,075

0,050

0,025

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

1,15

1,42

1,60

1,73

1,83

1,91

1,98

2,03

2,09

2,13

2,17

2,21

2,25

2,28

2,31

2,34

2,36

2,38

1,15

1,44

1,64

1,77

1,88

1,96

2,04

2,10

2,14

2,20

2,24

2,28

2,32

2,35

2,38

2,41

2,44

2,46

1,15

1,46

1,67

1,82

1,94

2,03

2,11

2,18

2,23

2,29

2,33

2,37

2,41

2,44

2,48

2,50

2,53

2,56

1,15

1,48

1,72

1,89

2,02

2,13

2,21

2,29

2,36

2,41

2,47

2,50

2,55

2,58

2,62

2,66

2,68

2,71

Cỡ mẫu

n

0,200

0,150

0,100

0,050

Giá trị tới hạn h với xác suất s*

a* là xác suất để  hay  lớn hơn h.

Bảng 2 – Giá trị tới hạn h trong trường hợp đã biết độ lệch chuẩn s nhưng giá trị trung bình m chưa biết

Cỡ mẫu

n

Giá trị tới hạn h với xác suất a

0,100

0,050

0,010

0,005

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

1,497

1,696

1,835

1,939

2,022

2,091

2,150

2,200

2,245

2,284

2,320

2,352

2,382

2,409

2,434

2,458

2,480

2,500

2,519

2,538

2,555

2,571

1,738

1,941

2,080

2,184

2,267

2,334

2,392

2,441

2,484

2,523

2,557

2,589

2,617

2,644

2,668

2,691

2,712

2,732

2,750

2,768

2,784

2,800

2,215

2,431

2,574

2,679

2,761

2,828

2,884

2,931

2,973

3,010

3,043

3,072

3,099

3,124

3,147

3,168

3,188

3,207

3,224

3,240

3,255

3,269

2,396

2,618

2,764

2,870

2,952

3,019

3,074

3,122

3,163

3,199

3,232

3,261

3,287

3,312

3,334

3,355

3,375

3,393

3,409

3,425

3,439

3,453

Cỡ mẫu

n

0,200

0,100

0,020

0,010

Giá trị tới hạn h với xác suất a*

Bảng 3 – Giá trị tới hạn h trong trường hợp độ lệch chuẩn s và trung bình m đã biết

Cỡ mẫu

n

Giá trị tới hạn h với xác suất a

0,100

0,050

0,010

0,005

0,001

1

2

3

4

5

6

7

8

9

10

15

20

25

30

40

50

100

250

500

1,282

1,632

1,818

1,943

2,036

2,111

2,172

2,224

2,269

2,309

2,457

2,559

2,635

2,696

2,792

2,860

3,076

3,339

3,528

1,645

1,955

2,121

2,234

2,319

2,386

2,442

2,490

2,531

2,568

2,705

2,799

2,870

2,928

3,015

3,082

3,285

3,534

3,703

2,326

2,575

2,712

2,806

2,877

2,934

2,981

3,022

3,057

3,089

3,207

3,289

3,351

3,402

3,480

3,541

3,723

3,946

4,108

2,576

2,807

2,935

3,023

3,090

3,143

3,188

3,227

3,260

3,290

3,402

3,480

3,539

3,587

3,662

3,716

3,892

4,108

4,263

3,090

3,290

3,403

3,481

3,540

3,588

3,628

3,662

3,692

3,719

3,820

3,890

3,944

3,983

4,054

4,108

4,263

4,465

4,607

Bảng 4 – Giá trị tới hạn h đối với trường hợp độ lệch chuẩn s và trung bình m chưa biết

Cỡ mẫu

n

Giá trị tới hạn h với xác suất a*

0,500

0,200

0,100

0,050

0,020

0,010

0,002

0,001

1

2

3

4

5

6

7

8

9

10

15

20

25

30

40

50

100

250

500

0,674

1,052

1,261

1,410

1,518

1,605

1,673

1,733

1,787

1,835

2,003

2,118

2,206

2,273

2,381

2,462

2,698

2,995

3,197

1,281

1,619

1,801

1,929

2,017

2,091

2,152

2,206

2,246

2,286

2,435

2,543

2,617

2,678

2,772

2,846

3,055

3,325

3,514

1,646

1,949

2,111

2,226

2,313

2,381

2,435

2,482

2,522

2,556

2,698

2,792

2,867

2,921

3,008

3,076

3,278

3,528

3,703

1,964

2,239

2,388

2,489

2,570

2,624

2,648

2,725

2,765

2,799

2,927

3,015

3,082

3,157

3,224

3,285

3,474

3,710

3,878

2,327

2,577

2,711

2,806

2,873

2,934

2,981

3,022

3,065

3,089

3,204

3,285

3,352

3,399

3,480

3,534

3,728

3,939

4,108

2,577

2,806

2,934

3,022

3,089

3,143

3,190

3,224

3,258

3,292

3,399

3,480

3,541

3,587

3,662

3,716

3,892

4,108

4,263

3,089

3,292

3,399

3,480

3,541

3,588

3,629

3,662

3,689

3,716

3,818

3,892

3,946

3,986

4,054

4,108

4,263

4,465

4,607

3,292

3,480

3,588

3,662

3,716

3,764

3,804

3,838

3,868

3,892

3,986

4,054

4,108

4,148

4,214

4,263

4,418

4,607

4,755

Bảng 5 – Giá trị tới hạn ứng với quy tắc Dixon

Thống kê

Cỡ mẫu

n

Xác suất a

0,10

0,05

0,01

0,005

R10

3

4

5

6

7

0,886

0,679

0,557

0,482

0,434

0,941

0,765

0,642

0,560

0,507

0,988

0,889

0,780

0,698

0,637

0,994

0,926

0,821

0,740

0,680

R11

8

9

10

0,479

0,441

0,409

0,554

0,512

0,477

0,683

0,635

0,597

0,725

0,677

0,639

R21

11

12

13

0,517

0,490

0,467

0,576

0,546

0,521

0,679

0,642

0,615

0,713

0,675

0,649

R22

14

15

16

17

18

19

20

21

22

23

24

25

0,492

0,472

0,454

0,438

0,424

0,412

0,401

0,391

0,382

0,374

0,367

0,360

0,546

0,525

0,507

0,490

0,475

0,462

0,450

0,440

0,430

0,421

0,413

0,406

0,641

0,616

0,595

0,577

0,561

0,547

0,535

0,524

0,514

0,505

0,497

0,489

0,674

0,647

0,624

0,605

0,589

0,575

0,562

0,551

0,541

0,532

0,524

0,516

0,20

0,10

0,02

0,01

Xác suất a*

 

Phụ lục A

(tham khảo)

Ví dụ ứng dụng các quy tắc đánh giá tính bất thường của các kết quả quan trắc

A.1. Ví dụ 1: Minh họa Điều 3

Độ cứng của 5 quả cầu tháp được cho như sau:

HB                 180                 182                 183                 184                 196

với a = 0,05, giá trị HB 196 có phải là bất thường không?

Ta có:

Với n = 5 và a = 0,05, tra Bảng 1 ta tìm được h = 1,67.

Vì Un > h nên giá trị HB 196 là bất thường và được loại bỏ. Kết luận này có thể rút ra với xác suất cao hơn vì:

n = 5 và a = 0,025 ta có h = 1,72.

A.2. Ví dụ 2: Minh họa Điều 4

Độ cứng của 5 chi tiết được cho như sau:

HB                 178                 180                 184                 186                 197

Ta có:

Do đó:

Trong trường hợp này Un < h (h = 1,67 với n = 5 và a = 0,05) và do đó giá trị HB 1976 không thể coi là bất thường.

A.3. Ví dụ 3: Minh họa Điều 4

Người ta cho chạy thử 10 lốp ô tô cho đến khi mòn và ghi lại số km như sau:

65 000, 66 160, 65 700, 65 800, 66 500, 67 000, 64 700, 65 000, 64 000, 60 200.

Độ lệch chuẩn s = 970 km

Với mức a = 0,005 giá trị 60 200 km có thể coi là bất thường hay không?

Ta tính:

Với n = 10 và a = 0,005 ta có h = 3,122 vì t1 > h nên có thể coi y10 = 60 200 km là bất thường và có thể loại bỏ.

A.4. Ví dụ 4: Minh họa Điều 5

Xét 12 van có đường kính tính bằng milimet là:

40,00; 40,02; 39,99; 39,98; 40,00; 40,03; 39,99; 39,98; 40,01; 40,08; 40,04; 39,97.

Giả sử độ lệch chuẩn s = 0,024 trung bình m = 40,00.

Giá trị 40,08 mm có được coi là bất thường hay không?

Ta có:

Bằng cách nội suy tuyến tính, nhờ Bảng 3 với n = 12 và a = 0,005 ta tìm được h = 3,335.

Vì Vn < h nên giá trị yn = 40,08 mm được coi là bình thường.

A.5. Ví dụ 5: Minh họa 6.2

Khi xác định mật độ tích điện, thu được các kết quả sau: 215, 210, 201, 217, 215, 214, 209, 217, 228.

Các giá trị 201 và 228 bị nghi là bất thường. Cần đánh giá theo mô đun của độ lệch so với trung bình.

Tính:

Suy ra

Tra Bảng 1, với n = 11 ta tìm được h = 2,36 và h = 2,23 ứng với các xác suất a* = 0,05 và a* = 0,1.

Sau khi nội suy, ta có a* = 0,092 với h = 2,25. Do đó không thể coi y = 228 là bất thường. Điều tương tự cũng đúng cho y = 201.

A.6. Ví dụ 6: Minh họa 6.3

Ta có các kết quả đo sau:

3,68                    5,08                    1,81                    4,45                    3,11

2,95                    4,65                    3,43                    4,76                    6,35

3,27                    3,26                    2,75                    3,78                    4,08

2,48                    4,15                    4,49                    4,51                    4,84

Độ chính xác của các phép đo đặc trưng bởi s = 1,00. Hãy xét tính bất thường của các giá trị 1,81 và 6,35.

Ta có:

Tra Bảng 2 với n = 20 ta thấy t* = 2,46 ứng với xác suất a > 0,20, do đó không có cơ sở để loại giá trị 6,35. Với giá trị y1 = 1,81 kết luận cũng tương tự.

A.7. Ví dụ 7: Minh họa Điều 7

Ta có 5 giá trị quan trắc như sau:

23,2

23,4

23,5

24,1

25,5

Giá trị 25,5 có phải là bất thường không?

Mẫu đã được sắp theo thứ tự tăng dần. Do đó:

Tra Bảng 5 với n = 5, a = 0,05 ta có h = 0,642, vì R10  < h = 0,642 nên giá trị 25,5 không phải là bất thường với xác suất 0,05.

 

MỤC LỤC

Lời nói đầu

1. Phạm vi áp dụng

2. Quy định chung

3. Quy tắc đánh giá tính bất thường của các giá trị quan trắc khi không biết trung bình m và độ lệch chuẩn s của tổng thể

4. Quy tắc đánh giá tính bất thường của các giá trị quan trắc khi đã biết độ lệch chuẩn s nhưng giá trị trung bình m chưa biết

5. Quy tắc đánh giá tính bất thường của các giá trị quan trắc khi đã biết độ lệch chuẩn s và trung bình m

6. Quy tắc đánh giá tính bất thường của các giá trị quan trắc theo môđun của độ lệch của chúng so với trung bình

7. Quy tắc Dixon

Phụ lục A (tham khảo) Ví dụ ứng dụng các quy tắc đánh giá tính bất thường của các kết quả quan trắc

TIÊU CHUẨN QUỐC GIA TCVN 4548:2009 VỀ THỐNG KÊ ỨNG DỤNG – LOẠI BỎ CÁC GIÁ TRỊ BẤT THƯỜNG
Số, ký hiệu văn bản TCVN4548:2009 Ngày hiệu lực
Loại văn bản Tiêu chuẩn Việt Nam Ngày đăng công báo
Lĩnh vực Lĩnh vực khác
Ngày ban hành
Cơ quan ban hành Tình trạng Còn hiệu lực

Các văn bản liên kết

Văn bản được hướng dẫn Văn bản hướng dẫn
Văn bản được hợp nhất Văn bản hợp nhất
Văn bản bị sửa đổi, bổ sung Văn bản sửa đổi, bổ sung
Văn bản bị đính chính Văn bản đính chính
Văn bản bị thay thế Văn bản thay thế
Văn bản được dẫn chiếu Văn bản căn cứ

Tải văn bản