TIÊU CHUẨN QUỐC GIA TCVN 12892-3:2020 (ISO/IEC 11172-3:1993/COR.1:1996) VỀ CÔNG NGHỆ THÔNG TIN – MÃ HÓA ẢNH HÌNH ẢNH ĐỘNG VÀ ÂM THANH KẾT HỢP CHO PHƯƠNG TIỆN LƯU TRỮ SỐ LÊN TỚI 1,5 MBIT/S – PHẦN 3: ÂM THANH

Hiệu lực: Còn hiệu lực

TIÊU CHUẨN QUỐC GIA

TCVN 12892-3 : 2020

ISO/IEC 11172 – 3: 1993/Cor.1:1996

CÔNG NGHỆ THÔNG TIN – MÃ HÓA HÌNH ẢNH ĐỘNG VÀ ÂM THANH KẾT HỢP CHO PHƯƠNG TIỆN LƯU TRỮ SỐ LÊN TỚI 1,5 MBIT/S – PHẦN 3: ÂM THANH

Information technology – Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s Part 3: Audio

 

MỤC LỤC

1  Phạm vi áp dụng

2  Tài liệu viện dẫn

3  Thuật ngữ và định nghĩa

4  Ký hiệu và từ ngữ viết tắt

4.1  Toán tử số học

4.2  Các toán tử logic

4.3  Các toán tử quan hệ

4.4  Các phép toán thao tác bít

4.5  Phép gán

4.6  Phép nhớ

4.7  Hằng số

5  Phương pháp mô tả cú pháp dòng bít

6  Các yêu cầu của cấu trúc mã hóa và tham số

6.1  Hàm chuỗi âm thanh

6.2  Hàm khung âm thanh

6.3  Hàm tiêu đề

6.4  Hàm kiểm tra lỗi

6.5  Hàm dữ liệu âm thanh, lớp I

6.6  Hàm dữ liệu âm thanh, lớp II

6.7  Hàm dữ liệu âm thanh lớp III

6.8  Hàm dữ liệu phụ trợ

7  Ngữ nghĩa cho cú pháp dòng bít âm thanh

7.1  Chuỗi âm thanh chung

7.2  Khung âm thanh

7.3  Tiêu đề

7.4  Kiểm tra lỗi

7.5  Dữ liệu âm thanh, lớp I

7.6  Dữ liệu âm thanh lớp II

7.7  Dữ liệu âm thanh, lớp III

7.8  Dữ liệu phụ trợ

8  Quá trình giải mã âm thanh

8.1  Tổng quan

8.2  Lớp I

8.2.1  Tái lượng tử hóa các mẫu băng tần con

8.2.2  Giàn bộ lọc tần con tổng hợp

8.3  Lớp II

8.3.1  Giải mã phản bổ bit

8.3.2  Giải mã thông tin lựa chọn hệ số tỷ lệ

8.3.3  Giải mã hệ số tỷ lệ

8.3.4  Tái lượng tử các mẫu băng tần con

8.3.5  Giàn bộ lọc tần tổng hợp

8.4  Lớp III

8.4.1  Giải mã

8.4.2  Thông tin phụ

8.4.3  Khởi đầu dữ liệu chính

8.4.4  Xem xét bộ đệm

8.4.5  Hệ số tỷ lệ

8.4.6  Giải mã Huffman

8.4.7  Lượng tử hóa

8.4.8  Công thức tính toán lượng tử và tất cả các hệ số tỷ lệ.

8.4.9  Sắp xếp lại thứ tự

8.4.10  Quá trình xử lý âm thanh nổi

Phụ lục A (Quy định) Sơ đồ mã hóa, giải mã

Phụ lục B (Quy định) Các bảng biểu

Phụ lục C (Tham khảo) Quá trình mã hóa

C.1  Mã hóa

Phụ lục D (Tham khảo) Mô hình tâm thính học

D.1. Mô hình tâm thính học 1

D.2. Mô hình tâm thính học 2

Phụ lục E (Tham khảo) Độ nhạy bít với lỗi

E.1  Tổng quan

E.2  Lớp I và II

E.3  Lớp III

Phụ lục F (Tham khảo) Giấu lỗi

Phụ lục G (Tham khảo) Mã hóa phối kết âm thanh nổi

G.1. Mã hóa cường độ âm thanh nổi cho lớp I, II

G.2. MS Stereo và mã hóa cường độ âm thanh ni cho lớp III

Phụ lục H (Tham khảo) Danh sách chủ sở hữu bằng sáng chế

Thư mục tài liệu tham khảo

 

Lời nói đầu

TCVN 12892-3: 2020 hoàn toàn tương đương ISO/IEC 11172 – 3: 1993 và đính chính kỹ thuật ISO/IEC 11172-3:1993/ Cor.1:1996.

TCVN 12892-3 : 2020 do Viện Khoa học kỹ thuật Bưu điện – Học viện Công nghệ Bưu chính Viễn thông biên soạn, Bộ Thông tin và Truyền thông đề nghị, Tổng cục Tiêu chuẩn Đo lường Chất lượng thẩm định, Bộ Khoa học và Công nghệ công bố.

 

CÔNG NGHỆ THÔNG TIN – MÃ HÓA HÌNH ẢNH ĐỘNG VÀ ÂM THANH KẾT HỢP CHO PHƯƠNG TIỆN LƯU TRỮ SỐ LÊN TỚI 1,5 MBIT/S – PHẦN 3: ÂM THANH.

Information technology – Coding of moving pictures and associated audio for digital
storage media at up to about 1,5 Mbit/s
Part 3: Audio

1  Phạm vi áp dụng

Tiêu chuẩn này quy định phương pháp mã hóa, giải mã tín hiệu âm thanh chất lượng cao. Tín hiệu đầu vào của bộ mã hóa và đầu ra của bộ giải mã tương thích với các tiêu chuẩn PCM hiện tại như chuẩn đĩa quang (CD) và băng từ âm thanh số (Digital Audio Tape).

Tiêu chuẩn này áp dụng cho các thiết bị lưu trữ số với tốc độ truyền liên tục lên tới 1,5 Mbit/s đối với cả dòng bít cả âm thanh và video, như CD, DAT, VCD, DVD, băng từ âm thanh số, ổ cứng thể rắn (SSD) và đĩa cứng từ (HDD). Các thiết bị lưu trữ được kết nối trực tiếp với bộ giải mã, hoặc kết nối thông qua các phương tiện khác như đường truyền thông và dòng tín hiệu ISO/IEC 11172 đã ghép kênh được định nghĩa trong phần 1 của tiêu chuẩn ISO/IEC 11172. Tiêu chuẩn này được xây dựng để thực hiện mã hóa ở tốc độ lấy mẫu tần số 32 kHz; 44,1 kHz và 48 kHz.

2  Tài liệu viện dẫn

Tài liệu viện dẫn sau là cần thiết cho việc áp dụng tiêu chuẩn này. Đối với các tài liệu viện dẫn ghi năm công bố thì áp dụng phiên bản được nêu. Đối với các tài liệu viện dẫn không ghi năm công bố thì áp dụng phiên bản mới nhất, bao gồm cả sửa đổi, bổ sung (nếu có).

ISO/IEC 11172-1:1993, Information technology – Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s – Part 1: System (Công nghệ thông tin – Mã hóa hình ảnh động và âm thanh kết hợp cho phương tiện lưu trữ số lên tới 1,5 Mbit/s – Phần 1: Hệ thống).

ISO/IEC 11172-2:1993, Information technology – Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbit/s – Part 2: Video (Công nghệ thông tin – Mã hóa hình ảnh động và âm thanh kết hợp cho phương tiện lưu trữ số lên tới 1,5 Mbit/s – Phần 2: Video).

CCIR Recommendation 601-2, Encoding parameters of digital television for studios (Khuyến nghị CCIR 601-2 Các thông số mã hóa truyền hình số cho phòng thu).

CCIR Report 624-4, Characteristics of systems for monochrome and colour television (Báo cáo CCIR 624-4 Các đặc tính của hệ thống cho truyền hình màu và đơn sắc).

CCIR Recommendation 648, Recoding of audio signals. (Khuyến nghị CCIR 648 Ghi tín hiệu âm thanh).

CCIR Report 955-2, Sound broadcasting by satellite for portable and mobile receivers, including Annex IV Summry description of Advanced Digital System II (Báo cáo CCIR 955-2 Phát thanh quảng bá qua vệ tinh cho các máy cầm tay và các bộ thu di động, bao gồm Phụ lục IV Mô tả khái quát về Hệ thống số cải tiến II).

CCIIT Recommendation J. 17, Pre-emphasis used on Sound-Programme Circuits (Khuyến nghị CCIIT J.17 Kỹ thuật tăng chỉnh được sử dụng trong các mạch chương trình âm thanh).

IEEE Draft Standard PIIWD2 1990, Specification for the implementation of 8x 8 inverse discrete cosine transform” (Dự thảo chuẩn IEEE PIIWD2 1990 Kỹ thuật cho việc thực hiện chuyển đổi Cosin rời rạc ngược 8×8).

IEC publication 908:1987, CD Digital Audio System (IEC 908:1987 Hệ thống âm thanh số CD).

3  Thuật ngữ và định nghĩa

Tiêu chuẩn này sử dụng các thuật ngữ và định nghĩa sau:

3.1

Hệ số AC

(AC coefficient

)

Bất kỳ hệ số DCT nào mà có tần số nằm trong một hoặc cả hai chiều có giá trị khác không.

3.2

Đơn vị truy cập [hệ thống] (access unit [system])

Trong trường hợp âm thanh nén thì đơn vị truy cập chính là đơn vị truy cập âm thanh. Trong trường hợp video nén thì đơn vị truy cập là sự biểu diễn một bức ảnh được mã hóa.

3.3

Phân đoạn thích ứng [âm thanh] (Adaptive segmentation

)

Việc phân nhỏ việc trình diễn kỹ thuật số của tín hiệu âm thanh trong các khoảng thời gian thay đổi.

3.4

Phân bổ bít thích ứng [âm thanh] (adaptive bít allocation

)

Việc phân chia các bít cho các băng tần con theo thời gian và theo tần số biến đổi kiểu cách theo mô hình tâm thính học.

3.5

Phân bổ nhiễu thích ứng [âm thanh] (adaptive noise allocation

)

Việc phân chia nhiễu mã hóa cho các băng tần theo thời gian và tần số biến đổi kiểu cách theo mô hình tâm thính học.

3.6

Bí danh [âm thanh] (alias

)

Một thành phần tín hiệu được phản chiếu do việc lấy mẫu Nyquist.

3.7

Giàn bộ lọc phân tích [âm thanh] (Analysis filterbank

)

Giàn bộ lọc trong bộ mã hóa chuyển đổi tín hiệu âm thanh PCM băng thông rộng thành một tập hợp các mẫu băng tần con được lấy mẫu.

3.8

Đơn vị truy cập âm thanh [âm thanh] (Audio Access Unit

)

Với Lớp I và II, một đơn vị truy cập âm thanh được định nghĩa là một phần nhỏ nhất của dòng bít được mã hóa mà có thể được giải mã bởi chính nó, trong đó được mã hóa nghĩa là “âm thanh được tái tạo hoàn toàn”. Đối với Lớp III, một đơn vị truy cập âm thanh là một phần của dòng bít mà có thể được giải mã bằng việc sử dụng thông tin chính đã yêu cầu trước đó.

3.9

Bộ đệm âm thanh [âm thanh] (audio buffer

)

Một bộ đệm trong các bộ giải mã hệ thống dùng để lưu trữ dữ liệu âm thanh được nén.

3.10

Chuỗi âm thanh [âm thanh] (audio sequence

)

Một loạt các khung âm thanh không bị gián đoạn trong đó các tham số sau đây không thay đổi:

– ID

– Lớp

– Tần số lấy mẫu

– Đối với lớp I và II: chỉ số tốc độ bít.

3.11

Véc tơ chuyển động ngược

(backward motion vector

)

Một véc tơ chuyển động được sử dụng để bù chuyển động từ một hình ảnh tham chiếu vào một thời điểm sau đó theo thứ tự hiển thị.

3.12

Bark [âm thanh]

Đơn vị đo tốc độ dải tới hạn. Thang đo Bark là ánh xạ phi tuyến tính của thang đo tần số trên dải âm thanh tương ứng chặt chẽ với độ chọn lọc tần số của tai người trên toàn dải.

3.13

Hình ảnh được mã hóa dự đoán hai chiều; ảnh B

(bidirectionally predictive-coded picture; B-picture

)

Một hình ảnh được mã hóa sử dụng bù chuyển động dự đoán từ một hình ảnh tham chiếu trong quá khứ và / hoặc tương lai.

3.14

Tốc độ bít (bitrate)

Tốc độ mà dòng bít bị nén được phân phối từ các phương tiện lưu trữ tới đầu vào của một bộ giải mã.

3.15

Khối nén giãn [âm thanh] (Block companding

)

Tiêu chuẩn hóa việc trình diễn tín hiệu âm thanh số trong một khoảng thời gian nhất định.

3.16

Khối [video] (block

)

Một khối pixel trực giao gồm 8 hàng x 8 cột

3.17

Phạm vi [âm thanh] (Bound

)

Băng tần con thấp nhất trong đó mã hóa âm thanh nổi được sử dụng.

3.18

Căn chỉnh theo byte (byte aligned)

Một bit trong dòng bit được mã hóa được căn chỉnh theo byte nếu vị trí của nó là bội số của 8 bit tính từ bit đầu tiên trong luồng.

3.19

Byte

Chuỗi 8 bít

3.20

Kênh (Channel)

Là một phương tiện kỹ thuật số lưu trữ hoặc truyền tải trong dòng tín hiệu ISO/IEC 11172.

3.21

Kênh [âm thanh] (chanel

)

Các kênh trái và kênh phải của tín hiệu âm thanh nổi stereo.

3.22

Màu (thành phần)

Một ma trận, một khối hoặc một pixel đơn trình diễn một trong hai tín hiệu màu sắc khác nhau liên quan đến các màu cơ bản theo định nghĩa được quy định trong CCIR rec 601. Các ký hiệu sử dụng cho tín hiệu màu sắc khác nhau là Cr và Cb.

3.23

Dòng bít mã hóa âm thanh [âm thanh] (coded audio bitstream

)

Việc trình diễn tín hiệu âm thanh mã hóa được định nghĩa theo tiêu chuẩn ISO/IEC 11172.

3.24

Dòng bít mã hóa video

(coded video bitstream

)

Việc trình diễn một chuỗi gồm một hoặc nhiều hình ảnh được mã hóa theo tiêu chuẩn ISO/IEC 11172.

3.25

Thứ tự mã hóa

(coded order

)

Thứ tự trong đó các hình ảnh được lưu trữ hoặc được giải mã. Thứ tự này không nhất thiết giống như thứ tự hiển thị.

3.26

Trình diễn mã hóa (coded representation)

Thành phần dữ liệu được trình diễn theo dạng mã hóa của nó.

3.27

Các thông số mã hóa

(coding parameters

)

Tập hợp các thông số do người dùng định nghĩa mà đặc trưng cho một dòng bít video được mã hóa. Dòng bít được đặc trưng bởi các thông số mã hóa. Bộ giải mã dược đặc trưng bởi các dòng bit mà chúng có khả năng giải mã.

3.28

Thành phần màu

(component

)

Một ma trận, một khối hoặc một pixel từ một trong số 3 ma trận (độ chói và 2 độ màu) để tạo nên một bức ảnh.

3.29

Nén (compression)

Kỹ thuật làm giảm số lượng các bít được sử dụng để trình diễn một mục dữ liệu.

3.30

Video được mã hóa với tốc độ bit không đổi

(constant bitrate coded video

)

Một dòng video được nén với tốc độ bít trung bình không đổi.

3.31

Tốc độ bit không đổi (constant bitrate)

Hoạt động trong đó tốc độ bit không đổi từ đầu đến cuối của dòng bit được nén.

3.32

Các thông số bắt buộc

(constrained parameters

)

Các giá trị của một tập các thông số mã hóa được quy định tại khoản 2.4.3.2 của tiêu chuẩn ISO/IEC 11172-2.

3.33

Dòng thông số hệ thống bắt buộc [hệ thống] – constrained system parameter stream (CSPS)

Một dòng tín hiệu tiêu chuẩn ISO/IEC 11172 được ghép kênh mà tuân thủ những ràng buộc được quy định tại khoản 2.4.6 tiêu chuẩn ISO/IEC 11172-1.

3.34

CRC

Mã dự phòng theo chu kỳ.

3.35

Tốc độ băng tới hạn [âm thanh] (critical band rate

)

Chức năng tâm thính học của tần số. Tại một tần số âm thanh cho trước, nó tỷ lệ với số dải tần tới hạn nằm dưới tần số đó. Các đơn vị của thang đo tốc độ băng tần tới hạn là Bark.

3.36

Băng tới hạn [âm thanh] (critical band

)

Phép đo tâm thính học trong miền phổ tương ứng với độ chọn lọc tần số của tai người. Độ chọn lọc này được biểu diễn bằng đơn vị Bark.

3.37

Phần t dữ liệu (data element)

Một mục dữ liệu được trình diễn trước khi mã hóa và sau khi giải mã.

3.38

Hệ số DC

(DC-coefficient)

Hệ số biến đổi Cosine rời rạc DCT mà tần số bằng không trong cả hai chiều.

3.39

Hình ảnh mã hóa DC; ảnh D

(DC – coded picture; D – picture

)

Một bức ảnh được mã hóa chỉ sử dụng thông tin từ chính nó. Trong số các hệ số DCT trong nhóm đại diện được mã hóa, chỉ có hệ số khử DC được biểu thị.

3.40

Hệ số biến đổi cosin rời rạc DCT (DCT coefficient

)

Biên độ của hàm cosin cụ thể.

3.41

Dòng giải mã (decoded stream)

Quá trình giải mã được khôi phục từ một dòng bít nén.

3.42

Bộ đệm đầu vào bộ giải mã

(decoder input buffer

)

Bộ đệm kiểu vào trước ra trước (FIFO) được xác thực trong bộ đệm video.

3.43

Tốc độ đầu vào bộ giải mã

(decoder input rate

)

Tốc độ dữ liệu quy định xác minh trong bộ đệm video và mã hóa trong dòng bít của video.

3.44

Bộ giải mã (decoder)

Hiện thân của quá trình giải mã.

3.45

Quá trình giải mã (decoding process)

Quá trình được định nghĩa trong ISO / IEC 11172, đọc dòng bít được mã hóa đầu vào và tạo ra các mẫu hình ảnh hoặc mẫu âm thanh đã được giải mã.

3.46

Nhãn thời gian giải mã DTS [hệ thống] (decoding time-stamp; DTS [system])

Một trường có thể xuất hiện trong tiêu đề gói cho biết thời gian một đơn vị truy cập được giải mã trong bộ giải mã mục tiêu hệ thống.

3.47

Mạch giảm âm [âm thanh] (De-emphasis

)

Quá trình lọc được áp dụng cho tín hiệu âm thanh sau khi lưu trữ hoặc truyền tải để hoàn tác hiện tượng độ méo tuyến tính do giảm âm.

3.48

Tái lượng tử

(dequantization

)

Quá trình biến đổi lại thang tỷ lệ của các hệ số DCT đã định lượng sau khi trình diễn chúng dưới dạng dòng bít đã giải mã và trước khi thực hiện biến đổi DCT nghịch đảo.

3.49

Phương tiện lưu trữ kỹ thuật số; DSM (digital storage media; DSM)

Một thiết bị lưu trữ, thiết bị truyền hay hệ thống kỹ thuật số.

3.50

Biến đổi cosin rời rạc DCT

(discrete cosine transtorm; DCT

)

Biến đổi cosin rời rạc thuận hoặc biến đổi cosin rời rạc nghịch đảo. DCT là một phép biến đổi trực giao rời rạc, khả nghịch. DCT nghịch đảo được định nghĩa trong phụ lục A của tiêu chuẩn ISO/IEC 11172-2.

3.51

Thứ tự hiển thị

(display order

)

Thứ tự các hình ảnh được giải mã sẽ được hiển thị. Thông thường thứ tự này giống với thứ tự được trình diễn tại đầu vào của bộ mã hóa.

3.52

Chế độ song kênh [âm thanh] (dual channel mode

)

Một chế độ, trong đó hai kênh âm thanh có nội dung chương trình độc lập (ví dụ: song ngữ) được mã hóa trong một dòng bit. Quá trình mã hóa giống như đối với chế độ âm thanh nổi.

3.53

Thực hiện nén (editing)

Quá trình mà một hoặc nhiều dòng bit nén được thao tác để tạo ra một dòng bit nén mới. Các dòng bit đã chỉnh sửa phù hợp phải đáp ứng các yêu cầu được quy định trong tiêu chuẩn ISO/ IEC 11172 này.

3.54

Dòng cơ sở [hệ thống] (elementary stream [system])

Thuật ngữ chung cho một trong các video, âm thanh được mã hóa hoặc các dòng bit được mã hóa khác.

3.55

Mạch tăng âm [âm thanh] (Emphasis

)

Quá trình lọc được áp dụng cho tín hiệu âm thanh trước khi lưu trữ hoặc truyền để cải thiện tỷ lệ tín hiệu trên nhiễu ở tần số cao.

3.56

Bộ mã hóa (encoder)

Hiện thân của một quá trình mã hóa.

3.57

Quá trình mã hóa (encoding process)

Một quá trình, không được quy định trong tiêu chuẩn này, đọc một luồng hình ảnh hoặc mẫu âm thanh đầu vào và tạo ra một dòng bit được mã hóa hợp lệ như được định nghĩa trong tiêu chuẩn này.

3.58

Mã hóa entropy (entropy coding)

Mã hóa đặc trưng của một tín hiệu số có độ dài biến đổi nhằm làm giảm độ dư thừa trong các phần tử được mã hóa để truyền đi.

3.59

Tua nhanh

(fast forward playback

)

Quá trình hiển thị một chuỗi hoặc các phần của một chuỗi, các phần của hình ảnh theo thứ tự hiển thị nhanh hơn so với thời gian thực.

3.60

FFT

Phép Biến đổi Fourier nhanh. Một thuật toán biến đổi nhanh để thực hiện một biến đổi Fourier rời rạc (một biến đổi trực giao).

3.61

Giàn bộ lọc [âm thanh] (Filter bank

)

Một tập hợp các bộ lọc thông dải bao gồm toàn bộ dải tần âm thanh.

3.62

Phân đoạn cố định (Fixed segmentation)

Một sự chia nhỏ việc trình diễn kỹ thuật số của tín hiệu âm thanh thành các phân đoạn thời gian cố định.

3.63

Khoảng cấm (forbidden)

Thuật ngữ “bị cấm” được sử dụng trong các điều khoản khi định nghĩa dòng bít được mã hóa để chỉ ra rằng giá trị này sẽ không bao giờ được sử dụng. Nó thường dùng để tránh các mã bắt đầu.

3.64

Cập nhật bắt buộc

(forced updating

)

Quá trình mà các khối macro được mã hóa theo dạng thời gian – thời gian để đảm bảo rằng các lỗi trong quá trình biến đổi DCT nghịch đảo trong các bộ mã hóa và bộ giải mã hóa không phát sinh quá mức.

3.65

Vector chuyển động thuận

(forward motion vector

)

Một vector chuyển động được sử dụng để bù chuyển động từ một hình ảnh mẫu tại thời điểm trước theo thứ tự hiển thị.

3.66

Khung [âm thanh] (frame

)

Một phần của tín hiệu âm thanh tương ứng với các mẫu PCM âm thanh xuất phát từ bộ truy cập âm thanh.

3.67

Định dạng tự do [âm thanh] (Free format

)

Bất kỳ tốc độ bít nào khác so với tốc độ bít cố định đều phải nhỏ hơn tốc độ bít hợp lệ lớn nhất trong mỗi lớp.

3.68

Hình ảnh mẫu dự đoán

(furure reference picture

)

Hình ảnh mẫu dự đoán là hình ảnh tham chiếu xảy ra tại một thời điểm muộn hơn hình ảnh hiện tại theo thứ tự hiển thị.

3.69

Hạt nhỏ [lớp II] [âm thanh] (granules [layer II]

)

Một tập hợp gồm 3 mẫu băng tần con liên tiếp từ 32 băng tần con được xem xét cùng nhau trước khi lượng tử. Chúng tương ứng với 96 mẫu PCM.

3.70

Hạt nhỏ [lớp III] [âm thanh] (granules [layer III]

)

576 vạch tần số mang thông tin riêng của chúng.

3.71

Nhóm các hình ảnh

(group of pictures

)

Một loạt của một hoặc nhiều hình ảnh được mã hóa để hỗ trợ truy cập ngẫu nhiên. Nhóm các hình ảnh là một lớp của các lớp trong cú pháp mã hóa được định nghĩa trong phần tiêu chuẩn ISO/IEC 11172-2.

3.72

Cửa sổ Hann [âm thanh] (Hann window

)

Một hàm thời gian áp dụng từng mẫu một cho một khối mẫu âm thanh trước khi biến đổi Fourier.

3.73

Mã hóa Huffman (Huffman coding)

Một phương pháp cụ thể của mã hóa entropy.

3.74

Giàn bộ lọc âm thanh lai [âm thanh] (Hybrid filter bank

)

Một sự kết hợp của giàn giàn bộ lọc tần con và MDCT.

3.75

IMDCT [âm thanh] (IDMCT

)

Biến đổi cosin rời rạc biến đổi nghịch đảo.

3.76

Cường độ âm thanh nổi [âm thanh] (intensity stereo

)

Một phương pháp vận dụng lượng phân bố hoặc tính dư thừa trong âm thanh nổi trong các chương trình xử lý âm thanh dựa vào việc duy trì tại tần số cao mà chỉ có năng lượng bao quanh các kênh phải và kênh trái.

3.77

Đan xen

(interlace

)

Thuộc tính của hình ảnh truyền hình thông thường là các dòng hình ảnh được trình diễn liên tục đan xen trong khoảng thời gian khác nhau.

3.78

Mã hóa intra

(intra coding

)

Mã hóa của một khối macro hoặc hình ảnh chỉ sử dụng thông tin từ chính khối macro hoặc hình ảnh đó.

3.79

Hình ảnh mã hóa intra; ảnh I

(intra-coded picture; I-picture

)

Một hình ảnh được mã hóa chỉ sử dụng thông tin từ chính nó.

3.80

Dòng ISO/IEC 11172 đã ghép kênh (ISO/IEC 11172 (multiplexed) stream [system])

Một dòng bít gồm có 0 hoặc nhiều dòng bít cơ bản được kết hợp theo cách thức được quy định tiêu chuẩn ISO/IEC 11172-1.

3.81

Phương pháp ghép nối mã hóa âm thanh nổi [âm thanh] (Joint stereo coding

)

Phương pháp mã hóa tận dụng đặc tính bất thường hay sự dư thừa của âm thanh nổi.

3.82

Chế độ ghép nối âm thanh nổi [âm thanh] (Joint stereo mode

)

Một chế độ mã hóa âm thanh sử dụng thuật toán mã hóa ghép nối âm thanh nổi.

3.83

Lớp [âm thanh] (layer

)

Một trong những cấp độ trong hệ thống phân cấp mã hóa của hệ thống âm thanh được quy định trong tiêu chuẩn này.

3.84

Lớp

(layer

)

Một trong những cấp độ trong phân cấp dữ liệu của video và thông số kỹ thuật hệ thống được quy định trong tiêu chuẩn ISO/IEC 11172-1 và ISO/IEC 11172-2.

3.85

Độ chói (thành phần) (luminance (component))

Một ma trận, khối hoặc mẫu pixel trình diễn cho một tín hiệu đơn sắc và liên quan đến các mà cơ bản theo định nghĩa của CCIR rec 601. Độ chói được kí hiệu là Y.

3.86

Khối Macro

Bốn khối 8×8 của dữ liệu độ chói và hai khối 8×8 tương ứng độ màu được tạo bởi từ khối 16×16 thành phân độ chói của hình ảnh. Khối macro thường được dùng để chỉ các dữ liệu pixel và được sử dụng cho các giá trị mã pixel và các thành phần dữ liệu khác được xác định trong lớp khối macro được định nghĩa trong phần 2 của tiêu chuẩn ISO/IEC 11172-2.

3.87

Ánh xạ [âm thanh] (Mapping

)

Chuyển đổi tín hiệu âm thanh từ miền thời gian sang miền tần số bằng cách sử dụng bộ lọc băng tần con và/hoặc bằng phép biến đổi cosin rời rạc hiệu chỉnh MDCT.

3.88

Mặt nạ (Masking)

Một thuộc tính của hệ thống thính giác của con người mà không thể nhận được tín hiệu âm thanh khi có sự hiện diện của một tín hiệu âm thanh khác.

3.89

Ngưỡng mặt nạ [âm thanh] (Masking threshold

)

Phần phía dưới của hàm trong miền tần số và thời gian mà tín hiệu âm thanh không thể được cảm nhận bằng hệ thống thính giác của con người.

3.90

MDCT [âm thanh] (MDCT

)

Biến đổi cosin rời rạc hiệu chỉnh.

3.91

Bù chuyển động

(motion compensation

)

Việc sử dụng các vectơ chuyển động để nâng cao hiệu quả của việc dự đoán các giá trị pixel. Việc dự đoán có sử dụng vectơ chuyển động để bù cho các hình ảnh tham chiếu trong quá khứ và/ hoặc tương lai mà chứa các giá trị pixel đã được giải mã trước đó được sử dụng để tạo tín hiệu dự đoán lôi.

3.92

Ước lượng chuyển động

(motion estimation

)

Quá trình ước lượng vector chuyển động trong suốt quá trình mã hóa.

3.93

Vector chuyển động

(motion vector

)

Một vectơ hai chiều được sử dụng để bù chuyển động, nó cho biết độ lệch từ vị trí tọa độ trong hình ảnh hiện tại đến vị trí tọa độ trong hình ảnh tham chiếu.

3.94

Âm thanh nổi MS [âm thanh] (MS stereo

)

Một phương pháp khai thác tính năng khác nhau, phần thừa của âm thanh nổi trong các chương trình âm thanh nổi dựa trên việc mã hóa tín hiệu tổng, tín hiệu sai khác thay vì mã hóa các kênh âm thanh trái và phải.

3.95

Mã hóa phi nội

(non-intra coding

)

Mã hóa của một khối macro hoặc của hình ảnh mà sử dụng thông tin cả từ chính nó và cả từ khối macro và những hình ảnh xuất hiện vào những thời điểm khác.

3.96

Thành phần âm câm [âm thanh] (Non-tonal component

)

Một thành phần giống như tiếng ồn của tín hiệu âm thanh.

3.97

Lấy mẫu Nyquist (Nyquist sampling)

Lấy mẫu bằng hoặc cao hơn gấp đôi so với băng thông tối đa của một tín hiệu.

3.98

Gói tiêu đề [hệ thống] (pack [system])

Một gói bao gồm một tiêu đề gói, theo sau là một hoặc nhiều gói tin. Nó là một lớp trong hệ thống cú pháp mã hóa được mô tả trong tiêu chuẩn ISO/IEC 11172-1.

3.99

Dữ liệu gói [hệ thống] (packet data [system])

Các byte dữ liệu liên tiếp từ một dòng bít cơ sở có trong một gói dữ liệu.

3.100

Mào đầu gói dữ liệu [hệ thống] (packet header [system])

Cấu trúc dữ liệu được sử dụng để truyền tải thông tin về dữ liệu dòng cơ sở dữ được chứa trong gói dữ liệu.

3.101

Gói [hệ thống] (packet [system])

Một gói tin bao gồm một tiêu đề theo sau là một số byte liên tiếp từ một luồng dữ liệu cơ sở. Nó là một lớp trong cú pháp mã hóa hệ thống được mô tả trong tiêu chuẩn ISO/IEC 11172-1.

3.102

Phương pháp đệm (Padding

)

Một phương pháp để điều chỉnh độ dài trung bình theo thời gian của một khung âm thanh trong một khoảng thời gian tương ứng lấy mẫu PCM, bằng cách thêm một khe vào khung âm thanh.

3.103

Hình ảnh tham chiếu trước

(past reference picture

)

Hình ảnh tham chiếu trước là hình ảnh tham chiếu xuất hiện tại một thời điểm sớm hơn so với hình ảnh hiện tại theo thứ tự hiển thị.

3.104

Tỷ lệ pixel

(pel aspect ratio

)

Tỷ lệ giữa chiều cao của điểm ảnh trên màn hình với tỷ lệ chiều rộng quy định của nó.

3.105

Pixel (pel

)

Phần tử ảnh

3.106

Chu kỳ ảnh

(picture period

)

Nghịch đảo của thông số tốc độ hình ảnh.

3.107

Tốc độ ảnh

(picture rate

)

Tốc độ danh định mà tại đó hình ảnh sẽ được xuất ra từ quá trình giải mã.

3.108

Hình ảnh

(picture

)

Dữ liệu ảnh nguồn, được mã hóa hoặc ảnh tái tạo lại. Hình ảnh nguồn, hay ảnh tái tạo lại bao gồm ba ma trận hình chữ nhật trình diễn bằng 8 bít tương ứng với độ chói và 2 tín hiệu màu. Lớp hình ảnh là một trong những lớp có cú pháp mã hóa được định nghĩa trong tiêu chuẩn ISO/IEC 11172-2.

3.109

Giàn bộ lọc nhiều pha [âm thanh] (Polyphase filterbank

)

Một tập hợp các giàn bộ lọc thông bằng nhau có các mối quan hệ tương quan biệt về pha với nhau, cho phép giàn bộ lọc thực hiện hiệu quả.

3.110

Dự đoán

(prediction

)

Việc sử dụng công cụ dự đoán để ước tính giá trị pixel hoặc phần tử dữ liệu hiện đang được giải mã.

3.111

Hình ảnh mã hóa dự đoán; ảnh P (prediction-coded picture; P-picture)

Một hình ảnh được mã hóa bằng cách sử dụng tính năng dự đoán bù chuyển động từ hình ảnh tham chiếu trước đó.

3.112

Lỗi dự đoán

(prediction error

)

Sự khác nhau giữa giá trị thực tế của một điểm ảnh hoặc phần tử dữ liệu và dự đoán của nó.

3.113

Dự đoán

(predictor

)

Một sự kết hợp tuyến tính của các giá trị pixel được giải mã hoặc các phần tử dữ liệu trước đây.

3.114

Mốc thời gian trình diễn; PTS [hệ thống] (presentation time-stamp; PTS [system])

Một trường mà có thể xuất hiện trong mào đầu gói tin cho biết thời gian mà một đơn vị trình diễn được trình diễn trong bộ giải mã đích của hệ thống.

3.115

Đơn vị trình diễn [hệ thống] (presentation unit [system])

Một đơn vị truy cập âm thanh hoặc một hình ảnh được giải mã.

3.116

Mô hình tâm thính học [âm thanh] (Psychoacoustic model

)

Một mô hình toán học tương ứng với mặt nạ hệ thống thính giác của con người.

3.117

Ma trận lượng tử hóa

(quantization matrix

)

Một tập hợp gồm sáu mươi tư giá trị 8 bít được sử dụng bởi bộ giải lượng tử.

3.118

Hệ số DCT lượng tử

(quantized DCT coefficients

)

Hệ số DCT trước khi giải lượng tử. Một mã có chiều dài thay đổi được trình diễn bởi hệ số DCT được lưu trữ như một phần của dòng bít video nén.

3.119

Hệ số tỷ lệ lượng tử

(quantizer scale factor

)

Một phần tử dữ liệu được trình diễn trong dòng bít và được sử dụng bởi quá trình giải mã để chia tỷ lệ giải lượng tử.

3.120

Truy cập ngẫu nhiên (random access)

Quá trình bắt đầu đọc và giải mã dòng bit được mã hóa tại một điểm tùy ý.

3.121

Ảnh mẫu

(reference picture

)

Ảnh mẫu là những ảnh ảnh I hoặc ảnh P gần nhất với ảnh hiện tại theo thứ tự hiển thị.

3.122

Bộ đệm sắp xếp lại

(reoder butter

)

Một bộ đệm trong các bộ giải mã hệ thống dùng để lưu trữ ảnh I hoặc ảnh P đã được tái tạo lại.

3.123

Quá trình tái lượng tử hóa [âm thanh] (Requantization

)

Giải mã các mẫu băng tần con được mã hóa để khôi phục các giá trị lượng tử hóa ban đầu.

3.124

Bảo lưu (reserved)

Thuật ngữ “bảo lưu” được sử dụng trong các điều khoản quy định dòng bit được mã hóa, cho biết các giá trị có thể được sử dụng trong tương lai dùng cho các phần mở rộng được quy định trong tiêu chuẩn ISO/IEC.

3.125

Tua lại

(reverse play

)

Quá trình hiển thị chuỗi hình ảnh ngược với thứ tự hiển thị.

3.126

Băng điều chỉnh hệ số tỷ lệ [âm thanh] (Scalefactor band

)

Một tập hợp các đường tần số trong Lớp III được chia tỷ lệ theo một hệ số tỷ lệ.

3.127

Chỉ số hệ số tỷ lệ [âm thanh] (scalefactor index

)

Một mã số dùng cho hệ số tỷ lệ.

3.128

Hệ số tỷ lệ [âm thanh] (Scalefactor

)

Hệ số mà một tập giá trị được chia tỷ lệ trước khi lượng tử.

3.129

Tiêu đề trình tự [hình ảnh ] (sequence header

)

Một khối dữ liệu trong dòng bit được mã hóa lưu trữ việc trình diễn mã hóa của một số phần tử dữ liệu. Đây là một trong các lớp của một cú pháp mã hóa được định nghĩa trong tiêu chuẩn ISO/IEC 11172-2.

3.130

Thông tin phụ (Side information)

Thông tin cần thiết trong dòng bít để kiểm soát bộ giải mã.

3.131

Khối macro nhảy cách

(skipped macroblock

)

Một khối macro mà không có dữ liệu nào được lưu trữ.

3.132

Lát cắt ảnh

(slice

)

Một loạt các khối macro. Đây là một trong các lớp của cú pháp mã hóa được xác định trong tiêu chuẩn ISO/IEC 11172-2.

3.133

Khe [âm thanh] (slot

)

Khe là một phần cơ bản trong dòng bít. Trong lớp I, một khe bằng bốn byte, trong lớp II và III là một byte.

3.134

Dòng nguồn (source stream)

Một dòng không ghép kênh đơn của các mẫu trước khi mã hóa nén.

3.135

Hàm phân bố [âm thanh] (spreading function

)

Một hàm mô tả tần số lan truyền của mặt nạ.

3.136

Các mã khởi đầu [hệ thống và video] (start codes [system anh video])

Các mã 32 bit được nhúng trong dòng bit được mã hóa là duy nhất. Chúng được sử dụng cho một số mục đích kể cả việc xác định số lớp trong cú pháp mã hóa.

3.137

Bộ đệm đầu vào STD [hệ thống] (STD input buffer [system])

Bộ đệm vào trước ra trước tại đầu vào của bộ giải mã đích hệ thống dùng để lưu trữ dữ liệu nén từ các luồng sơ cấp trước khi giải mã.

3.138

Chế độ âm thanh nổi [âm thanh] (Stereo mode

)

Chế độ, trong đó hai kênh âm thanh tạo thành một cặp kênh âm thanh nổi (trái và phải) được mã hóa trong một dòng bit. Quá trình mã hóa giống như đối với chế độ song kênh.

3.139

Nhồi (bit); nhồi (byte) (Stuffing (bits); stuffing (bytes))

Các từ mã có thể được chèn vào dòng bit nén sẽ bị loại bỏ trong quá trình giải mã. Mục đích của chúng là làm tăng tốc độ bit của dòng bit.

3.140

Băng tần con [âm thanh] (subband

)

Phần nhánh của băng tần số âm thanh.

3.141

Giàn giàn bộ lọc tần con [âm thanh] (subband filterbank

)

Một tập hợp các giàn bộ lọc tần bao phủ toàn bộ dải tần âm thanh. Trong tiêu chuẩn này, giàn giàn bộ lọc tần con là một giàn bộ lọc nhiều pha.

3.142

Mu băng tần con [âm thanh] (subband samples

)

Giàn giàn bộ lọc tần con trong bộ mã hóa âm thanh tạo ra một trình diễn được lọc và được lấy mẫu của dòng âm thanh đầu vào. Các mẫu được lọc được gọi là các mẫu băng tần con. Từ 384 mẫu âm thanh đầu vào liên tiếp theo thời gian, 12 mẫu băng tần con liên tiếp theo thời gian được tạo ra trong mỗi 32 băng tần con.

3.143

Từ đồng bộ

(syncword

)

Một mã 12 bit được nhúng trong dòng bit âm thanh xác định thời điểm bắt đầu của khung.

3.144

Giàn bộ lọc tổng hợp [âm thanh] (Synthesis filterbank

)

Giàn bộ lọc trong bộ giải mã mà tái tạo lại tín hiệu âm thanh PCM từ các mẫu băng tần con.

3.145

Tiêu đề hệ thống [hệ thống] (system header [system])

Tiêu đề hệ thống là một cấu trúc dữ liệu được định nghĩa trong tiêu chuẩn này mang thông tin tổng hợp các đặc tính hệ thống của dòng đã ghép kênh ISO/IEC 11172.

3.146

Bộ giải mã hệ thống đích; STD [hệ thống] (system target decoder; STD [system])

Mô hình tham chiếu giả định của quá trình giải mã được sử dụng để mô tả ngữ nghĩa của dòng bit ghép kênh ISO/IEC 11172.

3.147

Mốc thời gian [hệ thống] (time-stamp [system])

Một thuật ngữ cho biết thời gian của sự kiện.

3.148

Bộ ba [âm thanh] (Triplet

)

Một bộ 3 mẫu băng tần con liên tiếp từ một băng tần con. Một bộ ba mẫu băng tần con từ một trong số 32 băng tần con tạo thành một hạt.

3.149

Thành phần âm [âm thanh] (tonal component

)

Một thành phần giống như hình sin của một tín hiệu âm thanh.

3.150

Tốc độ bít thay đổi (variable bitrate)

Hoạt động trong đó tốc độ bit thay đổi theo thời gian trong quá trình giải mã dòng bit nén.

3.151

Mã hóa độ dài thay đổi; VLC (variable length coding; VLC)

Một thủ tục thuận nghịch dùng để mã hóa để gán các từ mã ngắn hơn cho những trường thường xuyên xảy ra và các từ mã dài hơn cho những trường hợp ít có khả năng xảy ra.

3.152

Bộ kim định bộ đệm video; VBV

(video buffering verifier; VBV

)

Một bộ giải mã giả định được kết nối về mặt khái niệm với đầu ra của bộ mã hóa. Mục đích của nó là hạn chế sự thay đổi tốc độ dữ liệu mà bộ mã hóa hoặc quá trình chỉnh sửa có thể gây ra.

3.153

Tuần tự video

(video sequence

)

Một loạt một hoặc nhiều nhóm hình ảnh. Nó là một trong các lớp của cú pháp mã hóa được định nghĩa trong tiêu chuẩn ISO/IEC 11172-2.

3.154

Thứ tự quét zig-zag

(zig-zag scanning order

)

Thứ tự tuần tự cụ thể của các hệ số DCT từ (xấp xỉ) tần số không gian thấp nhất đến cao nhất.

4  Ký hiệu và từ ngữ viết tắt

Các toán tử số học được sử dụng để mô tả tiêu chuẩn này tương tự như các toán tử được sử dụng trong ngôn ngữ lập trình C. Tuy nhiên, phân số nguyên được làm tròn tới một giá trị cụ thể. Các toán tử phân theo bít được định nghĩa giả định của hai phần bù nhau là đặc trưng của số nguyên. Số và vòng đếm thường bắt đầu từ số không.

4.1  Toán tử số học

+ Phép cộng.
Phép trừ (như một toán tử nhị phân) hoặc phủ định (như một toán tử một ngôi).
++ Tăng.
Giảm.
* Phép nhân.
^ Lũy thừa.
/ Phân số nguyên với kết quả làm tròn tới không. Ví dụ, 7/4 và -7/-4 được làm tròn thành 1 và -7/4 và 7/-4 được làm tròn thành -1.
// Phân số nguyên với cách làm tròn tới số gần nhất. Giá trị của một nửa số nguyên được làm tròn tới không trừ các trường hợp khác. Ví dụ 3/2 được làm tròn thành 2, và -3/2 làm tròn thành -2.
DIV Phép chia số nguyên với kết quả vào khoảng -8.
% Toán tử giá trị tuyệt đối. Chỉ xác định cho số dương.
Sign() Sign(x) = 1 x>0
    0 x==0
    -1 x<0
NINT() Toán tử số nguyên gần nhất. Trả lại giá trị số nguyên gần nhất cho đối số của giá trị thực. Một nửa giá trị của số nguyên được làm tròn tới không.
sin Sin
cos Cô sin
exp Số mũ
  Căn bậc hai
Log10 Logarithm cơ số 10
loge Logarithm cơ số e

4.2  Các toán t logic

|| Phép hoặc.
&& Phép và.
! Phép phủ định.

4.3  Các toán tử quan hệ

> Lớn hơn.
>= Lớn hơn hoặc bằng.
< Nhỏ hơn.
<= Nhỏ hơn hoặc bằng.
== Ngang bằng.
!= Không bằng.
Max [….] Giá trị lớn nhất trong danh sách đối số.
Min [….] Giá trị nhỏ nhất trong danh sách đối số.

4.4  Các phép toán thao tác bít

&
| Hoặc
>> Phép dịch phải.
<< Phép dịch trái thêm số 0.

4.5  Phép gán

= Toán tử gán

4.6  Phép nhớ

Các phép nhớ sau được dùng để mô tả các kiểu dữ liệu khác nhau sử dụng trong mã hóa dòng bit.

bslbf Dòng bit, bít đầu tiên bên trái, trong đó “bên trái” là thứ tự trong dòng bít được viết trong tiêu chuẩn ISO/IEC 11172. Dòng bít được viết là một chuỗi của 1 và 0 trong dấu nháy đơn, ví dụ ‘1000 0001’. Khoảng trắng ở giữa dòng bít chỉ có tác dụng dễ đọc và không có ý nghĩa.
ch Kênh. Nếu ch có giá trị 0, kênh bên trái cho biết là một tín hiệu stereo hoặc tín hiệu đầu tiên của hai tín hiệu độc lập.(âm thanh)
nch Số lượng kênh; kết quả là 1 cho chế độ đơn kênh; 2 cho chế độ còn lại. (âm thanh)
gr Hạt của 3*32 mẫu băng tần con trong lớp âm thanh II, 18*32 mẫu băng tần con trong lớp âm thanh III. (âm thanh)
main_data Phần dữ liệu chính của dòng bít chứa hệ số tỷ lệ, mã hóa dữ liệu Huffman, và thông tin phụ thuộc, (âm thanh)
main_data_beg Vị trí trong dòng bít của dữ liệu chính khởi đầu của một khung. Vị trí là kết quả của vị trí kết thúc trước khi thêm dữ liệu chính của khung trong một bít. Nó là quá trình tính từ giá trị dữ liệu kết thúc của khung trước. (âm thanh)
part2_legnth Số lượng của bít dữ liệu chính sử dụng cho hệ số tỷ lệ. (âm thanh)
rpchof Hệ số đa thức còn lại, bậc cao nhất trước tiên. (âm thanh)
sb Băng tần con. (âm thanh)
sblimit Số lượng của băng tần con ít nhất mà không có bít nào được phân bổ. (âm thanh)
scfsi Hệ số tỷ lệ chọn lọc thông tin. (âm thanh)
switch_point_l Số dải tần (khối dải tần dài) từ một điểm trên cửa sổ nguồn được sử dụng. (âm thanh)
switch_point_s Số dải tần (khối dải tần ngắn) từ một điểm trên cửa sổ nguồn được sử dụng. (âm thanh)
uimsbf kiểu unsigned int, bít đầu là quan trọng nhất.
vlclbf Mã chiều dài biến, bít đầu tiên bên trái, trong đó “bên trái” dùng để chỉ thứ tự mà mã VLC được viết trong phụ lục B.
window Số khe thời gian hiện tại của block_type==2,0 ≤ window ≤ 2. (âm thanh)

Thứ tự byte của các lệnh multi-byte là byte đầu tiên quan trọng nhất.

4.7  Hằng số

pi 3.14159265359…
e 2.71828182846…

5  Phương pháp mô tả cú pháp dòng bít

Dòng bít thu được từ bộ giải mã được mô tả trong mục 7. Mỗi mục dữ liệu trong dòng bít được in đậm. Nó được mô tả bằng tên, chiều dài của nó bằng các bít, và được lưu lại theo loại, thứ tự truyền của nó.

Căn nguyên của hành động giải mã một phần dữ liệu trong một dòng bít phụ thuộc vào giá trị của phần tử dữ liệu đó và các yếu tố dữ liệu được giải mã trước đây. Việc giải mã các phần tử dữ liệu và xác định các biến trạng thái được sử dụng trong bộ giải mã được mô tả trong mục 8. Các cấu trúc sau đây được sử dụng để diễn tả các điều kiện khi phần tử dữ liệu có mặt và là kiểu bình thường.

While (condition)

data_element

{Nếu điều kiện đúng, thì nhóm phần tử dữ liệu sẽ xuất hiện trong chuỗi dữ liệu  tiếp theo. Quá trình này lặp lại cho đến khi điều kiện sai
…….  
}  
Do {  
data_element Phần tử dữ liệu luôn luôn xảy ra ít nhất một lần…}
while (condition) {Phần tử dữ liệu được lặp lại cho đến khi điều kiện sai.}
lf (condition) {Nếu điều kiện đúng, thì nhóm dữ liệu đầu tiên sẽ xuất hiện tiếp theo trong
dòng dữ liệu}
data_element

else {

 
data_element Nếu điều kiện sai, thì nhóm dữ liệu thứ hai của các phần tử dữ liệu sẽ xuất hiện trong dòng dữ liệu tiếp theo}
for (i=0 ; i < n ; i++) {Nhóm các phần tử dữ liệu xuất hiện n lần. Cấu trúc có điều kiện trong nhóm
data_element Các phần tử dữ liệu có thể phụ thuộc vào giá trị của vòng điều khiển biến i, được đặt bằng 0 cho lần xuất hiện đầu tiên, tăng lên 1 cho lần xuất hiện thứ hai, và vân vân. }

Như đã lưu ý, nhóm các phần tử dữ liệu có thể chứa các cấu trúc có điều kiện lồng nhau. Chính xác, {} được bỏ qua khi chỉ có một phần tử dữ liệu.

data_element [ ] data_element [ ] là một mảng của dữ liệu. Số dữ liệu cơ bản chỉ ra trong từng ngữ cảnh.
data_element [n] là phần tử thứ n + 1 của mảng dữ liệu.data_element [m] [n] data_element [m][n] thứ m+1, n+1 cơ bản của hai mảng thứ nguyên của dữ liệu data_element [l] [m] [n] data_element [l][m][n] là thứ l+1,m+1,n+1 cơ bản của ba thứ nguyên của dữ liệu
data_element [m..n] là dải gồm các bít giữa bít m và bít n trong data_element.

Trong khi cú pháp được thể hiện bằng các thuật ngữ thủ tục, không nên cho rằng mục 8.4.3 thực hiện một thủ tục giải mã thỏa đáng. Mặc dù, nó xác định một dòng bit đầu vào chính xác và không có lỗi. Bộ giải mã thực tế phải bao gồm một phương tiện để tìm mã bắt đầu để bắt đầu giải mã một cách chính xác.

Định nghĩa hàm bytealigned

Hàm bytealigned () trả về 1 nếu vị trí hiện tại nằm trên ranh giới byte, bit tiếp theo trong dòng bit là bit đầu tiên trong byte. Nếu không, nó trả về 0.

Định nghĩa hàm nextbits

Hàm nextbits () cho phép so sánh một dòng bít với bít tiếp theo được giải mã trong dòng bít.

Định nghĩa hàm next_start_code

Chức năng next_start_code () loại bỏ bất kỳ bít 0 và nhồi thêm byte và xác định đúng vị trí của mã bắt đầu tiếp theo.

Cú pháp Số bít Nhận dạng
next_start_code () {

while (!bytealigned() )

   
zero_bit 1 ‘0’
while ( nextbits() != ‘0000 0000 0000 0000 0000 0001’ )    
zero_byte 8 ‘00000000’
 }    

6  Các yêu cầu của cấu trúc mã hóa và tham số

6.1  Hàm chuỗi âm thanh

Cú pháp Số bít Nhận dạng
audio sequence ()    
{
  while (nextbits()==syncword) {
  frame ()
  }
}

6.2  Hàm khung âm thanh

Cú pháp Số bít Nhận dạng
frame ()    
{    
  header()    
  error_check()    
  audio_data()    
  ancillary()    
}    

6.3  Hàm tiêu đề

Cú pháp Số bít Nhận dạng
Header ()

{

   
Syncword 12 Bslbf
ID 1 Bslbt
layer 2 Bslbf
protection_bit 1 Bslbf
bitrate_index 4 Bslbf
sampling_frequency 2 Bslbf
padding_bit 1 Bslbf
private_bit 1 Bslbf
mode 2 Bslbf
mode_extension 2 Bslbf
copyright 1 Bslbf
original/home 1 Bslbf
emphasis 2 Bslbf
}    

6.4  Hàm kiểm tra lỗi

6.5  Hàm dữ liệu âm thanh, lớp I

6.6  Hàm dữ liệu âm thanh, lớp II

 

6.7  Hàm dữ liệu âm thanh lớp III

Dòng bít dữ liệu chính được định nghĩa dưới đây. Trường main_data trong cú pháp hàm audio_data() chứa các byte từ dòng bít dữ liệu chính. Tuy nhiên, do tính chất biến đổi của mã hóa Huffman được sử dụng trong lớp III, dữ liệu chính cho một khung thường theo sau thông tin tiêu đề và thông tin phụ cho khung đó. Trường main_data cho một khung bắt đầu tại một vị trí trong dòng bít đang xử lý tiêu đề của khung tại một bù giá trị âm được cho bởi giá trị main_data_begin. (Xem định nghĩa main_data_begin và Hình A.7.a).

 

6.8  Hàm dữ liệu phụ trợ

7  Ngữ nghĩa cho cú pháp dòng bít âm thanh

7.1  Chuỗi âm thanh chung

Frame – Lớp I và lớp II: Một phần của dòng bít có thể tự giải mã được. Trong lớp I chứa thông tin cho 384 mẫu và trong lớp II là 1152 mẫu. Nó bắt đầu với một từ đồng bộ hóa và kết thúc bằng từ mã đồng bộ hóa tiếp theo. Nó bao gồm một số nguyên các khe (bốn byte trong lớp I, một byte trong lớp II).
  – Lớp III: Một phần của chuỗi bít có khả năng giải mã với việc sử dụng các thông tin chính đã dùng trước đây. Trong lớp III nó chứa thông tin của 1152 mẫu. Mặc dù khoảng cách giữa hai từ mã đồng bộ hóa liên tiếp là một số nguyên các khe (một byte trong lớp III), các thông tin âm thanh thuộc một khung thường không được chứa giữa hai từ mã đồng bộ liên tiếp.

7.2  Khung âm thanh

Header – một phần của dòng bít chứa thông tin đồng bộ hóa và trạng thái thông tin.

Error_check – một phần của dòng bít chứa thông tin để phát hiện lỗi.

Audio_data – một phần của dòng bít chứa thông tin trong các mẫu âm thanh.

Ancillary_data – một phần của dòng bít có thể được sử dụng cho dữ liệu phụ trợ.

7.3  Tiêu đề

32 bít đầu tiên (4 byte) chứa tiêu đề thông tin sử dụng chung cho tất cả các lớp.

Syncword (Từ mã đồng bộ) – là chuỗi bít ‘1111 1111 1111’.

ID – một bít để chỉ ID của thuật toán. Bằng ‘1’ cho âm thanh ISO/IEC 11172-3, ‘0’ là dự phòng
Layer – 2 bít để chỉ ra các lớp được sử dụng, theo bảng sau,

Lớp  
“11” Lớp I
“10” Lớp II
“01” Lớp III
“00” Dành riêng

Khi lớp thay đổi, khôi phục lại bộ giải mã âm thanh được yêu cầu.

Bit_bảo vệ (protection_bit) – một bít được thêm vào dòng bít âm thanh để tạo điều kiện phát hiện lỗi và giấu lỗi. Bằng ‘1’ nếu không có sự dư thừa thêm vào, bằng ‘0’ nếu có sự dư thừa thêm vào.

bit_rate_index: cho biết tốc độ bít. Tất cả các giá trị zero cho biết vị trí “định dạng tự do”, trong đó có một tốc độ bít cố định không nhất thiết phải nằm trong danh sách sử dụng. Cố định có nghĩa là một khung có chứa khe N hoặc N+1, tùy thuộc vào giá trị của bít đệm. Các bit_rate_index là một chỉ số trong một bảng, giá trị khác nhau cho các lớp khác nhau. Bit_rate_index chỉ ra tổng tốc độ bít không kể các chế độ (stereo, joint_stereo, dual_channel, single_channel).

Đối với lớp II, không phải tất cả sự kết hợp của tổng tốc độ bít và các chế độ đều cho phép. Xem ở mục 3 phụ lục B, bảng 3-B.2 “Bảng các bít được sử dụng trong lớp II”

tốc đ bít_index tốc độ bít cụ thể (kbits/s)
Lớp I Lớp II Lớp III
‘0000’ tùy chọn tùy chọn tùy chọn
‘0001’ 32 32 32
‘0010’ 64 48 40
‘0011’ 96 56 48
‘0100’ 128 64 56
‘0101’ 160 80 64
‘0110’ 192 96 80
‘0111’ 224 112 96
‘1000’ 256 128 112
‘1001’ 288 160 128
‘1010’ 320 192 160
‘1011’ 352 224 192
‘1100’ 384 256 224
‘1101’ 416 320 256
‘1110’ 448 384 320
‘1111’ Cấm Cấm Cấm

Để đáp ứng độ trễ và phức tạp nhất có thể, bộ giải mã không bắt buộc phải hỗ trợ tốc độ bít biến đổi liên tục khi ở lớp I hoặc II. Lớp III hỗ trợ tốc độ biến đổi bít bằng cách chuyển bit_rate_index. Tuy nhiên, trong định dạng tự do, tốc độ bít cố định là bắt buộc. Quá trình giải mã không yêu cầu tốc độ bít cao hơn 448 kbits/s, 384 kbits/s, 320 kbits/s trong quan hệ giữa các lớp I, II và III khi ở chế độ định dạng tự do.

Đối với lớp II, không phải tất cả sự phối hợp của tổng tốc độ bít và chế độ là được chấp thuận. Xem bảng dưới đây.

Tốc độ bít (kbits/s) Chế độ cho phép
free format all modes
32 single_chanel
48 single_chanel
56 single_chanel
64 all modes
80 single_chanel
96 all modes
112 all modes
128 all modes
160 all modes
192 all modes
224 stereo, intensity stereo, dual chanel
256 stereo, intensity stereo, dual chanel
320 stereo, intensity stereo, dual chanel
384 stereo, intensity stereo, dual chanel

Tần số lấy mẫu (sampling_frequency) – cho biết tần số lấy mẫu, theo bảng dưới đây.

Tần số lấy mẫu Tần số bắt buộc (kHz)
‘00’ 44,1
‘01’ 48
‘10’ 32
‘11’ Dự phòng

Việc thiết lập lại bộ giải mã có thể đòi hỏi phải thay đổi tốc độ lấy mẫu.

Bit đệm (padding_bit) – nếu bít này bằng ‘1’ thì khung sẽ thêm một khe cắm để điều chỉnh tốc độ trung bình với tần số lấy mẫu, nếu không bít này sẽ nhận giá trị ‘0’. Padding là chỉ sự cần thiết với tần số lấy mẫu của 44,1 kHz. Padding cho phép yêu cầu trong định dạng tự do.

Padding yêu cầu áp dụng cho dòng bít như tích chiều dài của khung mã hóa, sau một số nào đó của khung tín hiệu không đi sai đường thêm nữa (khe +0,-1) từ giá trị được tính như sau:

ở frame_size = 384 cho lớp I
  1152 cho lớp II hoặc III

Phương pháp sau có thể sử dụng để xác định có hoặc không sử dụng padding:

để được khung âm thanh đầu tiên:

rest=0;

padding=no;

mỗi khung âm thanh sau:

private_bit – là bít được sử dụng cho cá nhân. Bít này sẽ không được ISO sử dụng về sau.

mode – chỉ ra các chế độ theo bảng sau. Trong lớp I và II, chế độ joint_stereo là intensity_stereo, trong lớp III là intensity_stereo và ms_stereo.

Chế độ Chế độ bắt buộc
‘00’ Âm thanh nổi stereo
‘01’ joint_stereo (intensity_stereo và/hoặc ms_stereo)
‘10’ dual_channel
‘11’ single_channel

Trong lớp I, tất cả các chế độ trừ chế độ stereo, cho giá trị giới hạn bằng 32. Trong lớp II, tất cả các
chế độ trừ chế độ joint_stereo, cho giá trị giới hạn là sblimit. Giới hạn trong chế độ joint_stereo là
xác định bởi chế độ mở rộng.

Chế độ m rộng (mode_extension) – các bít này được sử dụng trong chế độ joint_stereo. Lớp I
và II chỉ ra các dải băng tần con nằm trong intensity_stereo. Các giải băng tần con khác được mã
hóa trong âm thanh nổi.

mode_extension

(Chế độ mở rộng)

 
 
‘00’ băng tần con 4-31 trong intensity_stereo, giới hạn =4
‘01’ băng tần con 8-31 trong intensity_stereo, giới hạn =8
‘10’ băng tần con 12-31 trong intensity_stereo, giới hạn =12
‘11’ băng tần con 16-31 trong intensity stereo, giới hạn =16

Trong lớp III, chúng cho biết loại phương pháp mã hóa âm thanh chung được áp dụng. Các dải tần
mà các chế độ intensity_stereo và ms_stereo được áp dụng là ẩn trong thuật toán. Tham khảo thêm thông tin tại 8.4.

mode_extension intensity_stereo ms_stereo
‘00’ off off
‘01’ on off
‘10’ off on
‘11’ on on

Trường copyright – nếu bít này bằng ‘0’ thì không có bản quyền trên chuỗi mã hóa bít, ‘1’ nghĩa là bản quyền.

Trường original/home – bít này bằng ‘0’ nếu dòng bít là một bản sao, ‘1’ nếu nó là một bản gốc.

Trường emphasis – chỉ ra loại nhấn mạnh lại sẽ được sử dụng.

emphasis emphasis specified
‘00’ Không dùng
‘01’ 50/15 μs
‘10’ Dàn riêng
‘11’ CCITT J.17

7.4  Kiểm tra lỗi

Trường crc_check – 16 bít ký tự chẵn lẻ được sử dụng trong tùy chọn phát hiện lỗi trong dòng bít được mã hóa.

7.5  Dữ liệu âm thanh, lớp I

allocation[ch] [sb] – chỉ thị số lượng các bít được sử dụng để mã hóa mẫu trong băng tần con sb của kênh ch. Để được băng tần con trong chế độ intensity thì dòng bít phải có một phân bổ dữ liệu cơ sở cho mỗi băng tần con.

allocation [ch][sb] Số bít cho mỗi mẫu
0 0
1 2
2 3
3 4
4 5
5 6
6 7
7 8
8 9
9 10
10 11
11 12
12 13
13 14
14 15
15 Cấm

CHÚ THÍCH: Đối với mã ‘0000’ thì không mẫu nào được truyền đi.

scalefactor[ch] [sb]: chỉ ra các yếu tố của băng tần con sb của kênh ch bằng cách lấy các mẫu đã được yêu cầu của băng tần con. Sáu bít tạo thành một số nguyên unsigned, chỉ số được ghi trong mục 3 phụ lục B, bảng 3 – B.1 “Hệ số tỷ lệ Lớp I, II”. Có giá trị cho chế độ đơn kênh.

sample[ch] [sb] [s]: trình diễn mã của mẫu thứ s trong băng tần con sb của kênh ch. Phù hợp với các băng tần con đơn kênh và cho các băng tần con ở chế độ intensity_stereo. Trường hợp còn lại có giá trị cho cả hai kênh.

7.6  Dữ liệu âm thanh lớp II

allocation[ch] [sb]: chứa thông tin liên quan đến bộ lượng tử hóa sử dụng cho các mẫu trong băng tần con sb của kênh ch, mặc dù thông tin của ba mẫu liên tiếp được nhóm lại thành một mã số và số lượng bít được sử dụng để mã hóa mẫu. Ý nghĩa và chiều dài của trường này phụ thuộc vào số lượng bảng tần con, tốc độ bít, và tần số lấy mẫu. Các bít trong trường này tạo thành một số nguyên unsigned được sử dụng như là một chỉ mục cho bảng có liên quan trong mục 3 phụ lục B, bảng 3-B.2 “Bảng phân bổ bít lớp II”, cho biết số lượng mức độ được sử dụng để định lượng. 3 – phụ lục B, bảng 3-B.4 “Các lớp của quá trình lượng tử hóa trong lớp II” cung cấp thông tin bổ sung liên quan đến từng lượng tử có thể: hệ số thu hồi, cho dù nhóm đã được sử dụng, số lượng mẫu trên mỗi mã, và số bít trên mỗi mã. Một số bảng khác cho các kết hợp giữa tốc độ bít và tần số lấy mẫu khác nhau, xem 3 – phụ lục B, Bảng 3-B.2 “Bảng phân bổ bít lớp II”. Điều này có giá trị cho các băng tần con đơn kênh hoặc các băng tần con ở chế độ hiệu ứng _stereo. Trong trường hợp sau, phân bổ có giá trị cho cả hai kênh.

scfsi[ch] [sb] – thông tin lựa chọn hệ số tỷ lệ. Điều này cho biết thông tin về số lượng các hệ số tỷ lệ được chuyển cho băng tần con sb và các phần của tín hiệu trong khung này là hợp lệ. Khung được chia thành ba phần bằng nhau của 12 mẫu băng tần cho mỗi băng tần con.

Scfsi [sb]  
’00’ ba hệ số tỷ lệ được truyền đi, đối với các phần 0,1,2 tương ứng.
’01’ hai hệ số tỷ lệ được truyền đi, hệ số thứ 1 có giá trị đối với các phần 0 và 1, thứ hai cho phần 2.
‘10’ một hệ số tỷ lệ được truyền đi, có giá trị đối với cả ba phần.
’11’ hai hệ số tỷ lệ truyền được truyền đi, hệ số thứ 1 có giá trị đối với phần 0, hệ số thứ hai có giá trị đối với phần 1 và 2.

scalefactor[ch] [sb] [p]: chỉ ra hệ số tỷ lệ mà các mẫu lượng tử hóa của băng tần con sb của kênh ch và một phần p của khung được nhân lên sáu bít tạo thành số nguyên không dấu, chỉ dẫn trong 3-phụ lục B, bảng 3-B.1 “Hệ số tỷ lệ lớp I, II”. Phù hợp ở chế độ đơn kênh.

grouping[ch][sb]: là hàm mà dùng để xác định xem liệu rằng việc nhóm có ảnh hưởng cho việc mã hóa các mẫu trong băng tần con sb của kênh ch. Việc nhóm có nghĩa rằng ba mẫu liên tục của băng tần con sb hiện tại trong kênh ch trong hạt (granule) gr được mã hóa và được truyền đi sử dụng một từ mã chung và không sử dụng ba từ mã riêng biệt. Grouping[ch] [sb] là đúng nếu trong bảng bít Allocation hiện tại được sử dụng (xem Phụ lục B.2) giá trị tìm thấy ở dưới sb (row) và hàm allocation[sb] (column) là 3, 5 hay 9. Ngược lại là sai. Đối với các băng tần con trong chế độ intensity_stereo thì việc nhóm là phù hợp cho cả hai kênh.

samplecode[ch] [sb] [gr]: trình diễn ba mẫu liên tiếp được mã hóa trong hạt gr trong băng tần con sb của kênh ch. Đối với các băng tần con ở chế độ intensity_stereo thì việc trình diễn mã mẫu được mã hóa có giá trị đối với cả hai kênh.

Sample[ch] [sb] [s]: trình diễn mẫu thứ s được mã hóa trong băng tần con sb của kênh ch. Đối với các băng tần con ở chế độ intensity_stereo thì việc trình diễn mã được mã hóa có giá trị cho cả hai kênh.

7.7  Dữ liệu âm thanh, lớp III

main_data_begin – Giá trị của main_data_begin được sử dụng để xác định vị trí của bít đầu tiên của dữ liệu chính của một khung.

Giá trị main_data_begin xác định vị trí là một độ lệch âm tính bằng byte từ byte đầu tiên của từ đồng bộ hóa âm thanh. Số lượng byte thuộc thông tin tiêu đề và thông tin phụ không được tính đến. Ví dụ: nếu main_data_begin == 0, thì dữ liệu chính bắt đầu từ sau thông tin phụ. Các ví dụ được thể hiện trên Hình A.7.a và Hình A.7.b

main_data_end – giá trị main_data_end được sử dụng để xác định vị trí trong dòng bít của các bít cuối cùng của dữ liệu chính của một khung.

private_bits – các bít dùng để sử dụng riêng. Các bít này sẽ không sử dụng trong tương lai bởi ISO/IEC. Số lượng private_bits phụ thuộc vào số lượng kênh. Số lượng bít được chỉ định cho private_bits được xác định bằng tổng số bít được sử dụng cho thông tin phụ.

main_data _beg – được sử dụng để xác định vị trí trong dòng bít khởi đầu của khung main_data. Vị trí là kết quả từ vị trí kết thúc của khung main_data trước cộng với một bít. Nó được tính từ giá trị main_data_end của khung trước đó.

main_data – Phần main_data của dòng bít chứa hệ số tỷ lệ, mã hóa dữ liệu Huffman và thông tin phụ trợ.

scfsi[ch] [scfsi_band] – Trong lớp III, thông tin lựa chọn thang đo hệ số tỷ lệ hoạt động tương tự như các lớp I và II. Sự khác biệt chính là việc sử dụng các biến scfsi_band để áp dụng scfsi cho các nhóm hệ số tỷ lệ thay vì hệ số tỷ lệ đơn lẻ. Việc áp dụng các hệ số tỷ lệ cho các hạt được kiểm soát bởi scifsi.

Scfsi [scfsi_band]  
‘0’

‘1’

hệ số tỷ lệ được truyền cho mỗi hạt.

hệ số tỷ lệ lớn truyền cho hạt 0 cũng phù hợp cho hạt 1.

Nếu cửa sổ ngắn được bật, tức là block_type==2 đối với một trong các hạt, thì scfsi luôn luôn là 0 cho khung này.

scfsi [scfsi_band] [ch] – giống như scfsi [scfsi_band] nhưng để sử dụng trong chế độ âm thanh nổi, joint_stereo hoặc dual_channel.

scfsi_band – scfsi_band kiểm soát việc sử dụng các thông tin lựa chọn hệ số tỷ lệ cho các nhóm hệ số tỷ lệ (scfsi_bands).

Scfsi_band Các băng hệ số tỷ lệ (xem Bảng B.8)
0 0,1,2,3,4,5,
1 6,7,8,9,10
2 11….15
3 16….20

part2_3_length [gr] [ch] – giá trị này chứa số bít main_data được sử dụng cho các hệ số tỷ lệ và dữ liệu mã Huffman. Bởi vì độ dài của thông tin phụ luôn bằng nhau, nên giá trị này có thể được sử dụng để tính toán vị trí của thông tin chính khởi đầu cho từng hạt và vị trí của thông tin bổ sung (nếu sử dụng).

big_values [gr] [ch] – các giá trị phổ của mỗi hạt được mã hóa với các bảng mã Huffman khác. Dải tần số từ số không đến tần số Nyquist được chia thành nhiều khu vực, sau đó được mã hóa sử dụng các bảng khác nhau. Việc phân vùng được thực hiện theo các giá trị lượng tử hóa tối đa. Việc này được thực hiện với giả thiết rằng các giá trị tại các tần số cao hơn được mong đợi có biên độ thấp hơn hoặc không được mã hóa toàn bộ. Bắt đầu tại các tần số cao, có thể đếm được các cặp giá trị được lượng tử bằng 0. Số này được đặt tên là “rzero”. Sau đó, tăng gấp bốn lần các giá trị được lượng tử với giá trị tuyệt đối không vượt quá 1 (tức là chỉ có 3 mức lượng tử hóa có thể). Số này được đặt tên là “count 1”. Ngoài ra vẫn còn một một số giá trị chẵn. Cuối cùng, số cặp giá trị trong vùng phổ mở rộng xuống còn 0 được đặt tên là “big_value”. Giá trị tuyệt đối tối đa trong phạm vi này bị hạn chế đến 8191, Hình dưới đây trình bày việc phản vùng:

Các giá trị 000 là zero tất. Số của chúng là một bội số của 2.

Các giá trị — là -1,0 hoặc +1. Số của chúng là một bội số của 4.

Các giá trị xxx không bị ràng buộc. Số của chúng là một bội số của 2.

iblen là 576.

global_gain [gr] [ch] – thông tin kích thước bước lượng tử được truyền đi trong các biến thông tin global_gain. Nó được lượng tử hóa theo logarit. Nếu áp dụng global_gain, tham khảo công thức 8.4, “Công thức cho lượng tử hóa và tất cả các tỷ lệ”.

scalefac_compress [gr] [ch] – chọn số bít được sử dụng để truyền các hệ số tỷ lệ theo bảng sau:

Nếu block type là 0,1 hoặc 3:

Slen1: chiều dài của các thang đo tỷ lệ cho các băng tần tỷ lệ từ 0 đến 10

Slen2: chiều dài của các thang đo tỷ lệ cho các băng tần tỷ lệ từ 11 đến 20

Nếu block_type là 2 và switch_point là 0:

Slen1: chiều dài của các thang đo tỷ lệ cho các băng tần tỷ lệ từ 0 đến 5

Slen2: chiều dài của các thang đo tỷ lệ cho các băng tần tỷ lệ từ 6 đến 11

Nếu block_type là 2 và switch_point là 1:

Slen1: chiều dài của các thang đo tỷ lệ cho các dải tần số của thang đo từ 0 đến 7 (dải tần thang đo tỷ lệ cửa số dài) và 4 đến 5 (dải tần thang đo tỷ lệ cửa số ngắn) Lưu ý: Dải tần thang đo tỷ lệ từ 0 đến 7 lấy từ bảng “băng điều chỉnh hệ số tỷ lệ cửa số dài” và dải tần thang đo tỷ lệ từ 3 -11 lấy từ bảng “băng điều chỉnh hệ số tỷ lệ cửa số ngắn”. Sự kết hợp các phân vùng này tiếp giáp và kéo dài toàn bộ dải tần số.

Slen2: chiều dài của các hệ số tỷ lệ tỷ lệ cho các băng điều chỉnh hệ số tỷ lệ từ 6 đến 11

Scalefac_compress [gr] slen1 Slen2
0 0 0
1 0 1
2 0 2
3 0 3
4 3 0
5 1 1
6 1 2
7 1 3
8 2 1
9 2 2
10 2 3
11 3 1
12 3 2
13 3 3
14 4 2
15 4 3

window_switching_flag[gr][ch] – Báo hiệu rằng khối sử dụng một cửa sổ khác với cửa sổ bình thường (loại 0).

Nếu window_switching_flag được thiết lập, một số biến khác được thiết lập mặc định:

region0_count = 7 (trong trường hợp block_type==1 hoặc block_type==3 hoặc block_type==2mixed_block_flag)

region0_count = 8 (trong trường hợp block_type==2 và không có mixed_block_flag)

region1_count = 36 tất cả các giá trị còn lại trong khoảng big_value là chứa trong vùng 1.

scalefac_compress[gr][ch] – giống như Scalefac_compress[gr] nhưng sử dụng trong âm thanh nổi, chế độ joint_stereo hoặc dual_channel.

blocksplit_flag[gr][ch] – tín hiệu cho thấy khối sử dụng khác (loại 0) cửa sổ bình thường. Nếu bocksplit_flag được thiết lập, một số biến khác được đặt mặc định:

Region_address1= 8 (trong trường hợp block_type ==1 hoặc block_type ==3)

Region_address1 = 9 (trong trường hợp block_type ==2)

Region_address1 = 0 Trong trường hợp này độ dài của vùng 2 là zero.

Nếu blockplit_flag không được đặt, thì giá trị của block_type bằng không.

blocksplit_flag[gr][ch] – giống như blocksplit_flag [gr] nhưng để sử dụng trong âm thanh nổi, chế độ joint_stereo hoặc dual_channel

block_type[gr][ch] – cho biết loại cửa sổ dùng cho các lõi thực tế (xem mô tả về giàn bộ lọc, lớp III).

Block_type [gr]  
0 Dự phòng
1 khởi đầu khối
2 3 cửa sổ nhỏ
3 kết thúc khối

Block_type và mixed_block_flag cung cấp thông tin về việc thiết lập các giá trị trong khối, chiều dài và số lượng các biến (xem Phụ lục A, hình A.4 về sơ đồ mạch, Phụ lục C về mô tả phân tích). Nếu block_type = 2 điểm switch_point thì mixed-block_flag cho biết các băng tần con của bộ lọc nhiều pha được mã hóa bằng cách sử dụng loại cửa số thông thường. Bộ lọc nhiều pha được mô tả trong mục 8.2.

Trong trường hợp khối dài (block_type không bằng 2 hoặc nằm trong các băng tần con dưới của block_type2 nếu mixed_block_flag được thiết lập) thì IMDCT tạo ra một đầu ra 36 giá trị với mỗi 18 giá trị đầu vào. Các đầu ra được tạo cửa sổ thùy thuộc vào block_type và một nửa đầu của khối được chồng lên nửa thứ hai của khối trước. Véc tơ kết quả là đầu vào của một phần tổng hợp của giàn bộ lọc của một băng.

Trong trường hợp các khối ngắn (trong các băng tần con phía trên của khối loại 2 nếu mixed_block_flag được thiết lập hoặc trong tất cả các băng tần con của khối loại 2 nếu mixed_block_flag không được thiết lập), ba biến đổi được thực hiện với 12 giá trị đầu ra. Ba véc tơ được tạo cửa sổ và chồng lên nhau. Ghép 6 số 0 trên cả hai đầu của véc tơ sẽ tạo ra một véc tơ có độ dài 36, được xử lý như đầu ra của một quá trình biến đổi lâu dài.

Mixed_block_flag [gr][ch] – Cho biết các tần số thấp hơn được biến đổi bằng một loại cửa sổ khác với loại được sử dụng ở tần số cao hơn. Nếu mix_block_flag bằng 0, thì tất cả các khối được biến đổi như được biểu thị bằng block_type [gr] [ch]. Nếu Mixed_block_flag bằng 1 thì các đường tần số tương ứng với hai băng tần con nhiều pha tần số thấp nhất được biến đổi bằng cửa sổ thông thường (block_type == 0), trong khi 30 băng tần con còn lại được biến đổi thành block_type [gr] [ch]

block_type[gr][ch] – giống như block_type[gr] nhưng để sử dụng trong âm thanh nổi, chế độ joint_stereo hoặc dual_channel

switch_point[gr] – cho biết điểm chia của biến đổi ngắn/dài. Bảng dưới đây cho thấy số dải tần số trên mã chuyển mạch cửa sổ (tức là block_type khác với 0 được sử dụng.

switch_point[gr][ch] – giống như Switch_point[gr] nhưng để sử dụng trong âm thanh nổi, chế độ joint_stereo hoặc dual_channel

switch_point_1 – Số băng tần hệ số tỷ lệ (băng tần tỷ lệ khối dài) từ điểm trên cửa sổ chuyển mạch được sử dụng.

switch_point_s – Số băng tần hệ số tỷ lệ (băng tần tỷ lệ khối ngắn) từ điểm trên cửa sổ chuyển mạch được sử dụng.

cb_limit – Số băng tần cho các khối dài (block_type! =2). Đây là một hằng số, 21, cho lớp III ở tất cả các chế độ và tại tất cả các tần số lấy mẫu.

cb_limit_short – Số băng tần cho các khối ngắn (block_type =2). Đây là một hằng số, 12, cho lớp
III ở tất cả các chế độ và tại tất cả các tần số lấy mẫu.

window – cửa sổ khe thời gian thực tế trong trường hợp block_type ==2, 0 = window = 2.

table_select [gr] [ch] [region] – Các bảng mã Huffman khác nhau được sử dụng tùy thuộc vào giá trị lượng tử hóa tối đa và thống kê tín hiệu cục bộ. Có tổng cộng 32 bảng mã hóa Huffman được đưa ra trong bảng B.7

subblock_gain[gr][ch][window] – chỉ ra mức tăng bù (lượng tử hóa: hệ số 4) từ mức tăng chung cho một khối con. Chỉ được sử dụng với loại khối 2 (cửa sổ ngắn). Các giá trị của khối con phải được chia cho 4(subbtock_gain [window]) trong bộ giải mã.

region0_count[gr] [ch] – một phân vùng nữa của phổ được sử dụng để nâng cao hiệu suất của bộ mã hóa Huffman. Đây là một sự chia nhỏ vùng được mô tả bởi big_values. Mục đích của việc chia nhỏ này là để phát hiện lỗi tốt hơn và hiệu quả mã hóa tốt hơn. Có 3 vùng được sử dụng, chúng được đặt tên là vùng 0, vùng 1 và vùng 2. Mỗi vùng được mã hóa bằng cách sử dụng một bảng mã Huffman khác nhau tùy thuộc vào giá trị lượng tử hóa tối đa và các số liệu thống kê tín hiệu cục bộ.

Các giá trị region0_countregion1_count được sử dụng để chỉ ranh giới của các vùng. Các ranh giới vùng được sắp xếp theo sự phân chia phổ thành các dải hệ số tỷ lệ.

field region0_count chứa ít hơn một số lượng dải hệ số tỷ lệ trong vùng 0. Trong trường hợp các khối ngắn, mỗi dải hệ số tỷ lệ được tính ba lần, một lần cho mỗi cửa sổ ngắn, do đó giá trị region0_count là 8 cho biết vùng 1 bắt đầu tại dải hệ số tỷ lệ số 3.

Nếu block_type ==2 và mixed_block_flag==0, tổng số dải hệ số tỷ lệ cho hạt trong trường hợp này là 12*3=36. Nếu block_type ==2 và mixed_block_flag ==1, tổng số dải hệ số tỷ lệ là 8+9*3 =35. Nếu block_type! =2, tổng số dải hệ số tỷ lệ là 21.

region1_count [gr] [ch] – region 1_count đếm ít hơn một số với số lượng dải hệ số tỷ lệ trong vùng 1. Mặt khác, nếu block_type == 2, các dải hệ số tỷ lệ đại diện cho các khe thời gian khác nhau được tính riêng.

preflag [gr] [ch] – đây là một phím tắt cho khuếch đại tần số cao của các giá trị lượng tử hóa. Nếu preflag được thiết lập, các giá trị của một bảng sẽ được thêm vào các hệ số tỷ lệ (xem Phụ lục B, bảng B.6). Điều này tương đương với việc nhân các hệ số tỷ lệ đã được giải lượng tử với các giá trị bảng. Nếu block_type ==2 (các khối ngắn) thì preflag không bao giờ được sử dụng.

scalefac_scale[gr][ch] – các hệ số tỷ lệ được lượng tử hóa logarith với kích thước bước là 2 hoặc (√2) tùy thuộc vào scalefac_scale. Bảng dưới đây chỉ ra hệ số nhân của hệ số tỷ lệ được sử dụng trong cân bằng tái lượng tử hóa cho từng kích thước bước.

Scalefac_scale [gr] Scalefac_multiplier
0 0,5
1 1

count1table_select[gr][ch] – Cờ này chọn một trong hai bảng mã Huffman có thể có cho vùng gấp bốn giá trị lượng tử hóa với độ lớn không vượt quá 1.

Count1table_select[gr]  
0 Bảng B.7-A
1 Bảng B.7-A

scalefac_l[gr][ch][sfb], scalefac_s[gr][ch][sfb][window], is_post[sfb] – các hệ số tỷ lệ được sử dụng để tô màu cho nhiễu lượng tử. Nếu nhiễu lượng tử được tô màu với hình dạng phù hợp, nó sẽ được ẩn hoàn toàn. Không giống như lớp I và II, các hệ số tỷ lệ lớp 3 không cho biết về mức tối đa của tín hiệu lượng tử hóa. Trong lớp III, các hệ số tỷ lệ được sử dụng trong bộ giải mã để có được các hệ số phân chia cho các nhóm giá trị. Trong trường hợp của lớp III, các nhóm tín hiệu trải dài trên một vài đường tần số. Các nhóm này được gọi là các dải hệ số tỷ lệ và được lựa chọn để giống với các băng tần tới hạn càng nhiều càng tốt.

Bảng scalefac_compress cho thấy các hệ số tỷ lệ 0…10 có phạm vi từ 0 đến 15 (chiều dài tối đa là 4 bít) và các hệ số tỷ lệ từ 11…21 có phạm vi từ 0 đến 7 (chiều dài tối đa là 3 bit).

Nếu intensity_compress được kích hoạt (modebit_extension), các hệ số tỷ lệ của “zero_part” của kênh (bên phải) khác nhau được sử dụng làm các vị trí intensity_compress, is_post[sfb] (xem mục 8.4. MS_stereo). is_post[sfb] là vị trí cường độ âm thanh nổi dùng cho dải hệ số tỷ lệ sfb.

Phân chia của phổ thành các dải hệ số tỷ lệ được cố định cho từng độ dài và tần số lấy mẫu của khối và được lưu trong các bảng trong bộ mã hóa và bộ giải mã (xem Bảng B.8).

Các yếu tố hệ số tỷ lệ được định lượng logarit. Bước lượng tử được thiết lập với scalefac_scale.

huffman_code_bits() – Dữ liệu mã hóa Huffman

Cú pháp Huffmancodebits() cho thấy các giá trị được lượng tử hóa mã hóa như thế nào. Trong phân vùng big_values, các cặp giá trị được định lượng có giá trị tuyệt đối dưới 15 được mã hóa trực tiếp sử dụng mã Huffman. Các mã được chọn từ bảng thông số từ 0 đến 31 trong bảng B.7. Luôn luôn có cặp giá trị (x.y) được mã hóa. Nếu các giá trị đã được lượng tử hóa có độ lớn hơn hoặc bằng 15 được mã hóa, các giá trị được mã hóa bằng một trường riêng sau mã Huffman. Nếu một hoặc cả hai giá trị của một cặp không phải là không, một hoặc hai dấu bít được nối vào từ mã.

Các bảng Huffman cho phân vùng big_values bao gồm ba tham số:

hcod [|x|] [|y|] là mục nhập bảng mã Huffman cho giá trị x,y.
hlen [|x|] [|y|] là mục nhập bảng chiều dài Huffman cho giá trị x,y.
linbits là chiều dài của linbitsx hoặc linbitsy khi chúng được mã hóa.

Cú pháp cho huffmancodebits chứa các trường và tham số sau:

sign v là tín hiệu của v (0 nếu dương, 1 nếu âm).
sign w là tín hiệu của w (0 nếu dương, 1 nếu âm).
signx là tín hiệu của vx (0 nếu dương, 1 nếu âm).
signy là tín hiệu của y (0 nếu dương 1, nếu âm).
linbitsx được sử dụng để mã hóa giá trị của x nếu cường độ x lớn hơn hoặc bằng 15. Trường này chỉ được mã hóa nếu Ixl trong heod bằng 15. Nếu linbits là 0, vì thế không có bít nào được mã hóa khi Ixl == 15, thì giá trị linbitsx được xác định bằng 0.
linbitsy cũng giống như linbitsx nhưng đối với giá trị y.
is[l] là giá trị được lượng tử hóa cho đường tần số số I.

Các trường linbitsx hoặc linbitsy chỉ được sử dụng nếu giá trị lớn hơn hoặc bằng 15 cần được mã hóa. Các trường này được hiểu là các số nguyên không dấu và được thêm vào 15 để lấy giá trị được mã hóa. Các trường linbitsx và linbitsy không bao giờ được sử dụng nếu bảng được chọn là một đối với các khối có giá trị lượng tử tối đa nhỏ hơn 15. Chú ý rằng giá trị 15 có thể vẫn được mã hóa bằng bảng mã hóa huffman mà linbits bằng không. Trong trường hợp này, các trường linbitsx và linbitsy thực tế không được mã hóa vì linbits bằng không.

Đối với các phần count1, bộ 4 giá trị với biên độ nhỏ hơn hay bằng 1 được mã hóa. Còn lại các giá trị biên độ còn lại được mã hóa sử dụng mã Huffman từ bảng A hoặc B trong Bảng B.7. Còn lại, đối với mỗi giá trị khác không, một bít dấu được thêm vào sau ký hiệu mã huffman.

Các bảng Huffman cho phần count1 bao gồm các thông số sau:

hcod[|v|] [|w|][|x|] [|y|]) là mục nhập bảng mã Huffman cho giá trị v,w,x,y.
hlen[|v|] [|w|][|x|] [|y|] là mục nhập bảng chiều dài Huffman cho giá trị v,w,x,y.

Bảng mã hóa Huffman không thực sự là mã mã 4 chiều, bởi vì nó được cấu trúc từ mã thông thường: 0 được mã bằng 1, và 1 được mã bằng 0.

Các giá trị lượng tử hóa ở trên phân vùng count1 đều là 0 nên chúng không được mã hóa.

Để rõ ràng, thông số “count1” được sử dụng trong tiêu chuẩn này để chỉ số lượng các mã Huffman trong vùng count1. Tuy nhiên, không giống như phân vùng bigvalues, số lượng các giá trị trong phân vùng count1 không được mã rõ ràng bởi một trường trong cú pháp. Chỉ biết được phần cuối của phân vùng count1 khi tất cả các bit cho phần hạt (như được chỉ định bởi part2_3_length) đã hết và giá trị của count1 được ngầm xác định sau khi giải mã vùng count1.

Thứ tự dữ liệu Huffman phụ thuộc vào block_type của lõi. Nếu block_type là 0,1 hoặc 3, dữ liệu mã hóa Huffman được sắp xếp theo thứ tự tần suất ngày càng tăng.

Nếu block_type là 2 (khối ngắn) thì dữ liệu được mã hóa Huffman được sắp xếp theo thứ tự giống như các giá trị hệ số tỷ lệ đối với hạt đó (xem mục 7.7).

Dữ liệu được mã hóa Huffman được cung cấp cho các dải hệ số tỷ lệ liên tiếp, bắt đầu với dải hệ số tỷ lệ 0. Trong mỗi băng tần hệ số tỷ lệ, dữ liệu được cung cấp cho các cửa sổ thời gian liên tiếp, bắt đầu bằng cửa sổ 0 và kết thúc bằng cửa sổ 2. Các giá trị dữ liệu trong mỗi cửa sổ được sắp xếp theo thứ tự tần suất ngày càng tăng.

7.8  Dữ liệu phụ trợ

Ancillary_bit – người dùng có thể xác định.

Số lượng bít phụ trợ (no_of_ancillary_bits) bằng số lượng bít khả dụng trong một khung âm thanh trừ đi số bít thực tế sử dụng cho dữ liệu mào đầu, dữ liệu kiểm tra lỗi và dữ liệu âm thanh. Trong lớp I và II, no_of_ancillary_bits tương ứng với khoảng cách giữa phần cuối của dữ liệu âm thanh và phần đầu của mào đầu tiếp theo. Trong lớp III, no_of_ancillary_bits tương ứng với khoảng cách giữa phần cuối của bít mã hóa Huffman và vị trí trong dòng bit nơi con trỏ main_data_begin của khung tiếp theo trỏ đến.

8  Quá trình giải mã âm thanh

8.1  Tổng quan

Việc đầu tiên là đồng bộ hóa bộ giải mã với dòng bit đến. Ngay sau khi khởi động, có thể thực hiện bằng cách tìm kiếm từ đồng bộ 12 bit trong dòng bit. Trong một số ứng dụng, ID’ lớp và trạng thái bảo vệ đã được biết đến, do đó 16 bit đầu tiên của tiêu đề nên được coi là một từ đồng bộ 16 bit, do đó giúp việc đồng bộ hóa đáng tin cậy hơn. Vị trí của các từ đồng bộ liên tiếp có thể được tính toán từ thông tin được cung cấp bởi bảy bit chỉ sau protectton_bit: dòng bit được chia nhỏ trong các khe. Khoảng cách giữa điểm bắt đầu của hai từ đồng nghĩa liên tiếp bằng các khe “N” hoặc “N + 1”. Giá trị của ‘N” phụ thuộc vào lớp:

Đối với lớp I, phương trình sau là hợp lệ:

Đối với các lớp II và III phương trình sẽ trở thành:

Nếu phép tính này không cho số nguyên thì kết quả sẽ bị cắt bớt và cần có ‘padding’. Trong trường hợp này, số lượng khe trong khung sẽ thay đổi giữa N và N + 1. Bít padding được đặt là ‘0’ nếu số khe bằng N và là ‘1’ nếu ngược lại. Việc hiểu biết về vị trí của các từ đồng bộ liên tiếp tạo điều kiện thuận lợi cho việc đồng bộ hóa rất nhiều.

Nếu chỉ số tốc độ bít bằng ‘0000’, tốc độ bít chính xác không được xác định. N có thể được xác định từ khoảng cách giữa từ đồng bộ liên tiếp và giá trị của bít padding.

Sẽ biết được các bít mode trong dòng bít nếu giá trị của chúng là ‘01’ thì cũng sẽ biết được các bít mode_extension. Các bít mode_extension thiết lập “biên” như được trình trong mục 7.3 và do đó cho biết các băng tần con nào được mã hóa trong chế độ joint_stereo.

Nếu bít bảo vệ trong tiêu đề bằng ‘0’ thì một từ CRC-check được chèn vào trong dòng bít ngay sau tiêu đề. Phương pháp phát hiện lỗi được sử dụng là ‘CRC-16’ có đa thức tạo là

G(X) = X16 + X15 + X2 + 1

Các bít bao gồm trong một từ CRC-check được lấy từ Bảng B.5.

Phương pháp được mô tả trong hình A.9 “Sơ đồ khối CRC-check”. Trạng thái ban đầu của thanh ghi dịch chuyển là ‘1111 1111 1111 1111’. Sau đó, tất cả các bít được đưa vào CRC-check được đưa vào mạch điện trong hình A.9 “Sơ đồ khối CRC-check”. Sau mỗi bít được đưa vào, thanh ghi dịch chuyển sẽ được dịch chuyển một bít. Sau thao tác dịch chuyển cuối cùng, các đầu ra b15… b0 tạo thành một từ được so sánh với từ CRC-check trong dòng bit. Nếu các từ không đồng nhất, lỗi truyền tải sẽ xảy ra trong trường được bảo vệ của dòng bit. Để tránh các độ méo gây khó chịu, hãy áp dụng kỹ thuật che giấu, chẳng hạn như tắt tiếng của khung hình thực tế hoặc lặp lại khung hình trước đó

8.2  Lớp I

Sau phần giải mã chung cho tất cả các lớp (xem 8.1), thông tin phân bố bít phải được đọc cho tất cả các băng tần con, các hệ số tỷ lệ đọc cho tất cả các băng tần con có phân bổ bít nonezero. Lưu đồ bộ giải mã được trình bày trong Hình A.1 “Lưu đồ bộ giải mã lớp I và II”

8.2.1  Tái lượng tử hóa các mẫu băng tần con

Từ việc phân bổ bit, biết được số lượng bít nb phải đọc cho các mẫu trong từng băng tàn con được. Thứ tự của các mẫu được trình bày trong mục 6.5 dùng cho từng chế độ. Sau khi các bít cho một mẫu đã được tập hợp từ dòng bit thì bít đầu tiên phải được đảo ngược. Số kết quả có thể được coi như là số phân số bù của 2, trong đó MSB đại diện cho giá trị -1. Có thể tính được giá trị tái lượng tử hóa bằng cách áp dụng công thức tuyến tính dưới đây:

Trong đó: s’’’ là số phân số
  s’’ là giá trị tái lượng tử hóa
  nb là số bít được phân bổ cho các mẫu trong băng tần con

Các mẫu trong các băng tần con ở chế độ intensity_stereo phải được sao chép vào cả hai kênh. Giá trị tái lượng tử hóa phải được định lại. Hệ số nhân có thể được tìm thấy trong bảng B.1 “hệ số tỷ lệ lớp I và II”. Giá trị được chia tỷ lệ lại s’ được tính như sau:

s’ = factor*s”

8.2.2  Giàn bộ lọc tần con tổng hợp

Nếu một băng tần con không có bít được phân bổ cho nó, các mẫu trong băng tần con đó được đặt là 0. Mỗi lần tính các mẫu băng tần con cho tất cả 32 băng tần con của một kênh, các mẫu có thể áp dụng giàn bộ lọc tần con và có thể tính toán được 32 mẫu âm thanh liên tiếp. Các bước thực hiện trong lưu đồ Hình A.2 “Lưu đồ giàn bộ lọc tần con tổng hợp” cho thấy hoạt động tái cấu trúc. Các hệ số cho phép toán ma trận được tính bởi công thức sau:

0 ≤ i ≤ 63,0 ≤ k ≤ 31

Các hệ số Di cho phép toán tạo cửa sổ có thể được tìm thấy trong Bảng B.3 “Hệ số Di của cửa sổ tổng hợp”. Các hệ số đã được suy ra bằng cách tối ưu hóa số. Một khung chứa 12 * 32 = 384 mẫu băng tần con, kết quả sau khi lọc trong 384 mẫu âm thanh.

8.3  Lớp II

Lớp II hiệu quả hơn nhưng lược đồ mã hóa phức tạp hơn lớp I. Lưu đồ trong Hình A.1 “Lưu đồ bộ giải mã lớp I và II” áp dụng cho cả lớp I và II. Bước đầu tiên là thực hiện việc giải mã chung cho cả ba lớp (xem mục 8.1)

8.3.1  Giải mã phân b bit

Với những kết hợp khác nhau của tốc độ bít và tần số lấy mẫu, sẽ có các bảng phân bổ bít khác nhau (Bảng B.2 “bảng phân bổ bít lớp II”). Chú ý rằng các tốc độ bít cho trong các tiêu đề bảng trên mỗi kênh Nếu chế độ không phải là single_channel, nên chia tốc độ bít cho hai sẽ tính được tốc độ bít cho mỗi kênh. Việc giải mã bảng phân bổ bít được thực hiện theo cách tiếp cận ba bước. Bước đầu tiên bao gồm đọc “nbal” (2,3 hoặc 4) bít thông tin cho một băng tần con con từ dòng bit. Giá trị của ‘nbal’ được đưa ra trong cột thứ hai của bảng B.2 “bảng phân bổ bít lớp II”. Các bít này sẽ được hiểu là một số nguyên không dấu. Bước thứ hai là sử dụng số này và số lượng các băng tần con làm chỉ số để trỏ đến một giá trị trong bảng. Giá trị này biểu diễn số lượng các cấp độ ‘nlevels’ được sử dụng để lượng tử các mẫu trong băng tần con. Bước thứ ba là sử dụng Bảng B.4 “Lớp II phân lớp lượng tử”, số bít được sử dụng để mã hóa các mẫu được lượng tử hóa, các hệ số tái lượng tử và dữ liệu các mã cho ba mẫu băng tần con liên tiếp được nhóm thành một mã có thể được xác định. Nó có thể được tìm thấy trong các bảng phân bổ bít mà một số các băng tần con lớn nhất sẽ không bao giờ có bít được phân bổ. Số băng tần con thấp nhất mà không có bít được phân bổ cho nó được gán cho bộ nhận diện ‘sblimit’.

8.3.2  Giải mã thông tin lựa chọn hệ số tỷ lệ

36 mẫu trong một băng tần con trong một khung được chia thành ba phần bằng nhau của 12 mẫu băng tần con. Mỗi phần có thể có hệ số tỷ lệ riêng của nó. Số lượng các hệ số tỷ lệ được đọc từ dòng bít phụ thuộc vào scfsi [sb]. Thông tin lựa chọn về hệ số tỷ lệ scfsi [sb] được đọc từ dòng bít có phân bổ bít none-zero. Nếu scfsi [sb] bằng ‘00’ ba hệ số tỷ lệ được truyền đi, cho các phần 0,1,2 tương ứng. Nếu scfsi [sb] bằng ‘01’ hai hệ số tỷ lệ được truyền đi, số đầu tiên hợp lệ cho các phần 0 và 1, mmột số thứ hai của phần 2. Nếu scfsi [sb] bằng ‘10’ một hệ số tỷ lệ được truyền đi, hợp lệ cho cả ba phần. Nếu scfsi [sb] bằng ‘11’ hai hệ số tỷ lệ được truyền đi, số đầu tiên hợp lệ cho phần 0, số thứ hai cho phần 1 và 2.

8.3.3  Giải mã hệ số tỷ lệ

Đối với mỗi băng tần con với một phân bổ bít khác không, hệ số tỷ lệ đã được mã hóa cho băng tần con đó được đọc từ dòng bít. Số lượng các hệ số tỷ lệ đã được mã hóa và một phần của các mẫu băng tần con mà chúng tham chiếu được xác định bởi scfsi [sb]. 6 bít của một tập hợp hệ số tỷ lệ được mã hóa được hiểu như là một chỉ số số nguyên không dấu chỉ đến phụ lục B, Bảng B.1 “hệ số tỷ lệ lớp I,II”. Bảng này cung cấp cho hệ số tỷ lệ mà theo đó các mẫu băng tần phụ có liên quan nên được nhân lên sau tái lượng tử hóa.

8.3.4  Tái lượng tử các mẫu băng tần con

Tiếp theo các mẫu được mã hóa sẽ được đọc. Như trình bày trong mục 6.6, các mẫu được mã hóa xuất hiện bộ ba, mã có chứa ba mẫu liên tiếp tại một thời điểm. Từ phụ lục B, Bảng B.4 “Lớp II phân lớp lượng tử” sẽ được có bao nhiêu bít sẽ được đọc cho một bộ ba từ dòng bít cho mỗi băng tần con. Cũng từ phụ lục B, Bảng B.4 “Lớp II phân lớp lượng tử”, được biết liệu mã này bao gồm ba mã liên tiếp có thể tách riêng cho mỗi mẫu hoặc của một mã kết hợp cho ba mẫu (nhóm). Trong trường hợp cuối cùng tách nhóm phải được thực hiện. Mã kết hợp được coi là một số nguyên không dấu, được gọi là ‘c’. Thuật toán sau sẽ cung cấp ba mã riêng biệt s[0], s[1], s[2].

For (i=0;i<3;i++){

s[i]=c%nlevels

c=c DIV nlevels

}

Trong đó nlevels là số bước cho thấy trong phụ lục B, Bảng B.2 “bảng phân bổ bít lớp II”.

Bít đầu tiên của mỗi mã phải được đảo ngược, và các con số kết quả nên được coi là hai số phân số bổ sung, trong đó MSB trình diễn cho giá trị -1. Các giá trị được yêu cầu có thể thu được bằng cách áp dụng một công thức tuyến tính:

s’’ = C * (s’’’ + D)

Ở đây: s’’’ là số phân số

s’’ là giá trị tái lượng tử.

Các giá trị của hằng số C và D được cho trong phụ lục B, bảng B.4 “Lớp II phân lớp lượng tử”. Các giá trị tái lượng tử được yêu cầu phải được chia tỷ lệ lại. Các yếu tố nhân lên có thể được tìm thấy trong phụ lục B, bảng B.1 “hệ số tỷ lệ lớp I,II” như mô tả ở trên, giá trị chia tỷ lệ lại. ‘s’ được tính như sau:

s’ = factor * s’’

8.3.5  Giàn bộ lọc tần tổng hợp

Nếu một băng tần con không có bít được phân bổ cho nó, các mẫu trong băng tần con đó được đặt là 0. Mỗi lần lấy mẫu băng tần con cho tất cả 32 băng tần con của một kênh đã được tính, chúng có thể được áp dụng cho giàn bộ lọc tần tổng hợp và có thể tính được 32 mẫu âm thanh liên tiếp. Với mục đích đó, các bước trong lưu đồ được thể hiện trong Phụ lục A, Hình A.2 “lưu đồ giàn bộ lọc tần con tổng hợp” phải được thực hiện. Các hệ số cho phép toán ma trận được tính bởi công thức sau:

0 ≤ i ≤ 63,0 ≤ k ≤ 31

Các hệ số Di cho phép toán tạo cửa sổ có thể được tìm thấy trong Phụ lục B, trong Bảng B.3. Các hệ số đã được suy ra bằng cách tối ưu hóa số. Một khung chứa 36 * 32 = 1152 mẫu băng tần con, kết quả sau khi lọc trong 1152 mẫu âm thanh.

8.4  Lớp III

Độ phân dải tần số bổ sung được xác định bằng việc sử dụng một giàn bộ lọc lai. Mỗi băng tần được chia thành 18 dòng tần số bằng việc sử dụng một bộ MDCT. Chiều dài cửa sổ của MDCT là 36. Thực hiện việc chuyển đổi cửa sổ thích ứng để kiểm soát thời gian (pre-echoes), xem mô tả trong Phụ lục C. Có thể lựa chọn tần số ở trên mà các khối ngắn (độ phân giải thời gian tốt hơn) được sử dụng. Các phần của các tín hiệu ở dưới tần số phụ thuộc vào “mixed_block_flag” được mã hóa với độ phân dải tần số tốt hơn, các phần của tín hiệu ở trên được mã hóa với độ phân giải thời gian tốt hơn.

Các thành phần tần số được lượng tử hóa sử dụng một bộ lượng tử không đồng dạng và được mã hóa sử dụng một bộ đệm mã hóa Huffman. Các mã Huffman sử dụng một trong 18 bảng khác nhau (xem phụ lục B.7). Một bộ đệm được sử dụng để giúp nâng cao hiệu quả của các mã Huffman và để trợ giúp trong trường hợp các điều kiện tiếng vọng trước (xem mô tả trong Phụ lục C). Kích thước của bộ đệm đầu vào là kích thước của một khung tại tốc độ bít là 160 kbit/s trên mỗi kênh đối với lớp III. Kỹ thuật đệm ngắn hạn được gọi là ‘bit reservior’ bởi vì nó có tốc độ bít thay đổi ngắn hạn với độ lệch tối đa từ tốc độ bít trung bình.

Mỗi khung chứa dữ liệu từ 2 lõi. Dữ liệu âm thanh trong một khung được phân bổ theo cách sau:

– Con trỏ main_data_begin

– Thông tin phụ cho cả hai lõi (scfsi)

– Thông tin phụ lõi 1

– Thông tin phụ lõi 2

Tiêu đề và phần dữ liệu âm thanh này tạo thành dòng thông tin phụ.

– Dữ liệu hệ số tỷ lệ và mã Huffman lõi 1

– Dữ liệu hệ số tỷ lệ và mã Huffman lõi 2

– Dữ liệu bổ sung.

Những dữ liệu này tạo thành luồng dữ liệu chính. Con trỏ main_data_begin chỉ định một độ lệch âm từ vị trí của byte đầu tiên của tiêu đề.

8.4.1  Giải mã

Hoạt động đầu tiên là đồng bộ hóa bộ giải mã với dòng bít đến. Điều này được thực hiện như trong các lớp khác. Thông tin tiêu đề (32 bít đầu tiên bao gồm các từ đồng bộ) được đọc giống như trong các lớp khác. Thông tin về tần số lấy mẫu được sử dụng để chọn bảng băng tần hệ số tỷ lệ (xem phụ lục B.8).

8.4.2  Thông tin phụ

Các thông tin phụ phải trích xuất từ dòng bít và được lưu trữ để sử dụng trong khi giải mã khung liên quan. Thông tin lựa chọn bảng được sử dụng để chọn bảng giải mã Huffman và số bít ESC (linbits) theo bảng B.7.

8.4.3  Khởi đầu dữ liệu chính

Các dữ liệu chính (main_data) (hệ số tỷ lệ, mã hóa dữ liệu Huffman và thông tin phụ trợ) không nhất thiết phải nằm tiếp giáp với các thông tin phụ. Điều này được mô tả trong hình A.7a và hình A.7b. Khởi đầu của phần dữ liệu chính được xác định đúng vị trí bằng cách sử dụng con trỏ main_data_begin của khung hiện hành. Việc phân bố dữ liệu chính được thực hiện theo cách mà tất cả dữ liệu chính đều nằm trong bộ đệm đầu vào khi tiêu đề của khung tiếp theo đang đến bộ đệm đầu vào. Bộ giải mã phải bỏ qua tiêu đề và thông tin phụ khi giải mã dữ liệu chính. Nó biết được vị trí của nó từ chỉ số tỷ lệ bít và padding_bit. Độ dài của tiêu đề luôn là 4 byte, độ dài của thông tin phụ là 17 byte ở chế độ đơn kênh và 32 byte ở các chế độ khác, dữ liệu chính có thể kéo dài nhiều hơn một khối thông tin tiêu đề và thông tin phụ (xem hình A.7b).

8.4.4  Những lưu ý về bộ đệm

Quy tắc sau có thể được sử dụng để quy ước số lượng bit tối đa được sử dụng cho một lõi:

Bộ đệm có độ dài là 7680 bit. Giá trị này được sử dụng như một bộ đệm lớn nhất ở mọi tốc độ bít. Ở tốc độ bít cao nhất có thể của lớp III (320 kbits/s trên mỗi tín hiệu âm thanh nổi) và tần số lấy mẫu 48 kHz cho khung có chiều dài là (320 000/48 000) * 1152= 7680 bit. Do đó, các khung phải có độ dài không đổi ở tốc độ bit và tần số lấy mẫu này. Ở tốc độ 64 kbits/s (128 kbits/s trên mỗi tín hiệu âm thanh nổi) thì độ dài của lõi là (64 000/48 000)* 576 * 768 bít ở tần số lấy mẫu 48 kHz. Nó có nghĩa là sẽ có độ lệch cực đại (thời gian ngắn nhất của bộ đệm) của 7 680 – 4*768 = 4 608 bits được được cho phép với tốc độ 64 kbits/s. Độ lệch thực tế bằng số byte được hiển thị bằng con trỏ main_data_begin. Độ lệch thực tế lớn nhất là 2**9*8= 4 096 bits. Đối với tốc độ bít trung gian thì độ trễ và chiều dài bộ đệm có thể được tính toán tương ứng. Việc trao đổi bộ đệm giữa kênh trái và phải trong một dòng bít âm thanh nổi được cho phép mà không có hạn chế. Do hạn chế về kích thước bộ đệm main_data_begin luôn được đặt là 0 trong trường hợp bitrate_index- = 14, nghĩa là tốc độ dữ liệu 320 kbits/s trên tín hiệu nổi. Trong trường hợp này tất cả dữ liệu được phân bổ giữa các từ tiêu đề liền kề.

Ở tần số lấy mẫu thấp hơn 48kHz, bộ đệm phải được hạn chế sao cho cùng kích thước bộ đệm vật lý là đủ như kích thước được tính cho trường hợp 48 kHz ở trên

8.4.5  Hệ số tỷ lệ

Các hệ số tỷ lệ được giải mã theo slen1 và slen2 mà bản thân chúng được xác định từ các giá trị scalefac_compress. Các giá trị được giải mã có thể được sử dụng như các mục nhập vào một bảng hoặc sử dụng để tính toán trực tiếp các hệ số cho mỗi dải hệ số tỷ lệ. Khi giải mã lõi thứ hai, phải lưu ý đến scfsi. Đối với các băng tần trong đó scfsi tương ứng được đặt là 1, các hệ số tỷ lệ của lõi đầu tiên cũng được sử dụng cho lõi thứ hai, do đó chúng không được truyền cho lõi thứ hai.

Số bít sử dụng để giải mã hệ số tỷ lệ được gọi là part2_lenght, và được tính toán như sau:

Cho block_type==0,1, hoặc 3 (khối dài):

Part2_lenght= 11*slen1 + 10*slen2.

Cho block_type==2 (khối ngắn) và mixed_block_flag==0:

Part2_lenght= 18*slen1+18*slen2.

Cho block_type==2 (khối ngắn) và mixed_block_flag==1:

Part2_lenght=17*slen1+18*slen2.

Các công thức này là hợp lệ nếu gr == 0 hoặc nếu gr = = 1 và scfsi [ch] [scfsi_band] = = 0 cho tất cả các scfsi_bands, tức là thông tin lựa chọn hệ số tỷ lệ không được sử dụng.

8.4.6  Giải mã Huffman

Tất cả các thông tin cần thiết bao gồm cả bảng mà thể hiện được cây mã Huffman có thể được tạo ra từ các bảng trong bảng B.7. Đầu tiên dữ liệu big_values được giải mã bằng cách sử dụng các bảng với số table_select[gr][ch][region]. Các đường tần số trong vùng 0, vùng 1 và vùng 2 là các mã Huffman được giải mã thành từng cặp cho tới khi số lượng big_values của cặp đường tần số được giải mã. Các bit mã Huffman còn lại được giải mã bằng cách sử dụng bảng theo countltable_sclectfgr) [chl. Việc giải mã được thực hiện cho đến khi tất cả các bit mã Huffman đã được giải mã hoặc cho đến khi các giá trị lượng tử hóa đại diện cho 576 đường tần số được giải mã, tùy điều kiện nào đến trước. Nếu có nhiều bit mã Huffman hơn mức cần thiết để giải mã 576 giá trị, chúng được coi là bit chèn và bị loại bỏ. Biến đếm 1 được được tạo ra một cách ngẫu nhiên là số gấp bốn lần giá trị được giải mã bằng cách sử dụng count1table_select.

8.4.7  Giải lượng tử hóa

Lượng tử không đồng nhất sử dụng luật lũy thừa. Đối với mỗi giá trị đầu ra “is” từ các bộ giải mã Huffman, tính toán được “lisl4/3”. Việc này có thể được thực hiện bằng cách tra cứu bảng hoặc bằng cách tính toán rõ ràng.

8.4.8  Công thức tính toán giải lượng tử và các hệ số tỷ lệ

Một công thức hoàn chỉnh mô tả tất cả quá trình xử lý từ các giá trị giải mã Huffman tới đầu vào của giàn bộ lọc tổng hợp. Tất cả các hệ số tỷ lệ cần thiết đều nằm trong công thức này. Dữ liệu đầu ra được tái tạo từ các mẫu lượng tử. Giá trị khuyếch đại chung và khuyếch đại khối con ảnh hưởng đến tất cả các giá trị trong một cửa sổ thời gian (trong trường hợp block_type == 2). Hệ số tỷ lệ và preflag tiếp tục điều chỉnh tăng trong mỗi băng tần hệ số tỷ lệ. Minh họa thể được trình bày trong hình A.8.

Sau đây là phương trình giải lượng tử cho cửa sổ ngắn. Các giá trị giải mã Huffman tại chỉ số bộ đệm i được gọi là isi, các đầu vào cho giàn bộ lọc tổng hợp tại chỉ số i được gọi là xri:

Đối với khối, công thức là:

Pretab[sfb] là giá trị được cho trong bảng B.6. Hằng số 210 trong các công thức trên là cần thiết để chia hệ số đầu ra một cách thích hợp. Nó là một hằng số hệ thống. Giàn bộ lọc tổng hợp được giả định được thực hiện theo các công thức dưới đây. Phạm vi của các giá trị đầu ra của bộ giải mã (các mẫu PCM) nằm giữa -1,0 và +1,0.

8.4.9  Sắp xếp lại thứ tự

Nếu sử dụng các khối ngắn (block_type==2), dữ liệu đã được thay đổi tỷ lệ xr[scf_band][window][freq_line] (được mô tả trong huffmancodebits() trong mục 6.7.1) sẽ được sắp xếp lại thứ tự theo thứ tự băng tần con, xr[subband[window][freq_line], trước hoạt động IMDCT.

8.4.10  Quá trình xử lý âm thanh nổi

Sau khi giải lượng tử, các giá trị được tái cấu trúc được xử lý cho MS hoặc các chế độ intensity_stereo hoặc cả hai, trước khi đi đến giàn bộ lọc tổng hợp. Trong chế độ MS_stereo, hai kênh của lõi bắt buộc phải tương đương block_type.

8.4.10.1  Chế độ MS stereo

Chế độ này (được tìm thấy trong tiêu đề: mode_extension) cho phép chuyển từ “chế độ âm thanh nổi độc lập” sang chế độ MS_stereo. Nếu chế độ MS_stereo được kích hoạt nhưng chế độ intensity_stereo chưa được kích hoạt thì toàn bộ phổ sẽ được giải mã trong MS_stereo. Nếu cả hai chế độ MS_stereointensity_stereo đều được kích hoạt thì giới hạn trên của các băng tần hệ số tỷ lệ được giải mã trong MS_stereo thu được từ zero_part” kênh (phải) khác. Trong trường hợp này băng tần hệ số tỷ lệ mà trong đó dòng tần số kênh (phải) “none_zero” cuối cùng xuất hiện là băng tần hệ số tỷ lệ cuối cùng mà các phương trình MS_stereo áp dụng. Cường độ âm thanh nổi cao hơn giới hạn này có thể được áp dụng nếu được kích hoạt trong tiêu đề của kênh. Các “zero_part” của các kênh khác là một phần của phổ từ “bigvalues * 2 + count1 * 4” (xem mục 7.7) đến tốc độ Nyquist.

8.4.10.2  Ma trn MS

Trong chế độ MS_stereo, các giá trị trung bình của các kênh giữa/bên Mi/Si đã được chuẩn hóa được truyền đi thay vì các kênh trái/phải với giá trị Li/Ri. Do đó Li/Ri được tái sử dụng.

Các giá trị Mi được truyền trong kênh trái, các giá trị Si được truyền trong kênh phải.

Nếu xuất hiện việc chuyển đổi cửa sổ thì các kênh M và S phải được chuyển đổi đồng bộ.

8.4.10.3  Chế độ Intensity_stereo

Chế độ này (được tìm thấy trong tiêu đề: mode_extension) cho phép chuyển đổi từ “chế độ âm thanh nổi thông thường” sang chế độ intensity_stereo. Trong lớp III, chế độ intensity_stereo không sử dụng một cặp hệ số tỷ lệ như trong lớp I và II, nhưng bằng cách xác định độ lớn (thông qua hệ số tỷ lệ của kênh phải như thông thường) và một vị trí âm thanh nổi is_posSb[sfb], is_posSb[sfb] được truyền đi thay vì hệ các hệ số tỷ lệ cho kênh phải. Vị trí âm thanh nổi được sử dụng để lấy tín hiệu kênh trái và phải theo công thức bên dưới. Giới hạn thấp hơn của các băng tần hệ số tỷ lệ được mã hóa trong chế độ âm thanh nổi được bắt nguồn từ “zero_part” của kênh bên phải.

Cường độ âm thanh nổi cao hơn giới hạn này có thể được áp dụng bằng cách sử dụng các các hệ số tỷ lệ của kênh bên phải như các vị trí cường độ âm thanh nổi.

Ở trên giải mã này của âm thanh nổi được áp dụng bằng cách sử dụng hệ số tỷ lệ của kênh đúng như vị trí cường độ âm thanh nổi. Một vị trí cường độ âm thanh nổi của 7 trong 1 băng tần hệ số tỷ lệ cho biết rằng băng tần hệ số tỷ lệ này không được giải mã như cường độ âm thanh nổi.

Đối với từng dải hệ số tỷ lệ (sb) được mã hóa trong intensity_stereo, phải thực hiện các bước sau:

1) Độc vị trí cường độ âm thanh nổi is_possb từ hệ số tỷ lệ của kênh bên phải

2) Nếu (is_posSb==7) không được thực hiện các bước sau (is_pos không hợp lệ).

3)

4)  đối với tất cả các chỉ số i trong dải băng tần hệ số tỷ lệ sb.

5)  đối với tất cả các chỉ số i trong dải băng tần hệ số tỷ lệ sb.

8.4.10.4  Giàn bộ lọc tổng hợp

Hình A.4 cho thấy một sơ đồ khối trong đó có giàn bộ lọc tổng hợp. Các dòng tần số được xử lý trước bằng sơ đồ “giảm Alias” (xem sơ đồ khối trong trong Hình A.5 và trong Bảng B.9 đối với các hệ số) và đưa vào ma trận IMDCT, mỗi 18 dòng tần số tạo thành một khối chuyển đổi. Nửa đầu của các giá trị đầu ra được thêm vào các giá trị xếp chồng được lưu trữ vào khối cuối cùng. Những giá trị này là những giá trị đầu ra mới và là những giá trị đầu vào cho giàn bộ lọc nhiều pha. Nửa thứ hai của các giá trị đầu ra được lưu trữ xếp chồng với các dữ liệu lõi tiếp theo. Đối với mỗi băng tần con thứ hai của giàn bộ lọc nhiều pha, mỗi giá trị đầu vào thứ hai được nhân với -1 để điều chỉnh tần số nghịch đảo của giàn bộ lọc nhiều pha.

8.4.10.5  Giảm Alias

Đối với các lõi block_type dài (block_type!=2) thì đầu vào của bộ lọc tổng hợp sẽ được xử lý giảm alias (giảm tên hiệu) trước khi xử lý bởi IMDCT. Đoạn mã giả dưới đây mô tả phép tính giảm Alias:

Các chỉ số của mảng xar [] và xr [] gắn nhãn các dòng tần số trong một lõi, được sắp xếp theo thứ tự từ tần số thấp nhất đến tần số cao nhất, với 0 là chỉ số của dòng tần số thấp nhất và 575 là chỉ số của tần số cao nhất. Các hệ số: Cs [i] và Ca [i] có thể được tìm thấy trong bảng B.9. Hình A.5 và A.6 minh họa phép tính giảm Alias.

Việc giảm Alias không được áp dụng cho các lõi có block_type == 2 (khối ngắn).

8.4.10.6  IMDCT

Trong công thức dưới đây, n là số lượng các mẫu được tạo cửa sổ (đối với khối ngắn n là 12, đối với các khối dài n là 36). Trong trường hợp khối thuộc kiểu “ngắn”, mỗi khối trong ba khối ngắn được biến đổi riêng biệt, n/2 giá trị Xk được biến đổi thành n giá trị x. Biểu thức phân tích của IMDCT là:

8.4.10.7  Tạo cửa sổ

Tùy thuộc vào block_type, sử dụng các hình dạng khác nhau của các cửa sổ.

  1. a) Block_type=0 (cửa sổ bình thường)
  2. b) Block_type=1 (khối bắt đầu)
  3. c) Block_type=3 (khối dừng)
  4. d) Block_type=2 (khối ngắn)

Một trong ba khối ngắn được tạo cửa sổ riêng biệt.

Cửa sổ khối ngắn phải được xếp chồng và nối vào nhau.

8.4.10.8  Xếp chồng và thêm vào khối trước

36 giá trị nửa đầu của khối được xếp chồng với nửa thứ hai của khối trước. Nửa thứ hai của khối thực tế đã lưu trữ được sử dụng trong khối tiếp theo:

resulti = zi + si i = 0….17
si = zi+18 i = 0….17

8.4.10.9  Bù cho quá trình đảo ngược tần số của giàn bộ lọc nhiều pha

Đầu ra của khối xếp chồng bao gồm 18 mẫu thời gian dùng cho mỗi 32 băng tần con nhiều pha. Nếu các mẫu thời gian được đánh nhãn từ 0 đến 17, với 0 là thời gian lấy mẫu sớm nhất và băng tần con được đánh nhãn từ 0 đến 31, với 0 là băng tần con thấp nhất, thì mỗi mẫu thời gian lẻ của mỗi băng tần con lẻ được nhân với -1 trước khi xử lý bởi các giàn bộ lọc nhiều pha.

 

Phụ lục A

(Quy định)

Sơ đồ mã hóa, giải mã

Hình A.1: Lưu đồ bộ giải mã lớp I và II

Hình A.2 – Lưu đồ tổng hợp giàn bộ lọc tần con

Hình A.3 – Sơ đồ giải mã lớp III

Hình A.4 – Sơ đồ bộ giải mã lớp III

Hình A.5 – Sơ đồ bộ giải mã giảm xáo trộn lớp III

Hình A.6 – Xáo trộn chéo lớp III, bộ giải mã

 

**) main_data_begin 4 == 0: biểu thị rằng dữ liệu chính bắt đầu ngay sau thông tin phụ đối với khung 4. Đây là giới hạn dưới cho main_data_begin, main_data không thể bắt đầu sau thời điểm này. Lưu ý rằng các byte dữ liệu được sử dụng bởi ‘sync’ và ‘side info’ không được đếm bởi con trỏ main_data_begin.

CHÚ THÍCH: ‘info’ có nghĩa là thông tin.

Hình A.7b – Sắp xếp dòng bít lớp III với yêu cầu đỉnh tại Thông tin chính 3 và yêu cầu nhỏ ở thông tin chính 2.

Hình A.8 – Minh họa lớp 3 của các lõi trong khung với block_type == 0 trong lõi đầu tiên và block_type == 2 trong lõi thứ hai

Hình A.9 – Sơ đồ kiểm tra CRC

 

Phụ lục B

(Quy định)

Các bảng biểu

Bảng B.1 – Hệ số tỷ lệ lớp I, II

Chỉ số Hệ số tỷ lệ Chỉ số Hệ số tỷ lệ
0 200000000000000 32 0,00123039165029
1 1,58740105196820 33 0,00097656250000
2 2,25992104989487 34 0,00077509816991
3 1,25992104989487 35 0,00061519582514
4 1,00000000000000 36 0,00048828125000
5 0,79370052598410 37 0,00038754908495
6 0,62996052494744 38 0,00030759791257
7 0,50000000000000 39 0,00024414062500
8 0,39685026299205 40 0,00019377454248
9 0,31498026247372 41 0,00015379895629
10 0,25000000000000 42 0,00012207031250
11 0,19842513149602 43 0,00009688727124
12 0,15749013123686 44 0,00007689947814
13 0,12500000000000 45 0,00006103515625
14 0,09921256574801 46 0,00004844363562
15 0,07874506561843 47 0,00003844973907
16 0,06250000000000 48 0,00003051757813
17 0,04960628287401 49 0,00002422181781
18 0,03937253280921 50 0,00001922486954
19 0,03125000000000 51 0,00001525878906
20 0,02480313143700 52 0,00001211090890
21 0,01968626640461 53 0,00000961243477
22 0,01562500000000 54 0,00000762939453
23 0,01240157071850 55 0,00000605545445
24 0,00984313320230 56 0,00000480621738
25 0,00781250000000 57 0,00000381469727
26 0,00492156660115 58 0,00000302772723
27 0,00390625000000 59 0,00000240310869
28 0,00310039267963 60 0,00000190734863
29 0,00246078330058 61 0,00000151386361
30 0,00195312500000 62 0,00000120155435
31 0,00155019633981    

Bảng B.2 – Các bảng phân bổ bít lớp II

Bảng B.2a – Lượng tử hóa có thể được cho mỗi băng tần con

Fs = 48 kHz Tốc độ bít cho mỗi kênh = 56,64,80,96,112,128,160,192 kbits/s và định dạng tự do
Fs = 44,1 kHz Tốc độ bít cho mỗi kênh = 56.64.80 kbits/s
Fs = 32 kHz Tốc độ bít cho mỗi kênh = 56.64.80 kbits/s

Chỉ số

sb nbal 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 4 3 7 15 31 63 127 255 511 1023 2047 4095 8191 16383 32767 65535
1 4 3 7 15 31 63 127 255 511 1023 2047 4095 8191 16383 32767 65535
2 4 3 7 15 31 63 127 255 511 1023 2047 4095 8191 16383 32767 65535
3 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
4 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
5 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
6 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
7 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
8 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
9 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
10 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
11 3 3 5 7 9 15 31 65535                
12 3 3 5 7 9 15 31 65535                
13 3 3 5 7 9 15 31 65535                
14 3 3 5 7 9 15 31 65535                
15 3 3 5 7 9 15 31 65535                
16 3 3 5 7 9 15 31 65535                
17 3 3 5 7 9 15 31 65535                
18 3 3 5 7 9 15 31 65535                
19 3 3 5 7 9 15 31 65535                
20 3 3 5 7 9 15 31 65535                
21 3 3 5 7 9 15 31 65535                
22 3 3 5 7 9 15 31 65535                
23 2 3 5 65535                        
24 2 3 5 65535                        
25 2 3 5 65535                        
26 2 3 5 65535                        
27 0                              
28 0                              
29 0                              
30 0                              
31 0                              

sblimit =27

Tổng của nbal = 88

Bảng B2.b – Lượng tử hóa có thể được cho mỗi băng tần con

Fs = 48 kHZ ———- không thích hợp ———–
Fs = 44,1 kHZ Tốc độ bít cho mỗi kênh = 96,112,128,160,192 kbits/s và định dạng tự do
Fs = 32 kHz Tốc độ bít cho mỗi kênh = 96,112,128,160,192 kbits/s và định dạng tự do

Chỉ số

sb nbal 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 4 3 7 15 31 63 127 255 511 1023 2047 4095 8191 16383 32767 65535
1 4 3 7 15 31 63 127 255 511 1023 2047 4095 8191 16383 32767 65535
2 4 3 7 15 31 63 127 255 511 1023 2047 4095 8191 16383 32767 65535
3 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
4 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
5 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
6 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
7 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
8 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
9 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
10 4 3 5 7 9 15 31 63 127 255 511 1023 2047 4095 8191 65535
11 3 3 5 7 9 15 31 65535                
12 3 3 5 7 9 15 31 65535                
13 3 3 5 7 9 15 31 65535                
14 3 3 5 7 9 15 31 65535                
15 3 3 5 7 9 15 31 65535                
16 3 3 5 7 9 15 31 65535                
17 3 3 5 7 9 15 31 65535                
18 3 3 5 7 9 15 31 65535                
19 3 3 5 7 9 15 31 65535                
20 3 3 5 7 9 15 31 65535                
21 3 3 5 7 9 15 31 65535                
22 3 3 5 7 9 15 31 65535                
23 2 3 5 65535                        
24 2 3 5 65535                        
25 2 3 5 65535                        
26 2 3 5 65535                        
27 2 3 5 65535                        
28 2 3 5 65535                        
29 2 3 5 65535                        
30 0                              
31 0                              

sblimit = 30

Tổng của nbal = 94

Bảng B.2c – Lượng tử hóa có thể được cho mỗi bits/s

Fs = 48 kHz Tốc độ bít cho mỗi kênh = 32,48 kbits/s
Fs = 44,1 kHZ Tốc độ bít cho mỗi kênh = 32,48 kbits/s
Fs = 32 kHz ……………… không thích hợp ………………….

Chỉ số

sb nbal 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 4 3 5 9 15 31 63 127 255 511 1023 2047 4095 8191 16383 32767
1 4 3 5 9 15 31 63 127 255 511 1023 2047 4095 8191 16383 32767
2 3 3 5 9 15 31 63 127                
3 3 3 5 9 15 31 63 127                
4 3 3 5 9 15 31 63 127                
5 3 3 5 9 15 31 63 127                
6 3 3 5 9 15 31 63 127                
7 3 3 5 9 15 31 63 127                
8 0                              
9 0                              
10 0                              
11 0                              
12 0                              
13 0                              
14 0                              
15 0                              
16 0                              
17 0                              
18 0                              
19 0                              
20 0                              
21 0                              
22 0                              
23 0                              
24 0                              
25 0                              
26 0                              
27 0                              
28 0                              
29 0                              
30 0                              
31 0                              

sblimit = 8

Tổng của nbal = 26

Bảng B.2d – Lượng tử hóa có thể được cho mỗi băng tần con

Fs = 48 kHz …………………không thích hợp………………..
Fs = 44,1 kHZ …………………không thích hợp………………..
Fs = 32 kHz Tốc độ bít cho mỗi kênh = 32,48 kbits/s

Chỉ số

sb nbal 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
0 4 3 5 9 15 31 63 127 255 511 1023 2047 4095 8491 16383 32767
1 4 3 5 9 15 31 63 127 255 511 1023 2047 4095 8191 16383 32767
2 3 3 5 9 15 31 63 127                
3 3 3 5 9 15 31 63 127                
4 3 3 5 9 15 31 63 127                
5 3 3 5 9 15 31 63 127                
6 3   3 5 9 15 31 63 127                
7 3 3 5 9 15 31 63 127                
8 3 3 5 9 15 31 63 127                
9 3 3 5 9 15 31 63 127                
10 3 3 5 9 15 31 63 127                
11 3 3 5 9 15 31 63 127                
12 0                              
13 0                              
14 0                              
15 0                              
16 0                              
17 0                              
18 0                              
19 0                              
20 0                              
21 0                              
22 0                              
23 0                              
24 0                              
25 0                              
26 0                              
27 0                              
28 0                              
29 0                              
30 0                              
31 0                              

sblimit = 12

Tổng của nbal = 38

 

 

Bảng B.4 – Các lớp lượng tử lớp II

Số bước C D Nhóm Số mẫu cho mỗi từ mã Số bít cho mỗi từ mã
3 1,33333333333 0,50000000000 yes 3 5
5 1,60000000000 0,50000000000 yes 3 7
7 1,14285714286 0.25000000000 no 1 3
9 1,77777777777 0,50000000000 yes 3 10
15 1,06666666666 0,12500000000 no 1 4
31 1.03225806452 0,06250000000 no 1 5
63 1,01587301587 0,03125000000 no 1 6
127 1,00787401575 0,01562500000 no 1 7
255 1,00392156863 0,00781250000 no 1 8
511 1,00195694716 0,00390625000 no 1 9
1023 1,00097751711 0,00195312500 no 1 10
2047 1,00048851979 0,00097656250 no 1 11
4095 1,00024420024 0,00048828125 no 1 12
8494 1,00012208522 0,00024414063 no 1 13
16383 1,00006103888 0,00012207031 no 1 14
32767 1,00003051851 0,00006103516 no 1 15
65535 1,00001525902 0,00003051758 no 1 16

Bng B.5 – Số bít dữ liệu âm thanh được bảo vệ

Lớp Dải được bảo vệ
I Các bít 16…31 của bít mào đầu được chấp thuận
II Các bít 16…31 của bít mào đầu được chấp thuận

Lựa chọn thông tin hệ số tỷ lệ

III Các bit 16…31 của mào đầu

Thông tin phụ:

Các bit 0…135 của dữ liệu âm thanh trong chế độ single_channel

Các bit 0…255 của dữ liệu âm thanh trong các chế độ khác

Bảng B.6 – Layer III preemphasis (pretab)

Dải hệ số tỷ lệ (cb) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
pretab [cb] 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 2 2 3 3 3 2

Bảng B.7 – Mã hóa Huffman cho lớp III

 

 

Bảng mã hóa Huffman 8
linbits = 0

 

Bảng mã hóa Huffman 9
linbits = 0

 

Bảng mã hóa Huffman 10
linbits = 0

 

 

Bảng B.8 – Dải hệ số tỷ lệ lớp III

Các bảng này liệt kê chiều rộng của mỗi dải hệ số tỷ lệ. Tại đây là 21 dải cho mỗi tần số lấy mẫu thay cho chiều dài cửa sổ (kiểu 0,1 hoặc 3) và 12 mỗi dải cho cửa sổ ngắn.

Bảng B.8a – 32 kHz tốc độ lấy mẫu

Khối dài:

Dải hệ số tỷ lệ Chiu rộng dải Thông số khởi đầu Thông số kết thúc
0 4 0 3
1 4 4 7
2 4 8 11
3 4 12 15
4 4 16 19
5 4 20 23
6 6 24 29
7 6 30 35
8 8 36 43
9 10 44 53
10 12 54 65
11 16 66 81
12 20 82 101
13 24 102 125
14 30 126 155
15 38 156 193
16 46 194 239
17 56 240 295
18 68 296 363
19 84 364 447
20 102 448 549

Khối ngắn:

Dải hệ số tỷ lệ Chiều rộng của dải Thông số khi đầu Thông số kết thúc
0 4 0 3
1 4 4 7
2 4 8 11
3 4 12 15
4 6 16 21
5 8 22 29
6 12 30 41
7 16 42 57
8 20 58 77
9 26 78 103
10 34 104 137
11 42 138 179

Bảng B.8b – Tốc độ lấy mẫu 44,1 kHz

Khối dài:

Dải hệ số tỷ lệ Chiều rộng của dải Thông số khởi đầu Thông số kết thúc
0 4 0 3
1 4 4 7
2 4 8 11
3 4 12 15
4 4 16 19
5 4 20 23
6 6 24 29
7 6 30 35
8 8 36 43
9 8 44 51
10 10 52 61
11 12 62 73
12 16 74 89
13 20 90 109
14 24 110 133
15 28 134 161
16 34 162 195
17 42 196 237
18 50 238 287
19 54 288 341
20 76 342 417

Khối ngắn:

Dải hệ số tỷ lệ Chiều rộng của dải Thông số khởi đầu Thông số kết thúc
0 4 0 3
1 4 4 7
2 4 8 11
3 4 12 15
4 6 16 21
5 8 22 29
6 10 30 39
7 12 40 51
8 14 52 65
9 18 66 83
10 22 84 105
11 30 106 135

Bảng B.8c – Tốc độ lấy mẫu 48 kHz

Khối dài:

Dải hệ số tỷ lệ Chiều rộng của dải Thông số khởi đầu Thông số kết thúc
0 4 0 3
1 4 4 7
2 4 8 11
3 4 12 15
4 4 16 19
5 4 20 23
6 6 24 29
7 6 30 35
8 8 36 41
9 8 42 49
10 10 50 59
11 12 60 71
12 16 72 87
13 18 88 105
14 22 106 127
15 28 128 155
16 34 156 189
17 40 190 229
18 46 230 275
19 54 276 329
20 54 330 383

Khối ngắn:

Dải hệ số tỷ lệ Chiều rộng của dài Thông số khởi đầu Thông số kết thúc
0 4 0 3
1 4 4 7
2 4 8 11
3 4 12 15
4 6 16 21
5 6 22 27
6 10 28 37
7 12 38 49
8 14 50 63
9 16 64 79
10 20 80 99
11 26 100 125

Bảng B.9 – Hệ số làm giảm bớt sự rối loạn lớp III

(i) ci
0 -0,6
1 -0,535
2 -0,33
3 -0,185
4 -0,095
5 -0,041
6 -0,0142
7 -030037

Hệ số csi và cai được tính bằng công thức sau:

 

Phụ lục C

(Tham khảo)

Quá trình mã hoá

C.1  Mã hoá

C.1.1  Tổng quan

Đối với mỗi lớp, một ví dụ của bộ mã hoá phù hợp với lưu đồ tương ứng được cho trong phụ lục này. Trong các điều mục tiếp theo, mô tả bộ lọc phân vùng băng tần con và các kỹ thuật mã hoá cụ thể cho từng lớp.Trong phụ lục D là hai ví dụ về mô hình tâm thính học, mô tả chung cho tất cả các lớp.

C.1.1.1  Giới thiệu

Thuật toán trong ISO 11172-3 (Mpeg-Audio) là thuật toán tâm thính học. Hình C.1 thể hiện rõ các phần cơ bản của thuật toán tâm thính học.

Hình C.1: ISO 11173-3 (Mpeg-audio) Sơ đồ khối mã hoá

Bốn phần cơ bản của mã hoá tâm thính học gồm:

C.1.1.1.1  Giàn bộ lọc

Các giàn bộ lọc tạo ra một khoảng thời gian để sắp xếp tần số. Có hai bộ lọc được sử dụng trong thuật toán ISO / IEC 11172-3 (MPEG-Audio), một giàn bộ lọc đa pha và một bộ ghép lai đa pha/ MDCT. Mỗi bộ lọc đưa ra một ánh xạ cụ thể về thời gian và tần số. Các giàn bộ lọc được lấy mẫu một cách chuẩn xác (tức là có nhiều mẫu trong miền được phân tích như có trong miền thời gian sử dụng). Các bộ lọc này phân tách tần số chính cho bộ mã hóa, và các bộ lọc tái thiết cho bộ giải mã. Các mẫu đầu ra của giàn bộ lọc được lượng tử hoá.

C.1.1.1.2  Mô hình tâm thính học

Mô hình tâm thính học tính toán một mức độ tiếng ồn cho mỗi băng trong bộ lọc. Mức độ tiếng ồn này được sử dụng trong phân bổ bít hoặc tiếng ồn để xác định lượng tử thực và các mức lượng tử. Có hai mô hình tâm thính học được trình bày trong phụ lục D. Chúng có thể được áp dụng cho bất kỳ lớp nào của thuật toán ISO / IEC 11172-3 (MPEG-Audio), trong thực tế mô hình 1 đã được sử dụng cho lớp I và II và mô hình 2 cho lớp III. Kết hợp cả hai mô hình, kết quả cuối cùng của mô hình là một tỷ lệ tín hiệu- mặt nạ (SMR) cho mỗi băng (lớp I và II) hoặc nhóm các băng (Lớp III).

C.1.1.1.3  Phân bổ bít hoặc tiếng ồn

Bộ phân bổ xem xét cả hai mẫu đầu ra từ giàn bộ lọc và SMR từ mô hình tâm thính học và điều chỉnh phân bổ bít (lớp I và II) hoặc phân bổ tiếng ồn (lớp III) theo thứ tự để đáp ứng cả yêu cầu tốc độ bít và các yêu cầu về mặt nạ. Ở tốc độ bít thấp, các phương pháp này cố gắng sử dụng các bít theo cách không gây khó chịu về mặt tâm lý khi chúng không thể đáp ứng nhu cầu về âm thanh ở tốc độ bít được yêu cầu

C.1.1.1.4  Bộ định dạng dòng bit

Bộ định dạng dòng bít lấy các đầu ra của giàn bộ lọc đã lượng tử, cùng với việc phân bổ bít (Lớp I và II) hoặc phân bổ tiếng ồn (lớp III) và các thông tin phụ cần thiết khác, mã hoá và định dạng thông tin một cách hiệu quả. Trong trường hợp của lớp III, các mã Huffman cũng được chèn vào tại điểm này

C.1.1.2  Giàn bộ lọc

Trong các lớp I và II, một giàn bộ lọc với 32 băng tần con được sử dụng. Trong mỗi băng tần con, 12 hoặc 36 mẫu được nhóm lại để xử lý. Trong lớp III, giàn bộ lọc có độ phân giải phụ thuộc vào tín hiệu, ở đó có các dải tần số 6×32 hoặc 18×32. Trong trường hợp có 6×32 tần số lấy mẫu, ba thiết lập của mỗi tần số đều được lượng tử riêng.

C.1.1.3  Phương pháp phân bổ bít hoặc tiếng ồn

Có hai phương pháp kiểm soát tốc độ bít khác nhau được giải thích trong phụ lục này. Trong các lớp I và II, phương pháp này là một quá trình phân bổ bít, nghĩa là một số bít được gán cho mỗi mẫu (hoặc nhóm các mẫu) trong mỗi băng tần con. Phương pháp cho lớp III là một vòng lặp phân bổ tiếng ồn, trong đó các lượng tử được thay đổi theo một cách cố tổ chức, và biến được kiểm soát thực sự là tiếng ồn được đưa vào. Trong cả hai trường hợp, kết quả là một tập các tham số lượng tử hóa và các mẫu đầu ra lượng tử được cung cấp cho bộ định dạng dòng bít.

C.1.1.4  Định dạng dòng bit

Bộ định dạng dòng bít thay đổi từ lớp này sang lớp khác. Trong các lớp I và II, một mã PCM cố định được sử dụng cho mỗi mẫu băng tần con, trừ trường hợp trong các mẫu định lượng II có thể được nhóm lại. Trong lớp III, mã Huffman được sử dụng để trình diễn cho các mẫu tần số lượng tử. Các mã Huffman này đã lấy mã số có thể hoạt động cho phép biểu diễn dòng bít hiệu quả hơn của các mẫu lượng tử hóa hiệu quả hơn nữa.

C.1.2  Bộ lọc thông cao đầu vào

Các thuật toán mã hóa cung cấp một đáp ứng tần số xuống thành d.c. Tuy nhiên, trong các ứng dụng mà không được yêu cầu, người ta khuyến nghị rằng phải có một bộ lọc thông cao ở đầu vào của bộ mã hóa. Tần số cắt phải nằm trong phạm vi từ 2 đến 10 Hz.

Việc áp dụng một bộ lọc thông cao như thế tránh được yêu cầu tốc độ bít cao không cần thiết cho các băng tần thấp nhất và làm tăng chất lượng âm thanh.

C.1.3  Bộ lọc phân tích băng tần

Một bộ lọc phân tích băng tần con được sử dụng đề phân chia các tín hiệu băng thông rộng với tần số lấy mẫu fs thành 32 băng tần con cách đều nhau với tần số lấy mẫu fs/32. Lưu đồ của quá trình này với các công thức thích hợp được đưa ra trong hình C.4 “Biểu đồ bộ lọc phân tích băng tần con”. Phân tích băng tần bao gồm các bước sau:

– 32 mẫu âm thanh đầu vào.

– Xây dựng một vector đầu vào mẫu X của 512 phần tử. 32 mẫu âm thanh được chuyển từ các vị trí 0 đến 31, vị trí gần đây nhất ở vị trí 0, và 32 phần tử cũ nhất được chuyển ra.

– Cửa sổ vector X bằng cửa sổ vector C. Các hệ số có thể được tìm thấy trong bảng C.1.

– Tính 64 giá trị Yj theo công thức được đưa ra trong biểu đồ lưu lượng.

– Tính 32 mẫu băng tần con Sj bằng ma trận. Các hệ số của ma trận có thể được tính theo công thức sau:

Mjk = cos[(2i + 1)(k – 16)π / 64]), với i = 0 đến 31, và k = 0 đến 63.

Bảng C.1 – Hệ số Cj của cửa sổ phân tích

C[ 0] = 0,000000000 C[ 1] =-0,000000477 C[ 2] =-0,000000477 C[ 3] =-0,000000477
C[ 4] = -0,000000477 C[ 5] =-0,000000477 C[ 6] =-0,000000477 C[ 7] = -0,00000954
C[ 8] =-0,000000954 C[ 9] =-0,000000954 C[ 10] =-0,000000954 C[ 11] = -0,000001431
C[12] = -0,000001431 C[13] = -0,000001907 C[14] = -0,000001907 C[15] = -0,000002384
C[16] = -0,000002384 C[17] =-0,000002861 C[18] = -0,000003338 C[19] =-0,000003338
C[20] = -0,000003815 C[21] = -0,000004292 C[22] = -0,0000004768 C[23] = -0,000005245
C[24] = -0,000006199 C[25] = -0,000006676 C[26] = -0,000007629 C[27] =-0,000008106
C[28] = -0,000009060 C[29] = -0,000010014 C[30] = -0,000011444 C[31] =-0,000012398
C[32] =-0,000013828 C[33] = -0,000014782 C[34] = -0,000016689 C[35] =-0,000018120
C[36] = -0,000019550 C[37] = -0,000021458 C[38] = -0,000023365 C[39] = -0,000025272
C[40] = -0,000027657 C[41] = -0,000030041 C[42] = -0,000032425 C[43] = -0,000034809
C[44] = -0,000037670 C[44] = -0,000040531 C[46] = -0,000043392 C[47] = -0,000046253
C[18] =-0,000049591 C[19] = -0,000052929 C[50] = -0,000055790 C[51] =-0,000059605
C[52] = -0,000062943 C[53] = -0,000066280 C[54] = -0,000070095 C[55] = -0,000073433
C[56] = -0,000076771 C[57] = -0,000080585 C[58] = -0,000083923 C[59] =-0,000087261
C[60] = -0,000090599 C[61] =-0,000093460 C[62] = -0,000096321 C[63] =-0,000099182
C[64] = 0,000101566 C[65] = 0,000103951 C[66] = 0,000105858 C[67] = 0,000107288
C[68] = 0,000108242 C[69] = 0,000108719 C[70] = 0,000108719 C[71] = 0,000108242
C[72] = 0,000106812 C[73] = 0,000105381 C[74] = 0,000102520 C[75] = 0,000099182
C[76] = 0,000095367 C[77] = 0,000090122 C[78] = 0,000084400 C[79] = 0,000077724
C[80] = 0,000095367 C[81] = 0,000060558 C[82] = 0,000050545 C[83] = 0,000039577
C[84] = 0,000069618 C[85] = 0,000013828 C[86] = -0,000000954 C[87] =-0,000017166
C[88] = -0,000027180 C[89] = -0,000052929 C[90] = -0,000072956 C[91] =-0,000093937
C[92] = -0,000034332 C[93] = -0,000140190 C[94] = -0,000165462 C[95] =-0,000191212
C[96] = -0,000116348 C[97] = -0,000247478 C[98] = -0,000277042 C[99] = -0,000307560
C[100] = -0,000218868 C[101] = -0,000371456 C[102] = -0,000404358 C[103] = -0,000438213
C[104] =-0,000339031 C[105] =-0,000507355 C[106] =-0,000542164 C[107] = -0,000576973
C[108] = -0,000472546 C[109] = -0,000646591 C[110] = -0,000680923 C[111] = -0,000714302
C[112] = -0,0006 1782 C[113] =-0,0007791525 C[114] = -0,000809669 C[115] = -0,000838757
C[116] = -0,000747204 C[117] = -0,000891685 C[118] = -0,000915051 C[119] = -0,000935555
C[120] = -0,000866413 C[121 ] = -0,000968933 0[122] = -0,000980854 C[123] = -0,000989437
C[124] = -0,000954151 C[125] = -0,000995159 C[126] = -0,000991851 C[127] =-0,000983715
C[128] = -0,000994205 C[129] = 0,000953674 C[130] = 0,000930786 C[131] = 0,000902653
C[132] = -0,000971317 C[133] = 0,000829220 C[134] = 0,000783920 C[135] = 0,000731945
C[136] = -0,000868797 C[137] = 0,000610352 C[138] = 0,000539303 C[139] = 0,000462532
C[140] = -0,000674248 C[141] = 0,000288486 C[142] = 0,000191689 C[143] =0,000088215
C[144] = -0,000378609 0[145] = -0,000137329 C[146] = -0,000259876 C[147] =-0,000388145
C[148] = -0,000021458 C[149] =-0,000661850 C[150] = -0,000806809 C[151] = -0,000956535
C[152] =-0,000522137 C[153] =-0,001269817 C[154] = -0,001432419 C[155] = -0,001597881
C[156] = -0,001111031 C[157] = -0,001937389 C[158] = -0,002110004 C[159] = -0,002273096
C[160] =-0,001766682 C[161] =-0,002630711 C[162] =-0,002803326 C[163] = -0,002974033
C[164] = -0,002457142 C[165] = -0,003306866 C[166] = -0,003467083 C[167] = -0,003622532
C[168] = -0,003141880 C[169] = -0,003914356 C[170] = -0,004048824 C[171] =-0,004174709
C[172] = -0,003771782 C[173] =-0,004395962 C[174] =-0,004489899 C[175] = -0,004570484
C[176] = -0,004290581 C[177] =-0,004691324 C[178] = -0,004728317 C[179] = -0,004748821
C[180] =-0,004638195 C[181] =-0,004737377 C[182] =-0,004703045 C[183] = -0,004649162
C[184] =-0,004752159 C[185] =-0,004477024 C[186] =-0,004357815 C[187] = -0,004215240
C[188] =-0,004573822 C[189] =-0,003858566 C[190] =-0,003643036 C[191] =-0,003401756
C[192] = 0,004049301 C[193] =0,0028451473 C[194] = 0,002521515 C[195] = 0,002174854
C[196] = 0,003134727 C[197] = 0,001399517 C[198] = 0,000971317 C[199] = 0,000515938
C[200] = 0,001800537 C[201] =-0,000475883 C[202] =-0,001011848 C[203] =-0,001573563
C[204] =-0,002161503 C[205] = -0,002774239 C[206] =-0,003411293 C[207] = -0,004072189
C[208] = -0,004756451 C[209] = -0,00546170 C[210] =-0,006189346 C[211] = -0,006937027
C[212] = -0,007703304 C[213] =-0,008487225 C[214] =-0,009287834 C[215] = -0,010103703
C[216] = -0,010933399 C[217] = -0,011775017 C[218] =-0,012627602 C[219] = -0,013489246
C[220] =-0,014358521 C[221] =-0,015233517 C[222] =-0,016112804 C[223] =-0,016994476
C[224] = -0,017876148 C[225] =-0,0187556866 C[226] =-0,019634247 C[227] = -0,020506859
C[228] =-0,021372318 C[229] =-0,022228718 C[230] = -0,023074150 C[231] = -0,023907185
C[232] = -0,024725437 C[233] = -0,025527000 C[234] =-0,0263109214 C[235] = -0,027073860
C[236] = -0,027815342 C[237] = -0,028532982 C[238] = -0,029224873 C[239] = -0,029890060
C[240] = -0,030526638 C[241] = -0,031132698 C[242] = -0,031706810 C[243] = -0,032248020
C[244] = -0,032754898 C[245] = -0,033225536 C[246] = -0,033659935 C[247] =-0,034055710
C[248] =-0,034412861 C[249] = -0,034730434 C[250] = -0,035007000 C[251] =-0,035242081
C[252] = -0,035435200 C[253] = -0,035586357 C[254] =-0,035691122 C[255] = -0,035758972
C[256] = 0,035780907 C[257] = 0,035758972 C[258] = 0,035694122 C[259] = 0,035586357
C[260] = 0,035435200 C[261] = 0,035242081 C[262] = 0,035007000 C[263] = 0,034730434
C[264] = 0,034412861 C[265] = 0,035055710 C[266] = 0,033659935 C[267] = 0,033225536
C[268] = 0,032754898 C[269] = 0,032248020 C[270] = 0,031706810 C[271] = 0,031132698
C[272] = 0,035026638 C[273J = 0,029890060 C[274] = 0,029224873 C[275] = 0,028532982
C[276] = 0,027815342 C[277] = 0,027073860 C[278] = 0,026310921 C[279] = 0,025527000
C[280] = 0,024825437 C[281] = 0,023907185 C[282] = 0,023074150 C[283] = 0,022228718
C[284] = 0,021372318 C[285] = 0,020506859 C[286] = 0,019634247 C[287] = 0,018756866
C[288] = 0,017876148 C[289] = 0,016994476 C[290] = 0,016112804 C[291] = 0,015233517
C[292] = 0,014358521 C[293] = 0,013489246 C[294] = 0,012627602 C[295] = 0,011775017
C[296] = 0,010933399 C[297] = 0,010103703 CỊ298] = 0,009287834 C[299] = 0,008487225
C[300] = 0,007703304 C[301] = 0,006937027 C[302] = 0,006189346 C[303] = 0,005462170
C[304] = 0,004756451 C[305] = 0,004072189 C[306] = 0,003411293 C[307] = 0,002774239
C[308] = 0,002161503 C[309] = 0,001573563 C[310] = 0,001011848 C[311] = 0,000475883
C[312] = 0,000033379 C[313] =-0,000515933 C[314] = -0,000971317 C[315] =-0,001399517
C[316] = 0,001800537 C[317] =-0,002174854 C[318] = -0,002521515 C[319] =-0,002841473
C[320] = 0,003134727 C[321] = 0,003401756 C[322] = 0,003643036 C[323] = 0,003858566
C[324] = 0,004049301 C[325] = 0,004215240 C[326] = 0,004357815 C[327] = 0,004477024
C[328] = 0,004573822 C[329] = 0,004649162 C[330] = 0,004703045 C[331] = 0,004737377
C[332] = 0,004752159 C[333] = 0,004748821 C[334] = 0,004728317 C[335] = 0,004691124
C[336] = 0,004638195 C[337] = 0,004570484 C[338] = 0,004489899 C[339] = 0,004395962
C[340] = 0,004290581 C[341] = 0,004174709 C[342] = 0,004048824 C[343] = 0,003914356
C[344] = 0,003771782 C[345] = 0,003622532 C[346] = 0,003467083 C[347] = 0,000330688
C[348] = 0,003141880 C[349] = 0,002974033 C[350] = 0,002803326 C[351] = 0,002630711
C[352] = 0,002457142 C[353] = 0,002283096 C[354] = 0,00210004 C[355] = 0,001937389
C[356] = 0,001766682 C[357] = 0,001597881 C[358] = 0,001432419 C[359] = 0,001269817
C[360] = 0,001111031 C[361] = 0,000956535 C[362] = 0,000806808 C[363] = 0,000661850
C[364] = 0,000522137 C[365] = 0,000388145 C[366] = 0,000259876 C[367] = 0,000137329
C[368] = 0,000041458 C[369] =-0,000088215 C[370] = 0,000191689 C[371] =-0,000288486
C[372] =- 0,000378609 C[373] = -0,000462532 C[374] = 0,000539303 C[375] =-0,000610352
C[376] = -0,000674248 C[377] =-0,000731945 C[378] = 0,000783920 C[379] = -0,000829220
C[380] = 0,000868797 C[381] = -0,000902653 C[382] = 0,000930786 C[383] = -0,000953674
C[384] = 0,000971317 C[385] = 0,000983715 C[386] = 0,000992821 C[387] = 0,000995159
C[388] = 0,000994205 C[389] = 0,000989437 C[390] = 0,000980854 C[391] = 0,000968933
C[392] = 0,000954141 C[393] = 0,000935555 C[394] = 0,000915051 C[395] = 0,000891685
C[396] = 0,000866413 C[397] = 0,000838757 C[398] = 0,000809669 C[399] = 0,000779152
C[400] = 0,000747204 C[401] = 0,000714302 C[402] = 0,000680923 C[403] = 0,000646591
C[404] = 0,000611782 C[405] = 0,000576973 C[406] = 0,000542164 C[407] = 0,000507355
C[408] = 0,000472546 C[409] = 0,000438213 C[410] = 0,000404358 C[411] = 0,000371456
C[412] = 0,000339031 C[413] = 0,000307560 C[414] = 0,000277042 C[415] = 0,000247478
C[416] = 0,000218868 C[417] = 0,000191212 C[418] = 0,000165462 C[419] = 0,000140190
C[420] = 0,000116348 C[421] = 0,000093937 C[422] = 0,000072956 C[423] = 0,000052929
C[424] = 0,000034332 C[425] = 0,000017166 C[426] = 0,000000954 C[427] = -0,000043828
C[428] = -0,000027180 C[429] = -0,000039577 C[430] = 0,000050545 C[431] = -0,000060558
C[432] = -0,000069618 C[433]=-0,0000077724 C[434] = 0,000084400 C[435]= -0,000090122
C[436] = -0,000095367 C[437] =-0,000099182 C[438] = 0,000102520 C[439] =-0,000105381
C[440]=-0,000106812 C[441] =-0,000108242 C[442] = 0,000108719 C[443] = -0,000108719
C[444] =-0,000108242 C[445] = 0,000107288 C[446] = 0,000105858 CỊ447] = 0,000103951
C[448] = 0,000101566 C[449] = 0,000099182 C[450] = 0,000096321 C[447] = 0,000093460
C[452] = 0,000090599 C[453] = 0,000087261 C[454] = 0,000083923 C[451] = 0,000080585
C[456] = 0,000076771 C[457] = 0,000073433 C[458] = 0,000070095 C[455] = 0,000066280
C[460] = 0,000062943 C[461] = 0,000059605 C[462] = 0,000055790 C[459] = 0,000052929
C[464] = 0,000049591 C[465] = 0,000046253 C[466] = 0,000043392 C[463] = 0,000040531
C[468] = 0,000037670 C[469] = 0,000034809 C[470] = 0,000032425 C[467] = 0,000030041
C[472] = 0,000027657 C[473] = 0,000025272 C[474] = 0,000023365 C[471]] = 0,000021458
C[476] = 0,000019550 C[477] = 0,000018120 C[478] = 0,000016689 C[475] = 0,000014782
C[480] = 0,000013828 C[481] = 0,000012398 C[482]] = 0,000011444 C[481] = 0,000010014
C[484] = 0,000009060 C[485] = 0,00008106 C[486] = 0,000007629 C[485] = 0,000006676
C[488] = 0,000006199 C[489] = 0,000005245 C[490] = 0,000004768 C[489] = 0,000004292
C[492] = 0,000003815 C[493] = 0,00000338 C[494] = 0,000003338 C[493] = 0,000002861
C[496] = 0,000002384 C[497] = 0,000002384 C[498] = 0,00001907 C[497] = 0,000001907
C[500] = 0,000001431 C[501] = 0,000001431 C[502] = 0,000000954 C[501] = 0,000000954
C[504] = 0,000000954 C[505] = 0,000000954 C[506] = 0,000000477 C[505] = 0,000000477
C[508] = 0,000000477 C[509] = 0,000000477 C[510] = 0,000000477 C[509] = 0,000000477

C.1.4  Các chế độ tâm thính học

Hai ví dụ về các mô hình tâm thính học được trình bày trong phụ lục D, “Các mô hình tâm thính học”.

C.1.5  Mã hóa

C.1.5.1  mã hóa lớp I

C.1.5.1.1  Giới thiệu

Mục này miêu tả một phương pháp mã hoá lớp I. Mô tả này được thực hiện bằng việc tham chiếu đến hình C.5. “Sơ đồ mã hoá lớp I, II”.

C.1.5.1.2  Mô hình tâm thính học

Việc tính toán các thông số tâm thính học có thể được thực hiện bằng mô hình tâm thính học 1 được mô tả trong phần D.1 hoặc với mô hình tâm thính học số 2 như mô tả trong D.2. Bước chuyển đổi FFT bằng 384 mẫu. Hoặc là mô hình cung cấp tỷ lệ tín hiệu mặt nạ cho mỗi băng tần con.

C.1.5.1.3  Phân tích băng tần con

Phân tích băng tần con được mô tả trong mục C.1.3 “Phân tích băng tần con”,

C.1.5.1.4  Tính toán hệ số tỷ lệ

Việc tính toán hệ số tỷ lệ cho mỗi băng tần con được thực hiện cho mỗi 12 mẫu băng tần con một lần. Xác định giá trị tuyệt đối lớn nhất của 12 mẫu này. Giá trị nhỏ nhất trong bảng B.1 “Hệ số tỷ lệ lớp I, II” lớn hơn giá trị tuyệt đối lớn nhất này được gọi là hệ số tỷ lệ.

C.1.5.1.5  Mã hóa hệ số tỷ lệ

Chỉ số trong bảng hệ số tỷ lệ của lớp B.1 “Hệ số tỷ lệ lớp I, II” được biểu diễn bằng 6 bít MSB đầu tiên. Hệ số tỷ lệ chỉ được truyền đi nếu một số không bằng số bít đã được phân bổ cho các băng tần con.

C.1.5.1.6  Phân bổ Bit

Trước khi điều chỉnh tốc độ bít cố định, cần xác định số bít có sẵn để mã hóa các mẫu và các hệ số lệ tỷ lệ, có thể thu được số này bằng cách trừ đi từ tổng số của các bít sẵn có “cb” số bít cần thiết cho mào đầu “bhdr” (32 bit), từ kiểm tra CRC “bcrc” nếu được sử dụng (16 bit), phân bổ bít “bbal” và số bít cần thiết cho dữ liệu phụ ‘banc’:

adb = cb – (bhdr + bcrc + bbal + banc)

Số kết quả của các bít có thể được sử dụng để mã hoá các mẫu băng tần con và các thang đo tỷ lệ. Nguyên tắc được sử dụng trong thủ tục phân bổ là giảm thiểu tổng tỷ lệ mặt nạ tiếng ồn so với khung với sự hạn chế rằng số bít được sử dụng không vượt quá số bít có sẵn cho khung đó. số bít có thể được phân bổ cho một mẫu có thể được tìm thấy trong bảng 7.5 của phần chính của tiêu chuẩn âm thanh (Dữ liệu âm thanh Lớp I); phạm vi 0 … 15 bit, không bao gồm một phân bổ của 1 bit.

Thủ tục phân bổ là một thủ tục lặp đi lặp lại, trong đó trong mỗi bước lặp lại số lượng các mẫu dải con vùng có lợi ích lớn nhất tăng lên.

Đầu tiên, tỷ số mặt nạ trên nhiễu “MNR” trên mỗi băng tần con được tính bằng cách lấy tỷ số tín hiệu trên nhiễu (SNR) trừ đi tỷ số của tín hiệu trên mặt nạ “SMR”:

MNR = SNR – SMT

Tỷ số tín hiệu trên nhiễu có thể được đưa ra trong bảng C.2, “Tỷ số tín hiệu trên nhiễu lớp I”. Tỷ số tín hiệu trên mặt nạ là đầu ra của mô hình tâm thính học .

Sau đó, các bít bằng không được phân bổ cho các mẫu và các hệ số tỷ lệ. Số bít cho các mẫu “bspl” và số bít cho các hệ số “bscf được đặt là 0. Tiếp đến bắt đầu một thủ tục lặp. Mỗi vòng lặp bao gồm các bước sau:

– Xác định MNR tối thiểu của tất cả các băng tần con.

– Tăng mức độ chính xác của việc lượng tử của băng tần con với MNR tối thiểu bằng cách sử dụng số bít cao hơn tiếp theo.

– Tính toán MNR mới của băng tần con này.

– Cập nhật bspl theo số bít bổ sung được yêu cầu. Nếu một số bít không phải số 0 được gán cho một băng tần con đầu tiên thì bscf phải được tăng lên 6 bít. Sau đó, tính lại adb bằng cách sử dụng công thức:

adb = cb – (bhdr + bcrc + bbal + bscf + bspl + banc)

Thủ tục lặp được lặp lại miễn là adb không nhỏ hơn bất kỳ mức tăng nào có thể có của bspl và bscf trong một vòng lặp

C.1.5.1.7  Lượng tử hoá và mã hóa các mẫu băng tần con

Sử dụng một bộ lượng tử tuyến tính với sự biểu diễn số 0 đối xứng để lượng tử hóa các mẫu băng tần con. Sự biểu diễn này ngăn không cho giá trị nhỏ thay đổi quanh giá trị 0 từ việc lượng tử hóa đến các mức khác nhau. Mỗi mẫu băng tần con được chuẩn hóa bằng cách chia giá trị của nó cho hệ số tỷ lệ để thu được X và được lượng tử hóa theo công thức sau:

– Tính toán AX + B

– Lấy N bít quan trọng nhất.

– Đảo ngược MSB.

A và B có thể được đưa ra trong bảng C.3, “Các hệ số lượng tử hóa lớp I”. N đại diện cho số bít cần thiết để mã hóa số bước. Thực hiện đảo ngược bít quan trọng nhất (MSB) để tránh biểu diễn tất cả mã “1”, vì tất cả mã “1” được sử dụng cho các từ đồng bộ hóa.

C.1.5.1.8  Mã hóa phân bổ bit

Mã 4 bít dùng cho việc phân bổ được trình bày trong mục 2.4.2.5. “Dữ liệu âm thanh lớp I”, phần chính của tiêu chuẩn âm thanh.

C.1.5.1.9  Dữ liệu phụ

Tiêu chuẩn âm thanh cung cấp một số bít dùng cho việc truyền dữ liệu bổ sung có độ dài thay đổi với dòng bít âm thanh. Dữ liệu phụ sẽ làm giảm số lượng bít có sẵn dùng cho âm thanh, do đó có thể làm giảm chất lượng âm thanh.

Sự có mặt của một mẫu bít trong dữ liệu bổ sung phù hợp với từ đồng bộ có thể cản trở việc đồng bộ hóa. Sự cố này có nhiều khả năng xảy ra khi sử dụng định dạng tự do.

C.1.5.1.10  Định dạng

Thông tin băng tần con mã hoá được được truyền trong các khung (xem 2.4.1.2, 2.4.1.3 và 2.4.1.8). số khe trong một khung thay đổi theo tần số mẫu (Fs) và tốc độ bít. Mỗi khung chứa thông tin về 384 mẫu của tín hiệu đầu vào ban đầu, vì vậy tốc độ khung hình là Fs/ 84.

Fs(kHz) Kích thước khung
48 8
44,1 87074…
32 12

Một khung có thể chứa thông tin âm thanh từ một hoặc hai kênh.

Chiều dài của một khe trong lớp I là 32 bít. số lượng khe trong một khung có thể được tính theo công thức:

Nếu công thức này không cho ra một số nguyên, kết quả sẽ bị cắt bớt và bắt buộc phải “đệm”. Điều này có nghĩa là số lượng khe có thể thay đổi giữa N và N + 1

Tổng quan về định dạng Lớp I được trình bày trong hình C.2:

Hình C.2 – Định dạng lớp I

Bảng C.2  Tỷ số tín hiệu trên nhiễu (SNR)

S bước SNR (dB)
0 0,00
3 7,00
7 16,00
15 25,28
31 31,59
63 37,75
127 43,84
255 49,89
511 55,93
1 023 61,96
2 047 67,98
4 095 71,01
8 191 80,03
16 383 86,05
32 767 92,01

Bảng C.3 Hệ số lượng t lớp I

Số bước A B
3 0,750000000 -0,250000000
7 0,875000000 -0,125000000
15 0,937500000 -0,062500000
31 0,968750000 -0,312500000
63 0,984375000 -0,156250000
127 0,992187500 -0,007812500
255 0,996093750 -0,003906250
511 0,998046875 -0,001953125
1 023 0,999023438 -0,000976563
2 047 0,999511719 -0,000488281
4 095 0,999755859 -0,000244141
8 191 0,999877930 -0,000122070
16 383 0,999938965 -0,000061035
32 767 0,999969482 -0,000030518

C.1.5.2  Mã hoá lớp II

C.1.5.2.1  Giới thiệu

Mục này mô tả một phương pháp mã hóa lớp II. Việc mô tả được thực hiện theo hình C.5, “Sơ đồ mã hoá lớp I, II”.

C.1.5.2.2  Mô hình tâm thính học

Việc tính toán các thông số tâm thính học có thể được thực hiện bằng mô hình tâm thính học 1- được mô tả trong điều D.1 hoặc mô hình tâm thính học 2 – được mô tả trong điều D.2. Nếu sử dụng mô hình tâm thính học 1 để tính toán các thông số tâm thính học thì bước nhảy FFT là 1152 mẫu. Nếu sử dụng mô hình tâm thính học 2 thì việc tính toán được thực hiện hai lần với bước nhảy 576 mẫu và dùng giá trị lớn nhất của mỗi cặp tỷ số tín hiệu trên mặt nạ. Mỗi mô hình đều cung cấp tỷ số tín hiệu trên mặt nạ cho mỗi băng tần con.

C.1.5.2.3  Phân tích giàn bộ lọc tần con

Phân tích giàn bộ lọc tần con được mô tả trong điều C.1.3, “Phân tích băng tần con”.

C.1.5.2.4  Tính toán hệ số tỷ lệ

Việc tính toán hệ số tỷ lệ cho mỗi băng tần con được thực hiện cho mỗi 12 mẫu băng tần con một lần. Xác định giá trị tuyệt đối lớn nhất của 12 mẫu này. Giá trị nhỏ nhất trong bảng B.1 “Hệ số tỷ lệ lớp I, II” lớn hơn giá trị tuyệt đối lớn nhất này được gọi là hệ số tỷ lệ.

C.1.5.2.5  Mã hóa hệ số tỷ lệ

Một khung tương ứng với 36 mẫu băng tần con, do đó mỗi băng tần con chứa ba hệ số tỷ lệ. Xác định ‘scf’ như chỉ số trong bảng B.1, “Hệ số tỷ lệ lớp I, II”, Hiệu dscf1 và dscf2 của các chỉ số hệ số tỷ lệ scf1, scf2 và scf3 được tính như sau:

dscf1 = scf1 -scf2

dscf2 =scf2 -scf3

Lớp của từng hiệu số được xác định như sau:

Lớp dscf
1 dscf <=-3
2 -3< dscf <0
3 dfcf = 0
4 0< dscf <3
5 dscf >=3

Cặp các lớp khác biệt chỉ ra điểm nhập trong bảng C.4, “Các mẫu truyền dẫn hệ số tỷ lệ lớp II”. Các cột được gắn nhãn “hệ số tỷ lệ được sử dụng trong bộ mã hóa” cho ba hệ số tỷ lệ mà được sử dụng thực tế “1”, “2” và “3” có nghĩa là các hệ số tỷ lệ đầu tiên, thứ hai và thứ ba trong một khung. “4” có nghĩa là tối đa tất cả các hệ số tỷ lệ cần thiết được truyền cho một băng tần con trong một khung. Chỉ có những hệ số tỷ lệ cho biết vị trí tương ứng của các hệ số tỷ lệ trong từng băng tần con được gọi là “thông tin lựa chọn hệ số tỷ lệ”.

C.1.5.2.6  Mã hóa thông tin lựa chọn của thang đo tỷ lệ

Thông tin về “lựa chọn tỷ lệ lỗi” (scfsi) được mã hoá bằng một từ hai bít, cũng có thể tìm thấy trong bảng C.4, “Mẫu truyền tải tỷ lệ của lớp II”. Chỉ có scfsi cho các băng tần con mà sẽ nhận được một phân bít không khác bít được truyền đi.

C.1.5.2.7  Phân bổ Bit

Trước khi điều chỉnh tốc độ bít cố định, số bít, “adb”, có sẵn để mã hóa các mẫu và các hệ số tỷ lệ tỷ lệ phải được xác định, số này có thể thu được bằng cách trừ đi từ tổng số các bít có sẵn “cb”, số bít cần thiết cho tiêu đề “bhdr” (32 bit), CRC chcckword “bcrc” nếu được sử dụng (16 bit), phân bổ bít “bbal” và số bít “banc” yêu cầu đối với dữ liệu phụ trợ:

adb = cb – (bhdr + bcrc + bbal + banc)

Số kết quả có thể được sử dụng để mã các mẫu băng tần con và các trình cân bằng. Nguyên tắc được sử dụng trong thủ tục phân bổ cấp phép là giảm thiểu tổng tỷ lệ mặt nạ tiếng ồn trên khung với ràng buộc rằng số bít được sử dụng các tài liệu không vượt quá số bít có sẵn cho khung đó. Sử dụng được thực hiện trong bảng B.2, “Lượng tử hoá có thể có cho mỗi băng tần con lớp II” cho biết mỗi bước con có thể được sử dụng để định lượng các mẫu. bảng B.4, “Lớp lượng tử của lớp II”.

Thủ tục phân bổ là một thủ tục lặp đi lặp lại, trong mỗi bước lặp, số lượng các cấp của băng tần con có lợi ích lớn nhất được tăng lên.

Đầu tiên tỷ lệ mặt nạ tiếng ồn “MNR” cho mỗi băng tần con được tính bằng cách trừ đi từ tỷ số tín hiệu trên nhiễu “SNR” cho tỷ lệ tín hiệu mặt nạ” SMR”:

MNR – SNR-SMT

Tỷ lệ tín hiệu đến tiếng ồn có thể được tìm thấy trong bảng C.5 “Tỷ lệ tín hiệu trên nhiễu lớp II”. Tỷ số tín hiệu-mặt nạ là kết quả của mô hình tâm thính học.

Sau đó, các bít không được phân bổ cho các mẫu và các biến tỷ lệ. Số bít cho các mẫu “bspl” và số bít cho thang đo bscf được thiết lập bằng không. Bước tiếp theo là một thủ tục lặp được khởi động. Mỗi vòng lặp bao gồm các bước sau:

– Xác định MNR tối thiểu của tất cả các băng tần con.

– Độ chính xác của việc lượng tử của băng tần con với MNR tối thiểu được tăng lên bằng cách sử dụng mục tiếp theo cao hơn trong bảng B.2 có liên quan “Định lượng Có thể Định mức II cho mỗi băng tần con”.

– MNR mới của băng tần con này được tính.

– bspl được cập nhật theo số bít bổ sung được yêu cầu. Nếu một số bít khác không được gán cho một băng tần con cho lần đầu tiên, bsel phải được cập nhật và bscf phải được cập nhật theo số lượng hệ số tỷ lệ cần thiết cho băng tần con này. Sau đó, adb được tính lại bằng cách sử dụng công thức:

adb = cb – (bhdr + bcrc + bbal + bsel + bscf + bspl + banc)

Thủ tục lặp lặp lại được lặp lại miễn là adb không nhỏ hơn bất kỳ sự gia tăng bspl, bsel và bscf nào trong vòng một vòng lặp.

C.1.5.2.8  Lượng tử và mã hóa các mẫu băng tần con

Mỗi 12 mẫu băng tần con được chuẩn hóa bằng cách chia giá trị của nó bằng phương thức hệ số tỷ lệ để lấy X và được định lượng bằng cách sử dụng công thức sau đây:

– Tính A * X + B

– đặt các bít quan trọng nhất N.

– Đảo ngược MSB

A và B có thể được tìm thấy trong bảng C.6, “Các hệ số lượng tử lớp II” .N trình diễn cho số bít cần thiết để mã hoá số bước. Việc đảo ngược của MSB được thực hiện để tránh tất cả các mã ‘1’ được sử dụng cho từ đồng bộ.

Với số bước mà các mẫu sẽ được lượng tử hóa, bảng B.4, “Lớp lượng tử của lớp II” cho biết liệu nhóm có được sử dụng hay không. Nếu nhóm không được yêu cầu, ba mẫu mã được mã hoá bằng các từ mã riêng.

Nếu nhóm được yêu cầu, ba mẫu liên tiếp được mã hoá dưới dạng một từ mã. Chỉ có một giá trị Vm, MSB đầu tiên, được truyền cho bộ ba này. Các mối quan hệ giữa giá trị mã hoá vm (m = 3,5,9) và ba dải băng tần con liên tiếp x, y, z là:

v3=9z + 3y + x (v3 trong phạm vi 0…26)

v5 = 25z + 5y + x (v5 trong phạm vi 0…124)

v9= 8lz + 9y + x (v9 trong phạm vi 0…728)

C.1.5.2.9  Mã hoá phân bổ bit

Với mục đích mã hoá hiệu quả hơn, chỉ cho phép một số lượng giới hạn các phép đo lượng tử có thể khác nhau cho mỗi nhóm con. Chỉ có chì mục với chiều dài từ “nhal” trong bảng B.2 có liên quan, “lượng tử có thể có cho mỗi băng tần con lớp II” được truyền đi và MSB đầu tiên.

C.1.5.2.10  Dữ liệu phụ

Tiêu chuẩn âm thanh cung cấp một số bít để đưa và truyền dữ liệu phụ với chiều dài biến thiên với dòng bít âm thanh. Các dữ liệu phụ trợ sẽ làm giảm số bít sẵn có cho âm thanh, có thể dẫn đến sự suy giảm chất lượng âm thanh.

Sự hiện diện của một mẫu bít trong dữ liệu bổ sung so sánh với từ mã đồng bộ có thể cản trở việc đồng bộ hóa. Vấn đề này có nhiều khả năng xảy ra khi định dạng tự do được sử dụng.

C.1.5.2.11  Định dạng

Tổng quan về định dạng lớp II có thể xem trong hình C.3.

Hình C.3 – Định dạng lớp II

Sự khác biệt so với định dạng lớp I là:

– Chiều dài của một khe bằng 8 bit.

– Một khối scfsi mới chứa thông tin lựa chọn tỷ lệ đã được giới thiệu.

– Các thông tin phân bổ bít, hệ số tỷ lệ và mẫu đã được mã hóa thêm (xem các liên quan).

Bảng C.4 – Kiểu truyền tải hệ số tỷ lệ lớp II

Lớp1 Lớp2 Hệ số tỷ lệ sử dụng để mã hoá Kiểu truyền tải Lựa chọn thông tin
1 1 1 2 3 1 2 3 0
1 2 1 2 2   1 2 3
1 3 1 2 2   1 2 3
1 4 1 3 3   1 3 3
1 5 1 2 3 1 2 3 0
2 1 1 1 3   1 3 1
2 2 1 1 1     1 2
2 3 1 1 1     1 2
2 4 4 4 4     4 2
2 5 1 1 3   1 3 1
3 1 1 1 1     1 2
3 2 1 1 1     1 2
3 3 1 1 1     1 2
3 4 3 3 3     3 2
3 5 1 1 3   1 3 1
4 1 2 2 2     2 2
4 2 2 2 2     2 2
4 3 2 2 2     2 2
4 4 3 3 3     3 2
4 5 1 2 3 1 2 3 0
5 1 1 2 3 1 2 3 0
5 2 1 2 2   1 2 3
5 3 1 2 2   1 2 3
5 4 1 3 3   1 3 3
5 5 1 2 3 1 2 3 0

Bảng C.5 – Tỷ số tín hiệu trên nhiễu lớp II

Số bước SNR
0 0,00
3 7,00
5 11,00
7 16,00
9 20,84
15 25,28
31 31,59
63 37,75
127 43,84
255 49,89
511 55,93
1 023 61,96
2 047 67,98
4 095 74,01
8 191 80,03
16 383 86,05
32 767 92,01
65 535 98,01

Bảng C.6 – Hệ số lượng tử lớp II

Số bước A B
3 0,750000000 -0,250000000
5 0,625000000 -0,375000000
7 0,875000000 -0,125000000
9 0,562500000 -0,437500000
15 0,937500000 -0,062500000
31 0,968750000 -0,031250000
63 0,984375000 -0,015625000
127 0,992187500 -0,007812500
255 0,996093750 -0,003906250
511 0,998046875 -0,001953125
1 023 0,999023438 -0,000976563
2 047 0,999511719 -0,000488281
4 095 0,999755859 -0,000244141
8 191 0,999877930 -0,000122070
16 383 0,999938956 -0,000061035
32 767 0,999969482 -0,000030518
65 535 0,999984741 -0,000015259

 

Hình C.4 – Sơ đồ phân tích giàn bộ lọc tần

 

Hình C.5 – Sơ đồ khối mã hoá lớp I, II

  1. 1.5.3 Mã hoá lớp III

C.1.5.3.1  Giới thiệu

Mục này mô tả một phương pháp có thể mã hóa lớp III, chuỗi dữ liệu cơ bản được mô tả trong sơ đồ khôi mã hoá tâm lý nói chung. Các khối cơ bản được mô tả chi tiết hơn dưới đây.

C.1.5.3.2  Mô hình tâm thính học

Việc tính toán các thông số tâm thính học có thể được thực hiện bằng mô hình tâm thính học 1 được mô tả trong mục D.1 hoặc với mô hình tâm thính học 2 mô tả trong mục D.2. Mô tả sửa đổi mô hình tâm thính học 2 đề sử dụng với lớp III có thể được tìm thấy dưới đây. Mô hình được chạy hai lần mỗi khối, sử dụng chiều dài thay đổi 576 mẫu. Tỷ lệ tín hiệu-mặt nạ được cung cấp cho mỗi dải hệ số tỷ lệ.

C.1.5.3.2.1  Thích ứng mô hình tâm thính học II cho lớp III

Mô hình tâm thính học 2 (mục D.2) được sửa đổi như mô tả dưới đây để sử dụng với mã hóa lớp III.

Xem xét chung:

Mô hình được tính hai lần song song. Một tính toán được thực hiện với một dịch chuyển chiều dài ihlen của 192 mẫu (được sử dụng với khối ngắn), cách khác được thực hiện với chiều dài thay đổi của 576 mẫu. Đối với chiều dài thay đổi của 192 mẫu, chiều dài khối của FFT được thay đổi thành 256, và các tham số thay đổi cho phù hợp.

Thay đổi tính toán tính không dự đoán được:

Tính toán số liệu khống thể dự đoán trong mô hình tâm thính học 2 được thay đổi.

– Tính toán không thể dự đoán được:

Các cw không dự đoán được tính cho 206 dòng trải phổ đầu tiên. Đối với các dòng trải phổ khác, tính toán không thể dự đoán được đặt là 0,4.

Tính không thể dự đoán cho 6 dòng đầu tiên được tính từ FFT dài (độ dài cửa sổ – 1024, shiftlen = 576). Đối với các dòng trải phổ từ 6 đến 205, tính không thể dự đoán được tính từ FFT ngắn (chiều dài cửa sổ 256, shiftlen = 192):

cw_l là không thể dự đoán tính từ FFT dài, cw_s là không thể dự đoán được tính từ khối ngắn thứ hai trong số ba khối ngắn trong vòng một lõi.

– Chức năng lan truyền đã được thay thế:

Nếu: j ≥ i tmpy= 3,0 (j-i)
Mặt khác: tmpy =1,5 (ji)

được sử dụng.

Chỉ các giá trị của hàm trải rộng lớn hơn 10-6 được sử dụng. Tất cả các giá trị khác được đặt thành 0.

– Để chuyển đổi các tính không thể dự đoán

conv1 = – 0,299

conv2 = – 0,43

được sử dụng.

– Thông số NMT (âm thanh mặt nạ tiếng ồn) được đặt ở mức 6,0 dB cho tất cả các điểm phân chia ngưỡng. Thông số TMN (mặt nạ âm thanh tiếng ồn) được đặt ở 29.0 dB cho tất cả các phân vùng.

Đối với minval hãy xem bảng “tính toán ngưỡng phân vùng” (bảng C.7).

– Mô hình tâm thính học được ước tính từ tỷ số thr/cb, trong đó thr là ngưỡng và cb là năng lượng:

ở đó k lập chỉ mục các phân vùng tính toán ngưỡng và chiều rộng cb là chiều rộng của phân vùng tính toán ngưỡng (xem bảng).

– Kiểm soát tiếng vọng trước

Các hằng số sau đây được sử dụng để kiểm soát tiếng vọng trước (xem sơ đồ khối):

rpelev = 2

rpelev2 =16

– Ngưỡng không được trải phổ qua các dòng FFT. Các phân vùng tính ngưỡng được chuyển đổi trực tiếp thành các băng tần hệ số tỷ lệ. Phân vùng đầu tiên được thêm vào băng tần hệ số tỷ lệ được tính trọng số là wl, phần cuối với w2 (xem bảng C.8 ‘Phân tích chuyển đổi các ngưỡng tới các băng tần hệ số tỷ lệ’). Bảng này cũng chứa số phân vùng (cbw) được chuyển đổi thành một băng tần hệ số tỷ lệ (không bao gồm phân vùng đầu tiên và phân vùng cuối cùng).

– Các thông số bobu được thể hiện trong bảng C.8. Chúng được sử dụng để chuyển đổi các phân vùng tính ngưỡng thành các băng tần hệ số tỷ lệ.

– Đối với các khối ngắn, sẽ sử dụng một phiên bản đơn giản của việc tính ngưỡng (tín hiệu hằng số tới tỷ số tiếng ồn). Các hằng số có thể được tìm thấy trong cac cột có nhãn “SNR (dB)” trong bảng C.7 (def) bên dưới.

Bảng C.7. Phân vùng tính ngưỡng với các thông số sau: chiều rộng, minval, ngưỡng im lặng, bình thường và bval

Bảng C.7.a Sampling_frequency = khối dài 48 kHz

no. FFT-lines minval qthr norm bval
0 1 24,5 4,532 0,970 0,000
1 1 24,5 4,532 0,755 0,469
2 1 24,5 4,532 0,738 0,937
3 1 24,5 0,904 0,730 1,406
4 1 24,5 0,904 0,724 1,875
5 1 20 0,090 0,723 2,344
6 1 20 0,090 0,723 2,812
7 1 20 0,029 0,723 3,281
8 1 20 0,029 0,718 3,750
9 1 20 0,009 0,690 4,199
10 1 20 0,009 0,660 4,625
11 1 18 0,009 0,641 5,047
12 1 18 0,009 0,600 5,437
13 1 18 0,009 0,584 5,828
14 1 12 0,009 0,531 6,187
15 1 12 0,009 0,537 6,522
16 2 6 0,018 0,857 7,174
17 2 6 0,018 0,858 7,800
18 2 3 0,018 0,853 8,402
19 2 3 0,018 0,824 8,966
20 2 3 0,018 0,778 9,483
21 2 3 0,018 0,740 9,966
22 2 0 0,018 0,709 10,426
23 2 0 0,018 0,676 10,866
24 2 0 0,018 0,632 11,279
25 2 0 0,018 0,592 11,669
26 2 0 0,018 0,553 12,042
27 2 0 0,018 0,510 12,386
28 2 0 0,018 0,513 12,721
29 3 0 0,027 0,608 13,115
30 3 0 0,027 0,673 13,561
31 3 0 0,027 0,636 13,983
32 3 0 0,027 0,586 14,371
33 3 0 0,027 0,571 14,741
34 4 0 0,036 0,616 15,140
35 4 0 0,036 0,640 15,562
36 4 0 0,036 0,597 15,962
37 4 0 0,036 0,538 16,324
38 4 0 0,036 0,512 16,665
39 5 0 0,045 0,528 17,020
40 5 0 0,045 0,516 17,373
41 5 0 0,045 0,493 17,708
42 6 0 0,054 0,499 18,045
43 7 0 0,063 0,525 18,398
44 7 0 0,063 0,541 18,762
45 8 0 0,072 0,528 19,120
46 8 0 0,072 0,510 19,466
47 8 0 0,072 0,506 19,807
48 10 0 0,180 0,525 20,159
49 10 0 0,180 0,536 20,522
50 10 0 0,180 0,518 20,873
51 13 0 0,372 0,501 21,214
52 13 0 0,372 0,496 21,553
53 14 0 0,400 0,497 21,892
54 18 0 1,628 0,495 22,231
55 18 0 1,628 0,494 22,569
56 20 0 1,808 0,497 22,909
57 25 0 22,607 0,494 23,248
58 25 0 22,607 0,487 23,583
59 35 0 31,650 0,483 23,915
60 67 0 605,867 0,482 24,246
61 67 0 605,867 0,524 24,576

Bảng C.7.b Sampling_frequency = khối dài 44,1 kHz

no. FFT-lines minval qthr norm bval
0 1 24,5 4,532 0,951 0,000
1 1 24,5 4,532 0,700 0,431
2 1 24.5 4,532 0,681 0,861
3 1 24,5 0,904 0,675 1,292
4 1 24,5 0,904 0,667 1,723
5 1 20 0,090 0,665 2,153
6 1 20 0,090 0,664 2,584
7 1 20 0,029 0,664 3,015
8 1 20 0,029 0,664 3,445
9 1 20 0,029 0,655 3,876
10 1 20 0,009 0,616 4,279
11 1 20 0,009 0,597 4,670
12 1 18 0,009 0,578 5,057
13 1 18 0,009 0,541 5,415
14 1 18 0,009 0,575 5,774
15 2 12 0,018 0,856 6,422
16 2 6 0,018 0,846 7,026
17 2 6 0,018 0,840 7,609
18 2 3 0,018 0,822 8,168
19 2 3 0,018 0,800 8,710
20 2 3 0,018 0,753 9,207
21 2 3 0,018 0,704 9,662
22 2 0 0,018 0,674 10,099
23 2 0 0,018 0,640 10,515
24 2 0 0,018 0,609 10,917
25 2 0 0,018 0,566 11,293
26 2 0 0,018 0,535 11,652
27 2 0 0,018 0,531 11,997
28 3 0 0,027 0,615 12,394
29 3 0 0,027 0,686 12,850
30 3 0 0,027 0,650 13,277
31 3 0 0,027 0,611 13,681
32 3 0 0,027 0,567 14,062
33 3 0 0,027 0,520 14,411
34 3 0 0,027 0,513 14,751
35 4 0 0,036 0,557 15,119
36 4 0 0,036 0,584 15,508
37 4 0 0,036 0,570 15,883
38 5 0 0,045 0,579 16,263
39 5 0 0,045 0,585 16,654
40 5 0 0,045 0,548 17,020
41 6 0 0,054 0,536 17,374
42 6 0 0,054 0,550 17,744
43 7 0 0,063 0.532 18,104
44 7 0 0,063 0,504 18,447
45 7 0 0,063 0,496 18,781
46 9 0 0,081 0,516 19.130
47 9 0 0,081 0,527 19,487
48 9 0 0,081 0,516 19,838
49 10 0 0,180 0,497 20,179
50 10 0 0,180 0,489 20,510
51 11 0 0,198 0,502 20,852
52 14 0 0,400 0,502 21,196
53 14 0 0,400 0,491 21,531
54 15 0 0,429 0,497 21,870
55 20 0 1,808 0,504 22,214
56 20 0 1,808 0,504 22,558
57 21 0 1,899 0,495 22,898
58 27 0 24,415 0.486 23,232
59 27 0 24,415 0,484 23,564
60 36 0 32,554 0,483 23,897
61 73 0 660,124 0,475 24,229
62 18 0 162,770 0,515 24,542

Bảng C.7.c – Sampling_frequency = khối dài 32 kHz

0 2 24.5 9,064 0,997 0,312
1 2 24,5 9,064 0,193 0,937
2 2 24.5 1,101 0,111 1,562
3 7 20 0,111 0,173 2,117
4 2 20 0,111 0,172 2,112
5 2 20 0,057 0,171 3,437
6 2 20 0,018 0,160 4,045
7 2 20 0,018 0,139 4,625
8 2 18 0,018 0,112 5,173
9 2 18 0,018 0,714 5,691
10 2 12 0,018 0,741 6,184
11 2 12 0,018 0,697 6,634
12 2 6 0,018 0,674 7,070
13 2 6 0,018 0,651 7,492
14 2 6 0,018 0,633 7,905
15 2 3 0,018 0,611 8,305
16 2 3 0,018 0,589 1,695
17 2 3 0,018 0,575 9,064
18 3 3 0,027 0,654 9,483
19 3 3 0,027 0,724 9,966
20 3 0 0,027 0,701 10,425
21 3 0 0,027 0,673 10,866
22 3 0 0,027 0,631 11,279
23 3 0 0,027 0,592 11,669
24 3 0 0,027 0,553 12,042
25 3 0 0,027 0,510 12,386
26 3 0 0,027 0.505 12,721
27 4 0 0,036 0,562 13,091
28 4 0 0,036 0,598 13,488
29 4 0 0,036 0,519 13,873
30 5 0 0,045 0,607 14,268
31 5 0 0,045 0,620 14,679
32 5 0 0,045 0,580 15,067
33 5 0 0,045 0,532 15,424
34 5 0 0,045 0,517 15,771
35 6 0 0,054 0,517 16,120
36 6 0 0,054 0,509 16,466
37 6 0 0,054 0,506 16,807
38 8 0 0,072 0,522 17,158
39 8 0 0,072 0,531 17,511
40 8 0 0,072 0,519 17,869
41 10 0 0,090 0,512 18,215
42 110 0 0,090 0,509 18,562
43 10 0 0,090 0,497 18,902
44 12 0 0,108 0,494 19,239
43 112 0 0,108 0,501 19,579
46 13 0 0,117 0,507 19,925
47 14 0 0,252 0,502 20,269
48 14 0 0,252 0,493 20,606
49 16 0 0,219 0,497 20,944
50 20 0 0,572 0,506 21,288
51 20 0 0,572 0,510 21,635
52 23 0 0,658 0,504 21,979
53 27 0 2,441 0,496 22,319
54 27 0 2,441 0,493 22,656
55 32 0 2,194 0,490 21,993
56 37 0 33,458 0,483 23,326
57 37 0 33,458 0,458 23,656
58 12 0 10,851 0,500 23,937

Bảng C.7.a – Sampling_frequency = khối ngắn 48 kHz

no. FFT-lines qthr norm SNR (db) bval
0 1 4,532 0,970 -8,240 0,000
1 1 0,904 0,755 -8,240 1,875
2 1 0,029 0,738 -8,240 3,750
3 1 0,009 0,730 -8,240 5,437
4 1 0,009 0,724 -8,240 6,857
5 1 0,009 0,723 -8,240 8,109
6 1 0,009 0,723 -8,240 9,237
7 1 0,009 0,723 -8,240 10,202
8 1 0,009 0,718 -8,240 11,083
9 1 0,009 0,690 -8,240 11,864
10 1 0,009 0,660 -7,447 12,553
11 1 0,009 0,641 -7,447 13,195
12 1 0,009 0,600 -7,447 13,781
13 1 0,009 0,584 -7,447 14,309
14 1 0,009 0,532 -7,447 14,803
15 1 0,009 0,537 -7,447 15,250
16 1 0,009 0,857 -7,447 15,667
17 1 0,009 0,858 -7,447 16,068
18 1 0,009 0.853 -7,447 16,409
19 2 0,018 0,824 -7,447 17,044
20 2 0,018 0,778 -6,990 17,607
21 2 0,018 0,740 -6,990 18,097
22 2 0,018 0,709 -6,990 18,528
23 2 0,018 0,676 -6,990 18,930
24 2 0,018 0,632 -6,990 19,295
25 2 0,018 0,592 -6,990 19,636
26 3 0,054 0,553 -6,990 20.038
27 3 0,054 0,510 -6,990 20,486
28 3 0,054 0,513 -6,990 20,900
29 4 0,114 0,608 -6,990 21,305
30 4 0,114 0,673 -6,020 21,722
31 5 0,452 0,637 -6,020 22,128
32 5 0,452 0,586 -6,020 22,512
33 5 0,452 0,571 -6,020 22,877
34 7 6,330 0,616 -5,229 23,241
35 7 6,330 0,640 -5,229 23,616
36 11 9,947 0,597 -5,229 23,974
37 17 153,727 0,538 -5,229 24,312

 

Bảng C.8 – Các bảng chuyển đổi phân vùng tính ngưỡng thành các băng tần hệ số tỷ lệ

no. sb cbw bu bo w 1 w2
0 3 0 4 1.000 0.056
1 3 4 7 0.944 0.611
2 4 7 11 0.389 0.167
3 3 11 14 0.833 0,722
4 3 14 17 0.278 0.639
5 2 17 19 0.361 0.417
6 3 19 22 0.583 0.083
7 2 22 24 0,917 0,750
8 3 24 27 0,250 0,417
9 3 27 30 0,583 0,648
10 3 30 33 0,352 0,611
11 3 33 36 0,389 0,625
12 4 36 40 0,375 0,144
13 3 40 43 0,856 0,389
14 3 43 46 0,611 0,160
15 3 46 49 0,840 0,217
16 3 49 52 0,783 0,184
17 2 52 54 0,816 0,886
18 3 54 57 0,114 0,313
19 2 57 59 0,687 0,452
20 1 59 60 0,548 0,908

Bảng C.8.b – Sampling_frequency = Khối dài 44,1 kHz

no. sb cbw bu bo w 1 w2
0 3 0 4 1,000 0,056
1 3 4 7 0,944 0,611
2 4 7 II 0,389 0,167
3 3 11 14 0,833 0,722
4 3 14 17 0,278 0,139
5 1 17 18 0,861 0,917
6 3 18 21 0,083 0,583
7 3 21 24 0,417 0,250
8 3 24 27 0,750 0,805
9 3 27 30 0,194 0,574
10 3 30 33 0,426 0,537
11 3 33 36 0,463 0,819
12 4 36 40 0,180 0,100
13 3 40 43 0,900 0,468
14 3 43 46 0,532 0,623
15 3 46 49 0,376 0,450
16 3 49 52 0,550 0,552
17 3 52 55 0,448 0,403
18 2 55 57 0,597 0,643
19 2 57 59 0,357 0,722
20 2 59 61 0,278 0,960

Bảng C.8.c – Sampling_frequency = Khối dài 32 kHz

no. sb cb w bu bo w 1 w2
0 1 0 2 1.000 0.528
1 2 2 4 0.472 0.305
2 2 4 6 0.694 0.083
3 1 6 7 0.917 0.861
4 2 7 9 0.139 0.639
5 2 9 11 0.361 0.417
6 3 11 14 0.583 0.083
7 2 14 16 0.917 0.750
8 3 16 19 0.250 0.870
9 3 19 22 0.130 0.833
10 4 22 26 0.167 0.389
11 4 26 30 0.611 0.478
12 4 30 34 0.522 0.033
13 3 34 37 0.967 0.917
14 4 37 41 0.083 0.617
15 3 41 44 0.383 0.995
16 4 44 48 0.005 0.274
17 3 48 51 0.726 0.480
18 3 51 54 0.519 0.261
19 2 54 56 0.739 0.884
20 2 56 58 0.116 1.000

Bảng C.8.d – Sampling_frequency = Khối ngắn 48 kHz

no. sb cbw bu bo w 1 w2
0 2 0 3 1,000 0,167
1 2 3 5 0,833 0,833
2 3 5 8 0,167 0,500
3 3 8 11 0,500 0,167
4 4 11 15 0,833 0,167
5 4 15 19 0,833 0,583
6 3 19 22 0,417 0,917
7 4 22 26 0,083 0,944
8 4 26 30 0,055 0,042
9 2 30 32 0,958 0,567
10 3 32 35 0,433 0,167
11 2 35 37 0,833 0,618

Bảng C.8.e – Sampling_frequency = khối ngắn 44,1 kHz

no. sb 1 cbw bu bo w 1 w 2
0 2 0 3 1.000 0.167
1 2 3 5 0.833 0.833
2 3 5 8 0.167 0.500
3 3 8 11 0.500 0,167
4 4 11 15 0,833 0,167
5 5 15 20 0,833 0.250
6 3 20 23 0.750 0.583
7 4 23 27 0,417 0.055
8 3 27 30 0,944 0,375
9 3 30 33 0.625 0,300
10 3 33 36 0,700 0,167
11 2 36 38 0.833 1.000

Bảng C.8.f – Sampling_frequency = khối ngắn 32 kHz

no. sb cbw bu bo w 1 w 2
0 2 0 3 1.000 0,167
1 2 3 5 0,833 0,833
2 3 5 8 0,167 0,500
3 3 8 11 0,500 0,167
4 4 11 15 0,833 0.167
5 5 15 20 0.833 0.250
6 4 20 24 0,750 0,250
7 5 24 29 0.750 0.055
8 4 29 33 0.944 0.375
9 4 33 37 0.625 0.472
10 3 37 40 0.528 0.937
11 1 40 41 0.062 1.000

 

Hình C.6.a – Sơ đồ khối mô hình tâm thính học 2, lớp III: Tính toán ngưỡng

 

Hình C.6.b – Sơ đồ khối hình tâm thính học 2, lớp III: Tính toán ngưỡng (Phần 1)

 

Hình C.6.c – Sơ đồ khối mô hình tâm thính học 2, lớp III: Tính toán ngưỡng (Phần 2)

 

Hình C.6.d – Sơ đồ khối mô hình tâm thính học 2, lớp III: Tính toán ngưỡng cho khối ngắn

Mô tả cửa sổ chuyển đổi:

Mô tả xem giàn bộ lọc có nên chuyển sang cửa sổ ngắn được tính từ việc tính toán ngưỡng che phủ bằng cách tính ước lượng mô hình tâm thính học (PE) và chuyển đổi khi PE. vượt quá giá trị 1800. Nếu điều kiện này được đáp ứng, chuỗi bắt đầu (block_type = 1), ngắn (block_type = 2), ngắn, dừng (block_type = 3) được bắt đầu. Hình C.7 cho thấy các thay đổi trạng thái có thể cho logic chuyển đổi cửa sổ.

Hình C.7 – Sơ đồ giai đoạn cửa sổ chuyển đổi

C.1.5.3.3  Phân tích một phần của giàn bộ lọc lai

Phân tích băng tần con của giàn bộ lọc đa phần được mô tả trong mục C.1.3, “Bộ lọc phân tích băng tần con”. Đầu ra của giàn bộ lọc đa pha là đầu vào cho phân khu sử dụng MDCT. Theo kết quả của mô hình tâm thính học (biến blocksplit_flag block_type ) cửa sổ và các loại biến đổi bình thường, bắt đầu, ngắn hoặc dừng lại được sử dụng. 18 giá trị đầu ra liên tục của một lõi và 18 giá trị đầu ra của lõi trước khi được lắp ráp thành một khối của 36 mẫu.

Kiểu chặn “bình thường”

Kiểu khối “bắt đầu”

Kiểu khối “dừng”

Kiểu khối “ngắn”

Các khỗi của 36 mẫu được chia ba khối chồng lên nhau:

Mỗi khối trong ba khối nhỏ đều có cửa sổ riêng:

MDCT:

Trong n sau đây là số lượng các mẫu cửa sổ. Đối với các khối ngắn n là 12, đối với các khối dài n là 36. Biểu thức phân tích của MDCT là:

Xáo trộn chéo, Bộ mã hoá:

Tính toán giảm bớt sự ảo giác trong bộ mã hóa được thực hiện như trong bộ giải mã. Thủ tục chung được thể hiện trong hình A.5. Định nghĩa xáo trộn chéo được sử dụng trong bộ mã hóa được thể hiện trong hình C.8. Các hệ số cajcs; có thể được tìm thấy trong bảng B.9

Hình C.8 – Định nghĩa bộ mã hóa xáo trộn chéo

C.1.5.3.4  Tính toán trung bình các bít sẵn có

Số bít trung bình của mỗi lõi được tính từ kích cỡ khung. Tốc độ bít 64 kbits/s được sử dụng làm ví dụ. Ở tốc độ bít 64 kbits / s với 48 000 mẫu / giây,

(64000* (1 152/48000) bít mỗi khung) / (2 lõi trên mỗi khung) = 768 bít cho mỗi lõi.

Khi tiêu đề đưa ra 32 bít và thông tin phụ đưa ra 17 byte (136 bit) trong chế độ đơn kênh, số bít trung bình của các bít có săn cho main_data cho một lõi được cho bởi

mean_bits = 768 bít cho mỗi lõi – (32 + 136 bít cho mỗi khung/giây) mỗi lõi = 684 bít cho mỗi lõi.

Nguồn bit:

Các kho dự trữ bít có thể cung cấp thêm bít có thể được sử dụng cho lõi. Số bít được cung cấp được xác định trong vòng lặp.

C.1.5.3.5  Lượng tử và mã hóa các mẫu miền tần số

Dữ liệu miền tần số được lượng tử và mã hoá trong vòng lặp lặp lồng nhau. Mục C.1.5.4 có mô tả chi tiết về các vòng lặp này.

C.1.5.3.6  Dữ liệu phụ trợ

Tiêu chuẩn âm thanh cung cấp một số bít để đưa và truyền dữ liệu phụ trợ với độ dài biến thiên với dòng bít âm thanh. Các dữ liệu phụ trợ sẽ làm giảm số bít sẵn có cho âm thanh, có thể dẫn đến sự suy giảm chất lượng âm thanh.

Sự hiện diện của một mẫu bít trong dữ liệu bổ sung so với từ mã đồng bộ có thể cản trở việc đồng bộ hóa. Vấn đề này có nhiều khả năng xảy ra khi sử dụng định dạng tự do.

C.1.5.3.7  Định dạng

Các chi tiết về định dạng bít lớp III có thể tìm thấy trong mục 2.4.4. Việc định dạng các từ mã Huffman được mô tả dưới đây:

Các từ mã Huffman được sắp xếp theo thứ tự từ tần số thấp đến cao. Trong vòng lặp, các biến sau được tính toán và được sử dụng để mã hoá các từ mã Huffman:

là (i), i = 0 … 575 các giá trị miền tần số đã được lượng tử
table_select [region] region_adress1 Bảng mã Huffman được sử dụng cho các vùng (vùng = 0.1,2) xác định biên giới giữa vùng 0 và 1
region_adress2 xác định ranh giới giữa khu vực 1 và 2
maxjvalue [region] giá trị trung bình lớn nhất của dữ liệu lượng tử ở các vùng (vùng = 0,1,2)

Dữ liệu được ghi vào dòng bít theo cú pháp mã Huffman được mô tả trong mục 2.4.2.7

Việc lắp ráp thực tế của mã Huffman cho phần big_values được mô tả trong một ngôn ngữ cấp cao giả lập:

for region number from 0 to 2

if table_selcct for this region is 0

nothing to do. all values in region are zero

else

if table_select for this region is > 15

an ESC-tablc is used: look up linbits value connected to the table used

for i = begin of region to end of region, count in pairs

x = is(i), y = is(i+l) if x > 14

linbitsx – x • 15, x = 15

end if

signx = sign(x), x = abs(x)

if y > 14

linbitsy = y – 15, y = 15

end if

signy = signfy), y = abs(y)

look for codeword = hcod(lxJ[y]J) in table iable_select

write hcod((x][y]), beginning with the leftmost bit. number of bits is hlcn(\xl(y\)

if x > 14

write linbitsx to the dòng bit, number of bits is linbits

end if

if x !* 0

write signx to dòng bít

end if

if y > 14

write linbitsy to the dòng bit, number of bits is linbits

end if

if y ! 0

write signy to dòng bit end if

end do

else

no ESC-words are used in this region:

for i = beginning of region to end of region, count in pairs

x = is(i), y = is(i+l) signx = sign(x), x = abs(x)

signy = sign(y), y = abs(y)

look for codeword = hcod((x)[y]) in table table_select

write hcod([x)[yJ), beginning with the leftmost bit. number of bits is hlcn(│x│ly│)

if x != 0

write signx to dòng bít

end if if y. ‘-0

write signy to dòng bit

end if

end do

end if

end if

end for

Một ứng dụng có thể cho private_bit là sử dụng chúng như là bộ đếm khung.

C.1.5.4  Các vòng lặp lớp III

1.5.4.1  Giới thiệu

Mô tả của mô-đun vòng lặp lớp III được chia thành ba mức. Mức cao nhất được gọi là “chương trình khung vòng lặp”. Chương trình khung vòng lặp gọi một chương trình con có tên là “vòng lặp ngoại lặp bên ngoài”, nó gọi một chương trình con “vòng lặp lặp lại bên trong”. Đối với mỗi mức, một lưu đồ tương ứng sẽ được hiển thị.

Mô đun vòng lặp lượng tử một vector đầu vào của dữ liệu phổ trong một quá trình lặp theo một số yêu cầu. Vòng bên trong định lượng vector đầu vào và tăng kích thước bước lượng tử cho đến khi vector đầu ra có thể được mã hoá với số bít sẵn có. Sau khi hoàn thành vòng lặp bên trong một vòng ngoài kiểm tra sự độ méo mó của mỗi dải tần số và. nếu sự độ méo mó đã vượt quá, khuếch đại dải hệ số tỷ lệ và gọi lại vòng lặp bên trong.

Đầu vào vòng lặp mô đun lớp 3:

(1) vector của độ lớn của các giá trị phổ xr (0..575).
(2) xmin (sb), sự độ méo cho phép của các dải tỷ lệ, xmin = ratio (sb) * cn (sb) / bw (sb).
(3) cờ chuyển mạch cửa sổ, kết hợp với mixed_block_flag và block_type, xác định số dải tần số.
(4) mean_bits (bít có sẵn cho Huffman mã hóa và mã hóa của các hệ số tỷ lệ tỷ lệ).
(5) morc_bits, số bít thêm vào số bít trung bình, như yêu cầu bởi giá trị entropy tâm thính kinh đối với hạt:

more_bits = 3.1 • PE – (số bít trung bình)

Đầu ra mô-đun vòng lớp III:

(1) vector của các giá trị lượng tử ix (0..575).
(2) scalefac_1 (sb) hoặc scalcfac_s (sb) tùy thuộc vào window_switching_flag, block_type và mixed_block_flag.
(3) glohal_gain (quantizer step size information) global _gain = qquant + system_constant.

system_constant bao gồm tất cả các hoạt động mở rộng của bộ mã hóa và bù đắp một để đạt được đầu ra chính xác với quá trình giải mã được mô tả trong phần chính.

(4) số bít không sử dụng có sẵn để sử dụng sau này.
(5) preflag (bật / tắt tính năng preopsis).
(6) Huffman mã liên quan đến thông tin phụ

C1.5.4.2  Các bước chuẩn bị

C.1.5.4.2.1  Đặt lại tất cả các biến lặp

Các hệ số tỷ lệ tỷ lệ của phân vùng mã hoá, scalcfac_1 [sb] hoặc scalcfac_s [sb] là tương ứng thiết lập bằng không.

Các truy cập lượng tử cho kích thước bước lượng tử thiết lập lại bằng không.

Preflag được đặt lại về không.

Scalcfac_scale được đặt lại về không.

Giá trị quan trọng của quanlanf được xác định như sau: quantan f = system _const*loge(sfm),

ở đó sfm là đo độ phẳng phổ và quanlanf phụ thuộc vào việc thực hiện tính toán của bộ mã hóa.

Đo độ dốc phổ được đưa ra bởi

Giá trị của system_const được chọn để cho tất cả các tín hiệu lần lặp đầu tiên của vòng trong cho tất cả các tín hiệu đi kèm với một chút tổng số cao hơn mong muốn bitsum. Bằng cách đó đảm bảo rằng cuộc gọi đầu tiên của vòng lặp bên trong kết quả trong giải pháp sử dụng càng nhiều các bít sẵn có càng tốt. Để tiết kiệm thời gian tính toán, cần giảm thiểu số lần lặp lại bằng cách thích ứng giá trị của quantanf với tốc độ bít và số liệu thống kê tín hiệu.

C.1.5.4.2.2  Kiểm soát kho dự trữ bit

Các bít được lưu vào kho dự trữ phải ít hơn mean_bits sử dụng để mã hóa một lõi. Nếu các bít được lưu cho một khung, giá trị của main_data_cnd sẽ tăng lên tương ứng. Xem Hình A.7.a

Số lượng bít được tạo sẵn cho main_data (gọi * max_bits’) được lấy từ ngưỡng ước tính thực tế (PE được tính bằng mô hình tâm thính học), số bít trung bình (mean_bits) và nội dung thực tế của các bít trong kho dự trữ. Số byte trong kho dự trữ được cho bởi data_end chính.

Các quy tắc thực tế để sự kiểm soát kho dự trữ bít được đưa ra dưới đây:

– Nếu một số byte có sẵn cho các vòng lặp bên trong không được sử dụng cho mã hóa Huffman hoặc main_data khác, số lượng byte đó được bổ sung vào kho dự trữ bít.

– Nếu kho dự trữ bít chứa nhiều hơn 0,8 lần lần nội dung tối đa cho phép của vùng chứa bít, tất cả các byte vượt số quá số này được tạo sẵn cho main_data (ngoài các mean_bits)

– Nếu more_bits lớn hơn 100 bít thì số byte tối đa (more_bits / 8,0.6 * tnain_daia_end) được lấy từ nguồnchứa bít và tạo sẵn cho main_daia (ngoài mcan_bits).

– Sau khi việc tính toán vòng thực tế đã kết thúc, số lượng các byte không được sử dụng cho main_data được bổ sung vào kho dự trữ bít.

– Nếu sau khi thực hiện các bước trên mà số byte trong nuồn chứa vượt quá mức tối đa cho phép thì các bít nhồi được ghi vào dòng bít và nội dung nguồn bít được điều chỉnh theo.

C.1.5.4.2.3  Tính toán thông tin lựa chọn hệ số tỷ lệ (scfsi)

Scfsi chứa các thông tin, mà hệ số tỷ lệ (được nhóm trong scfsi_bands) của lõi đầu tiên cũng có thể được sử dụng cho các lõi thứ hai. Do đó các hệ số tỷ lệ không được truyền đi; các bít thu được có thể được sử dụng để mã hóa Huffman.

Để xác định việc sử dụng các scfsi, các thông tin sau của mỗi hạt phải được lưu lại:

  1. a) Loại khối
  2. b) Năng lượng tổng của lõi:

Trong đó n là tổng số các giá trị phổ

  1. c) Năng lượng của mỗi dải hệ số tỷ lệ

Trong đó Ibl (sb) là số hệ số đầu tiên thuộc dải hệ số tỷ lệ băng tần con sb và bw (sb) là số các hệ số trong dải hệ số tỷ lệ băng tần sb.

  1. d) Độ méo cho phép của mỗi dải hệ số tỷ lệ:

xm(sb)=int{log2(xmin(i))}

xmin (sb) được tính bằng mô hình tâm thính học.

Các hệ số tỷ lệ của lõi đầu tiên luôn luôn truyền đi. Khi mã hóa các lõi thứ hai, phải so sánh thông tin của hai lõi. Có bốn tiêu chí để xác định xem scfsi thể được sử dụng không. Nếu một trong bốn tiêu chí không được thoả mãn, scfsi sẽ bị vô hiệu hóa (có nghĩa là nó được đặt là 0 trong tất cả các scfsi_bands). Bốn tiêu chí là: (chỉ số 0 có nghĩa là lõi đâu tiên, chỉ số 1 là lõi thứ hai):

  1. a) Các giá trị phổ đều bằng 0.
  2. b) Không lõi nào chứa khối ngắn

c)

d)

Nếu các scfsi không bị vô hiệu hóa sau những phép thử trên, sẽ có hai tiêu chí cho mỗi scfsi_band. Cả hai đều phải thỏa mãn để kích hoạt scfsi (có nghĩa là thiết lập nó là 1 trong scfsi_band này):

a)

b)

Các hằng số (với chỉ số Krit) đã được lựa chọn, scfsi chỉ kích hoạt trong trường hợp năng lượng/ độ méo tương tự.

Các giá trị được gợi ý là:

en-totkrit = 10  
en-difkrit = 100  
en(scfsi_band)krit = 0 cho mỗi scfsi_band
xm(scfsi_band)krit = 0 cho mỗi scfsi_band

C.1.5.4.3  Vòng lặp ngoài (kiểm soát biến đổi vòng lặp)

Bên ngoài vòng lặp được kiểm soát tiếng ồn lượng tử được được tạo ra bằng cách lượng tử của các dòng miền tần số trong vòng lặp lặp lại bên trong. Các tiếng ồn được thực hiện bằng cách nhân các dòng trong băng tần hệ số tỷ lệ với các hệ số tỷ lệ thực tế trước khi lượng tử hóa. Đoạn mã giả dưới đây minh họa việc nhân đó.

do for each scalcfactor hand:

do from lower index to upper index of scale factor band

xrfi) = xr(i) * v'(2)A ((1 + scalefac_sca)e) * scalefac(sb))

end do

end do

Trong đó các hệ số tỷ lệ hoặc là scalefac_1 hoặc là scalefac_s sẽ phù hợp.

Trong hệ thống thực tế, phép nhân được thực hiện tăng dần chỉ với sự gia tăng của các yếu tố tỷ lệ được áp dụng trong mỗi vòng kiểm soát độ méo. Điều này được mô tả trong C1.5.4.3.5 dưới đây.

Vòng lặp độ méo luôn được bắt đầu với scalefac_scale = 0. Nếu sau một số lần lặp chiều dài tối đa của hệ số tỷ lệ sẽ bị vượt quá (xem bảng scalefac_compress trong mục 2.4.2.7 và C.1.5.4.3.5 bện dưới), sau đó calefac_scale tăng lên đến giá trị 1 do tăng dải hệ số tỷ lệ. Trong trường hợp này hệ số tỷ lệ thực tế và các dòng tần số phải được điều chỉnh phù hợp.

C.1.5.4.3.1  Lưu hệ số tỷ lệ

Các hệ số tỷ lệ của tất cả các hệ số tỷ lệ băng tần, scalefac_1 (sb) hoặc scalcfac_s (sb), cũng kích thước bước lượng tử qquant phải được lưu lại. Nếu việc tính toán các vòng ngoài bị hủy bỏ mà không đạt được một kết quả hợp lý, giá trị này cùng với phổ đã được lượng tử cho ra một giá trị gần đúng có thể được truyền đi.

C.1.5.4.3.2  Gọi vòng lặp trong

Đối với mỗi vòng lặp bẽn ngoài (vòng lặp kiểm soát độ méo), vòng lặp bên trong (vòng lặp kiểm soát tốc độ) sẽ được gọi. Các thông số là giá trị miền tần số (đầu ra giàn bộ lọc lai) có các hệ số tỷ lệ được áp dụng cho các giá trị trong các hệ số tỷ lệ băng tần và số bít đã có sẵn cho vòng lặp kiểm soát tốc độ. Kết quả là số bít thực tế được sử dụng và các dòng tần số được lượng tử hoá ix (i).

C.1.5.4.3.3  Tính toán sự độ méo trong những hệ số tỷ lệ băng tần.

Đối với mỗi băng tần hệ số tỷ lệ, độ méo thực tế được tính theo công thức sau:

Trong đó Ibl (sb) là số hệ số trình diễn tần số thấp nhất trong một hệ số tỷ lệ băng tần và bw(sb) là số các hệ số trong băng tần này.

1.5.4.3.4  Preemphasis

Tùy chọn preemphasis (bật bằng cách đặt preflag là 1) có khả năng hiển thị phần trên của phổ theo các bảng preemphasis, bảng B.6.

Điều kiện để bật tùy chọn preemphasis tùy thuộc vào việc thực hiện. Ví dụ preemphasis có thể được bật lên nếu trong tất cả các 4 hệ số tỷ lệ băng tần phía trên có độ méo thực tế vượt quá ngưỡng sau lần gọi đầu tiên vòng lặp trong.

Nếu lõi thứ hai đã được mã hoá và scfsi được kích hoạt trong ít nhất một scfsi_band, preemphasis trong lõi thứ hai được đặt bằng các thiết lập trong lõi thứ nhất.

C.1.5.4.3.5  Khuếch đại của hệ số t lệ băng tần trong phạm vi các ngưỡng mặt nạ

Tất cả các giá trị phổ của các băng tần hệ số tỷ lệ có một độ méo vượt quá độ méo cho phép khuếch đại bởi một nhân tố ifqstep. Giá trị ifqstep được truyền bởi scalefac_scale.

Nếu lõi thứ hai đã được mã hoá và scfsi đang hoạt động trong ít nhất một scfsi_band. các bước sau phải được làm:

  1. a) ifqstep phải được thiết lập tương tự như lõi thứ nhất
  2. b) Nếu nó là phiên bản đầu tiên, các hệ số tỷ lệ của băng tần hệ số tỷ lệ trong đó scfsi được kích hoạt phải được thực hiện trên từ lõi thứ nhất. Các giá trị phổ tương ứng phải được khuếch đại:

Ở đây scalefac hoặc là scalefac_1 () hoặc là scalefac_s () là thích hợp,

  1. c) Nếu nó không phải là phiên đầu tiên, khuếch đại phải được ngăn chặn cho các băng tần hệ số tỷ lệ trong đó scfsi được kích hoạt.

C.1.5.4.3.6  Điều kiện kết thúc quá trình lặp

Thông thường việc kết thúc xử lý các vòng lặp nếu không có hệ số tỷ lệ băng tần với nhiều hơn độ méo cho phép. Tuy nhiên điều này không phải lúc nào cũng có thể có được. Trong trường hợp này có điều kiện khác để kết thúc vòng lặp bên ngoài. Nếu:

  1. a) Tất cả các hệ số tỷ lệ băng tần sẵn sàng để khuếch đại, hoặc
  2. b) Khuếch đại của ít nhất một băng tần vượt quá giới hạn trên được xác định bởi các định dạng truyền của hệ số tỷ lệ. Giới hạn trên là một dãy 15 hệ số tỷ lệ cho các băng tần hệ số tỷ lệ từ 0 đến 10 và 7 cho hệ số tỷ lệ 11 đến 20. Trong trường hợp block_type == 2 và mixed_block_flag == 0, giới hạn trên là 15 cho hệ số tỷ lệ từ 0 đến 18. Trong trường hợp ck_typc == 2 và mixed_block_flag = = 1, giới hạn trên là 15 cho hệ số tỷ lệ từ 0 đến 17.

Giới hạn trên là 7 cho hệ số tỷ lệ khác.

Dừng xử lý vòng lặp, và bằng cách khôi phục lưu trữ một đầu ra hữu ích sacalefac_1 (sb) hoặc scalcfac_s (sb) là sẵn có. Để thực hiện với thời gian thực, có thể có một điều kiện thứ ba thêm vào để nó chấm dứt các vòng lặp trong trường hợp không có đủ thời gian tính toán.

C.1.5.4.4  Vòng lặp trong (kiểm soát tốc độ vòng lặp)

Bên trong vòng lặp thực hiện các lượng từ thực tế của dữ liệu miền tần số và chuẩn bị định dạng. Việc lựa chọn bảng, phân khu phạm vi big_values và việc lựa chọn kích thước bước lượng tử diễn ra ở đây.

C.1.5.4.4.1  Lượng tử hoá

Các lượng tử của vector hoàn chỉnh các giá trị phổ được thực hiện theo công thức:

C.1.5.4.4.2  Thử các giá trị tối đa đã được lượng t hóa

Các giá trị tối đa đã được lượng tử hóa bị hạn chế. Giới hạn này được thiết lập để ràng buộc kích thước bảng nếu một bảng tra cứu thông tin được sử dụng để giải lượng tử các dòng tần số lượng tử. Giới hạn được đưa ra bởi các giá trị có thể có của các bộ nhận diện độ dài, “linbits”, các giá trị gắn cờ với một mã-ESC. Do đó trước khi bất kỳ đếm bít nào đó được thực hiện các bước định cỡ bộ lượng tử hóa được tăng lên bởi:

qquant = qquant + 1

cho đến tối đa các giá trị lượng tử nằm trong phạm vi của bảng mã Huffman lớn nhất.

C.1.5.4.4.3  Tính toán chiều dài chạy các zeros

Các rzero chạy chiều dài của cặp hệ số phổ lượng tử hóa bằng không trên đầu trên của phổ được tính và được gọi là “rzero”.

C.1.5.4.4.4  Tính toán chiều dài chạy các giá trị ít hoặc bằng một

Chiều dài chạy của quadrupels các hệ số phổ lượng tử hóa một hoặc không, sau khi cặp rzero các zeros, được tính toán và được gọi là count1.

C.1.5.4.4.5  Đếm các bít cần thiết để mã hóa các giá trị nhỏ hơn hoặc bằng một

Một từ mã Huffman được sử dụng để mã hóa một trong những quadrupels count1. Có hai cuốn sách mã Huffman khác nhau đang với các bảng mã chiều dài tương ứng (bảng A và bảng B tại mục B.7) số bít để mã hóa tất cả các quadrupels count1 được cho bởi:

bitsum_count1 = min (bitsum_table0, bitsum_table1)

Ở đây bảng count1_table0 được sử dụng để trỏ đến bảng A

count1_table1 được sử dụng để trỏ đến bảng B

Count1table_0 cũng như count1table_1 phải bao gồm số bít cần thiết để mã hóa các bít có dấu.

Những thông tin trong bảng được sử dụng được truyền đi bởi countltable_select, là “0” cho bảng A hoặc “1” cho bảng B. tương ứng.

C.1.5.4.4.6  Gọi chương trình con chia nhỏ (SUBDIVIDE)

Số lượng các cặp giá trị lượng tử hóa không được tính trong “count1 hoặc “rzero” được gọi là các giá trị lớn (bigvalues). Chia nhỏ băng tần hệ số tỷ lệ tương ứng với giá trị này thành ba nhóm. Nhóm cuối cùng, thường không đầy đủ, được tính như một nhóm hoàn chỉnh. Băng tần hệ số tỷ lệ ở các vùng đầu tiên và thứ hai chứa trong (region0_count + 1) (region 1_count + 1) tương ứng. Số lượng băng tần hệ số tỷ lệ trong khu vực thứ ba có thể được tính bằng các giá trị lớn (bigvalues). Chiến lược phân chia tùy thuộc vào việc thực hiện. Một trong rất đơn giản ví dụ là gán 1/3 của băng tần hệ số tỷ lệ đến nhóm đầu tiên và 1/4 đến khu vực cuối cùng.

Chia nhỏ trong trường hợp phân chia các khối được thực hiện tương tự nhưng chỉ có tiểu vùng. Region1_count được thiết lập là mặc định trong trường hợp này. Mặc định này là 8 trong trường hợp split_point = 0 và 9 trong trường hợp split_point = 1. Cả hai giá trị trỏ đến giá trị tần số tuyệt đối giống nhau.

C.1.5.4.4.7  Tính toán tập hợp mã cho mỗi tiểu vùng

Có 32 bảng mã Huffman khác nhau có sẵn để mã hóa các cặp các giá trị lượng tử hóa. Chúng khác nhau về giá trị tối đa có thể được mã hóa và trong thống kê tín hiệu mà chúng được tối ưu hóa. Chỉ có mã cho các giá trị <16 là ở trong bảng. Đối với giá trị >= 16 có hai bảng được cung cấp, trong đó giá trị lớn nhất 15 là ký tự thoát. Trong trường hợp này giá trị 15 được mã hóa trong một từ bổ sung sử dụng một mã PCM tuyến tính với chiều dài một từ gọi là linbits.

Một cách đơn giản để chọn một bảng là sử dụng tối đa các giá trị lượng tử hóa trong một tiểu vùng, các bảng có kích thước phổ tương tự được tối ưu hóa cho các thống kê tín hiệu khác nhau. Vì vậy bổ sung mã khuếch đại là có thể đạt được ví dụ bằng cách thử tất cả các bảng.

C.1.5.4.4.8  Đếm bít cần thiết để mã hoá các giá trị trong tiểu vùng

Số bít cần thiết để mã hóa các giá trị lượng tử của một tiểu vùng được cho bởi:

np (j): số lượng các cặp trong một tiểu vùng

fe (j): số lượng các giá trị lượng tử đầu tiên trong một tiểu vùng

bitz: bảng với chiều dài mã Huffman

s (…) hàm bước: nếu x> = 0 s (x) = 1
nếu X <0 s (x) = 0

Lưu ý rằng các bảng chiều dài mã Huffman phải bao gồm số bít cần thiết để mã hóa các bít có dấu.

 

Hình C.9.a – Vòng lặp vòng lớp III

Hình C.9.b – Vòng lặp vòng ngoài lớp III

Hình C.9.c – Vòng lặp vòng trong lớp III

 

Phụ lục D

(Tham khảo)

Mô hình tâm thính học

D.1. Mô hình tâm thính học 1

Các mô hình tâm thính học phải được tính toán điều chỉnh theo các lớp tương ứng. Như ví dụ dưới đây là giá trị cho lớp I và lớp II. Mô hình được làm cho thích ứng với lớp III.

Không có sự khác biệt chính trong ứng dụng của mô hình tâm thính học 1 cho lớp I và II.

Lớp I: Một phân bổ bít mới được tính toán cho mỗi khối của 12 băng tần con hoặc 384 mẫu PCM đầu vào.

Lớp II: Một phân bổ bít mới được tính toán cho tổng ba khối của 36 mẫu băng tần con tương ứng với 3*384 (1152) mẫu PCM đầu vào.

Phân bổ bít của 12 băng tần con được tính toán trên tỷ số cơ bản của tín hiệu đến mặt nạ (signal-to- mask) của tất cả băng tần con. Cho nên, cấp độ tín hiệu ngưỡng mặt nạ lớn nhất và nhỏ nhất, nó là cần thiết cho mỗi băng tần con. Sau tính toán của một mô hình tâm thính học là ngưỡng mặt nạ nhỏ nhất nhận được từ FFT của tín hiệu đầu vào PCM.

FFT song song với giàn bộ lọc tần con cho việc thiếu độ chọn lọc phổ thu được ở các tần số thấp bởi giàn bộ lọc tần con. Kỹ thuật này cung cấp cả độ phân giải thời gian đủ cho mã hóa tín hiệu âm thanh và đủ cho một phổ quyết định cho tính toán ngưỡng mặt nạ. Tần số và mức độ độ méo có thể được tính toán.

Tính toán tỷ số của tín hiệu mặt nạ cơ bản được thực hiện theo các bước:

– Bước 1: Tính toán FFT cho thời gian của biến đổi tần số.

– Bước 2: Xác định mức áp suất âm thanh cho mỗi băng tần con.

– Bước 3: Xác định ngưỡng câm (ngưỡng xác thực).

– Bước 4: Tìm kiếm âm thanh (giống hình sin nhiều hơn) và không phải là âm thanh (giống tiếng ồn nhiều hơn) kết hợp thành tín hiệu âm thanh.

– Bước 5: Xác định mặt nạ, thu được duy nhất từ mặt nạ thích hợp.

– Bước 6: Tính toán ngưỡng mặt nạ riêng biệt.

– Bước 7: Xác định ngưỡng mặt nạ chung.

– Bước 8: Xác định ngưỡng mặt nạ tối thiểu trong mỗi băng tần con.

– Bước 9: Tính toán tỷ lệ tín hiệu mặt nạ cho mỗi băng tần con.

Các bước này sẽ được thảo luận thêm. Tần số lấy mẫu là 48 kHz được giả định, Đối với hai tần số lấy mẫu khác, tất cả các tần số được đề cập sẽ được điều chỉnh cho phù hợp.

Bước 1: Phân tích FFT

Ngưỡng mặt nạ được lấy từ ước lượng mật độ dày đặc của phổ được tính bằng 512 điểm FFT cho lớp I, hoặc 1024 điểm FFT cho lớp II. FFT được tính trực tiếp từ tín hiệu đầu vào PCM, được cửa sổ bằng cửa sổ Hann.

Đối với thời gian giữa thời gian phân bổ bít và các mẫu bảng tần tương ứng thì các mẫu PCM thêm vào FFT phải có độ trễ:

  1. a) Độ trễ của bộ lọc phân vùng băng tần là 256 mẫu, tương ứng với 5,3 ms ở tốc độ lấy mẫu 48kHz. Một cửa sổ biến đổi 256 mẫu được yêu cầu để bù cho độ trễ trong bộ lọc phân vùng băng tần.
  2. b) Cửa sổ Hann phải được trùng với các mẫu băng tần con của khung. Đối với lớp I số lượng này được thay đổi bằng một cửa sổ bổ sung thêm 64 mẫu. Đối với lớp II, cần phải có thêm một cửa sổ biến đổi trừ đi 64 mẫu.

Dữ liệu kỹ thuật của FFT:

  Lớp I Lớp II
• Tốc độ truyền tải 512 mẫu 1024 mẫu
Độ lớn cửa sổ nếu fs=48kHz 10,67 ms 21,3 ms
Độ lớn cửa sổ nếu fs=44,1kPlz 11,6 ms 23,2 ms
Độ lớn cửa sổ nếu fs=32kHz 16 ms 32 ms
• Dải tần số Tần số lấy mẫu/ 512 Tần số lấy mẫu /1024
  • Cửa sổ Hann, h(i):
  • Công suất mật độ phổ X(k):

Trong đó s(l) là tín hiệu đầu vào.

Việc chuẩn hoá mức tham chiếu 96 dB SPL (mức ứng suất âm thanh) phải được thực hiện theo các giá trị lớn nhất tương ứng với 96 dB.

Bước 2: Xác định mức ứng suất âm thanh

Mức ứng suất âm thanh Lsb trong băng tần con n được tính bằng công thức sau:

X(k) trong băng tần con n.

Trong đó X(k) là mức ứng suất âm thanh của dải phổ với chỉ số k của FFT với biên độ lớn nhất trong dải tần số tương ứng với băng tần con n. Biểu thức scfmax(n) nằm trong lớp I là hệ số tỷ lệ, và ở lớp II tối đa có ba hệ số tỷ lệ của băng tần con n trong một khung. Thuật ngữ “-10dB” dùng để điều chỉnh sự chênh lệch giữa mức cao nhất và mức RMS. Mức áp suất âm thanh Lsb được tính cho mỗi băng tần con n.

Có thể lựa chọn phương pháp tính Lsb sau để thực hiện mã hoá tốt hơn, nhưng kỹ thuật này không được lựa chọn để thử nghiệm cho âm thanh chất lượng cao.

Lsb được tính bằng, công thức:

Với

Trong đó Xspl(n) là mức ứng suất thay thế tương ứng với băng tần con n.

Bước 3: Xem xét ngưỡng trong thành phần không phải là âm thanh

Ngưỡng trong không phải là âm thanh LTq(k), còn được gọi là ngưỡng tuyệt đối, có trong các bảng “ Tần suất, tỷ lệ quan trọng và ngưỡng tuyệt đối” (bảng D.1a, D.1b, D.1c, cho lớp I; bảng D.1d, D.1e, D.1f cho lớp II). Bảng này phụ thuộc vào tốc độ lấy mẫu của tín hiệu PCM đầu vào. Các giá trị có sẵn cho mỗi mẫu trong miền tần số nơi nghưỡng mặt nạ được tính toán. Một bù đắp tùy thuộc vào tỷ lệ bít tổng thể được sử dụng cho ngưỡng tuyệt đối. Độ lệch này là -12 dB cho tốc độ bít >=96 kbits/s và 0 dB đối với tốc độ bít <96 kbits/s cho mỗi kênh.

Bước 4: Tìm các thành phần âm và không phải là âm thanh

Độ âm của thành phần mặt nạ có ảnh hưởng đến ngưỡng mặt nạ. Vì lý do này nên cần phân biệt giữa các thành phần âm thanh và không phải là âm thanh. Để tính ngưỡng mặt nạ chung cần phải lấy được các thành phần âm và các thành phần không phải là âm thanh từ phổ FFT.

Bước này bắt đầu bằng việc xác định cực điểm cục bộ, sau đó trích các thành phần âm thanh (đường hình sin) và tính cường độ của các thành phần không phải là âm thanh trong băng thông của một băng tần tới hạn. Các ranh giới của các băng tần tới hạn được đưa ra trong bảng “Biên giới quan trọng” (bảng D.2a D.2b, D.2c cho lớp I, bảng D.2d, D.2e, D.2f cho lớp II).

Băng thông tới hạn quan trọng khác nhau với tần số trung tâm với băng thông chỉ vào khoảng 0,1 kHz ở tần số thấp và băng thông chỉ vào khoảng 4 kHz ở tần số cao. Nó được biết đến từ các thí nghiệm tâm thính học rằng tai có độ phân dải tần số tốt hơn ở vùng thấp hơn ở vùng tần số cao hơn. Để xác định xem giá trị tối đa bên trong có thể là một thành phân âm, một dải tần số df xung quanh giá trị bên trong tối đa được kiểm tra. Dải tần số df được cho bởi:

Tần số lấy mẫu: 32 kHz

Lớp I: df = 125 Hz 0 kHz < f <= 4,0 kHz
df = 187,5 Hz 4,0 kHz < f <= 8,0 kHz
df = 375 Hz 8,0 kHz < f <= 15,0 kHz
Lớp II: df = 62,5 Hz 0 kHz < f <= 3,0 kHz
df = 93,75 Hz 3,0 kHz < f <= 6,0 kHz
df = 187,5 Hz 6,0 kHz < f <= 12,0 kHz
df = 375 Hz 12,0 kHz < f <= 24,0 kHz
Tần số lấy mẫu: 44,1 kHz
Lớp I: df = 172,266 Hz 0 kHz < f <= 5,512 kHz
df = 281,25 Hz 5,512 kHz < f <= 11,024 kHz
df = 562,50 Hz 11,024 kHz < f <= 19,982 kHz
Lớp II: df = 86,133 Hz 0 kHz < f <= 2,756 kHz
df = 129,199 Hz 2,756 kHz < f <= 5,512 kHz
df = 258,398 Hz 5,512 kHz < f <= 11,024 kHz
df = 516,797 Hz 11,024 kHz < f <= 19,982 kHz
Tần số lấy mẫu: 48 kHz
Lớp I: df = 187,5 Hz 0 kHz < f <= 6,0 kHz
df = 281,25 Hz 6,0 kHz < f <= 12,0 kHz
df = 562,50 Hz 12,0 kHz < f <= 24,0 kHz
Lớp II: df = 93,750 Hz 0 kHz < f <= 3,0 kHz
df = 140,63 Hz 3,0 kHz < f <= 6,0 kHz
df = 281,25 Hz 6,0 kHz < f <= 12,0 kHz
df = 562,50 Hz 12,0 kHz < f <= 24,0 kHz

Để tạo ra các danh sách các dòng phổ X(k) có các dòng âm thanh hoặc không phải là âm thanh, ba thao tác sau được thực hiện:

  1. a) Đánh dấu vị trí cực điểm

Một dòng phổ X (k) được gắn nhãn là tối đa bên trong nếu

X (k)> X(k – 1) và X(k) > = X(k + 1)

  1. b) Liệt kê các thành phần âm thanh và tính mức ứng suất âm thanh

Một tối đa bên trong được đưa vào (danh sách các thành phần âm thanh nếu:

X(k)-X(k + j)> = 7dB,

trong đó j được chọn theo  
Layer I:  
j = -2, +2 cho 2 < k < 63
j = -3, -2, +2, +3 cho 63 <= k <127
j = -6 -2. +2,…+6 cho 127 <= k <=250
Layer II:  
j = -2, +2 cho 2 < k < 63
j = -3, -2, +2, +3 cho 63 <= k <127
j = -6,…, -2, +2,…,+6 cho 127 <= k <=255
j = -12,…, -2, +2,…,+12 cho 255 <= k <=500

Nếu X(k) được tìm thấy là một thành phần âm, thì các tham số sau được liệt kê:

– Chỉ số k của dòng trải phổ.

– Mức ứng suất âm thanh ,đơn vị là DB

– Cờ âm thanh.

Tiếp theo tất cả dòng trải phổ trong dải tần số được kiểm tra được đặt là -∞dB .

  1. c) Danh sách các thành phần không phải là âm thanh và tính toán công suất

Các thành phần không phải là âm thanh (tiếng ồn) được tính từ các dòng trải phổ còn lại. Để tính toán các thành phần âm thanh từ các dòng trải phổ X(k). các dải quan trọng z(k) cũng được xác định bằng cách sử dụng các bảng “Biên giới quan trọng” (bảng D.2a, D.2b.D.2c cho lớp I, các bảng D.2d.2.2) .2f cho lớp II). Trong lớp I, 23 băng tần tới hạn được sử dụng cho tốc độ lấy mẫu là 32 kHz. 24 băng tần tới hạn cho 44,1 kHz và 25 băng tần tới hạn được sử dụng cho 48 kHz. Trong lớp II, 24 băng tần tới hạn được sử dụng cho tốc độ lấy mẫu 32 kHz và 26 băng tần tới hạn được sử dụng cho tần số lấy mẫu 44,1 kHz và 48 kHz. Trong mỗi băng tần tới hạn, nguồn của các dòng trải phổ (duy trì sau khi các thành phần âm thanh đã trở về 0 (zero)) được tổng hợp để tạo ra mức ứng suất âm thanh của thành phần không phải là âm thanh Xmn(k) tương ứng với băng tần tới hạn đó.

Các thông số sau được liệt kê:

Chỉ số k của dòng trải phổ gần với trung bình hình học của băng tần tới hạn.

– Ứng suất âm thanh Xnm (k)

– Cờ thành phần không phải là âm thanh.

Bước 5: Tách các thành phần mặt nạ thành phần không phải là âm thanh và âm thanh

Lấy ra một phần mười là một thủ tục được sử dụng để giảm số lượng mặt nạ được xem xét để tính toán ngưỡng mặt nạ chung.

  1. a) Âm thanh Xtm (k) hoặc các thành phần không phải âm thanh Xnm(k) được xem xét để tính ngưỡng mặt nạ chỉ khi:

Xtm(k) >= LTq(k) hoặc Xmn(k) >= LTq(k)

Trong biểu thức này, LTq(k) là ngưỡng tuyệt đối (hoặc ngưỡng yên lặng) tại tần số của chỉ số k. Các giá trị này được cho trong các bảng D.1a, D.1b, D.1c cho lớp I; các bảng D.1d, D.1e, D.1f cho Lớp II.

  1. b) Tách hai hoặc nhiều thành phần âm thanh trong một khoảng cách nhỏ hơn 0,5 Bark: Giữ cho các thành phần có công suất cao nhất, và loại bỏ các thành phần nhỏ hơn từ danh sách các thành phần âm thanh. Đối với thao tác này, một cửa số trượt trong miền băng tần tới hạn được sử dụng với chiều rộng là 0,5 bark.

Trong phần sau, chỉ mục j được sử dụng để chỉ các thành phần mặt nạ âm thanh hoặc không phải là âm thanh có liên quan từ danh sách kết hợp đã bị xáo trộn.

Bước 6: Tính toán ngưỡng ngụy trang riêng lẻ

Trong số các mẫu tần số N/2 ban đầu, được lập chỉ mục bởi k. chỉ có một tập con của các mẫu, lập chỉ mục bởi i. được tính đến việc tính toán ngưỡng mặt nạ chung. Các mẫu được sử dụng được thể hiện trong các bảng D.1a, D.1b, D.1c cho lớp I; các bảng D.1d, D.1e, D.1f cho Lớp II.

Lớp 1:

Đối với các dòng tần số tương ứng với vùng tần số được bao phủ bởi sáu băng tần con không phải là lấy mẫu phụ. Đối với vùng tần số tương ứng với 6 băng tần con tiếp theo, mỗi dòng trải phổ thứ hai được xem xét. Cuối cùng, trong trường hợp tỷ lệ lấy mẫu 44,1 kHz và 48 kHz, ở vùng tần số tương ứng với các băng tần con còn lại, mỗi dải phổ thứ tư được tính là 20 kHz. Trong trường hợp tốc độ lấy mẫu 32 kHz, trong vùng tần số tương ứng với các băng tần con còn lại, mỗi 4 dải phổ được tính lên đến 15 kHz (xem bảng D.1a. D.1b, D.1c cho lớp I).

Lớp II:

Đối với các dòng tần số tương ứng với vùng tần số được bao bởi ba băng tần con đầu tiên không lấy mẫu phụ được sử dụng. Đối với vùng tần số được bao bởi ba băng tần con dưới mỗi dòng trải phổ thứ hai được xem xét. Đối với vùng tần số tương ứng với 6 băng tần con tiếp theo, mỗi dòng trải phổ thứ tư được xem xét. Cuối cùng, trong trường hợp tốc độ lấy mẫu 44,1 kHz và 48 kHz, trong các băng tần con còn lại cho mỗi dòng trải phổ thứ tám được tính là 20 kHz. Trong trường hợp tỷ lệ lấy mẫu 32 kHz, trong vùng tần số tương ứng với các băng tần con còn lại, mỗi dòng trải phổ thứ tám được tính lên đến 15 kHz. (Xem thêm bảng D.1d, D.1e, D.1f cho Lớp II).

Số mẫu, n. trong miền tần số lấy mẫu phụ thuộc vào tốc độ lấy mẫu và các lớp.

Tốc độ lấy mẫu 32 kHz: n =108 cho lớp I n = 132 cho lớp II
Tốc độ lấy mẫu 44,1 kHz: n =106 cho lớp I n = 130 cho lớp II
Tốc độ lấy mẫu 48 kHz: n =102 cho lớp I n = 126 cho lớp II

Mỗi thành phần âm thanh và không phải là âm thanh (tiếng ồn) được gán giá trị của chỉ số i tương ứng gần nhất với tần số của dòng trài phổ X(k) ban đầu. Chỉ số này tôi được đưa ra trong các bảng D.1a, D.1 b, D.1c cho lớp I; bảng D.1d, D.1e, D.1f cho Lớp II.

Các ngưỡng mặt lạ riêng của cả hai thành phần âm thanh và không phải là âm thanh (tiếng ồn) được cho bời biểu thức sau:

Trong công thức này, LTtmLTnm ghi lại các ngưỡng mặt lạ riêng ở tốc độ băng tần tới hạn z trong Bark của thành phần mặt nạ ở tốc độ băng tần tới hạn của mặt lạ Zm trong Bark. Các giá trị bằng dB có thể là dương hoặc âm. Thuật ngữ Xtm[ z(j)] là mức ứng suất âm thanh của thành phần mặt nạ với số chỉ mục j ở tốc độ băng tần tới hạn tương ứng z(j). Thuật ngữ av được gọi là chỉ số mặt nạ và vf chức năng mặt nạ của thành phần mặt nạ Xtm[ z(j)]. Chỉ số mặt nạ av là khác nhau đối với các lớp mặt nạ âm thanh và không phải là âm thanh (tiếng ồn) (avtm , và avnm).

Đối với mặt nạ âm thanh, nó được đưa ra

và cho mặt nạ không phải là âm thanh (tiếng ồn)

Chức năng mặt nạ vf của mặt nạ được đặc trưng bởi các độ dốc dưới và trên khác nhau, phụ thuộc vào khoảng cách trong Bark dz = z(i) – z(j) đến mặt nạ. Trong biểu thức này i là chỉ số của dòng trải phổ mà tại đó tính năng mặt nạ được tính toán và j của mặt nạ. Tốc độ băng tần tới hạn z(j) và z(i) có thể được tìm thấy trọng các bảng D.1a, D.1b, D.1c cho lớp I; các bảng D.1d, D.1e, D.1f cho lớp II. Chức năng che mặt nạ, giống như các mặt nạ âm thanh và không phải là âm thanh (tiếng ồn), được cho bởi:

Vf= 17* (dz + 1 ) – (0,4 * X[z(j)]+ 6) dB cho -3<=dz < -1 Bark
Vf= (0,4 * X[z(j)]+ 6)* dz dB cho -1 <=dz <0 Bark
Vf= -17* dz dB cho -3b<=dz < -1 Bark
Vf= – (dz -1 ) *( 17-0,15* X[z(j)])-17 dB cho 1<=dz < 8 Bark

Trong các biểu thức này X[z(j)] là mức ứng suất âm thanh của thành phần mặt lạ thử j (đơn vị tính là dB). Vì lý do phức tạp của quá trình thực hiện, mặt lạ không còn được xem xét (LTtm và LTnm được đặt thành – ∞dB ngoài phạm vi này ) nếu dz <-3 Bark, hay dz> = 8 Bark.

Bước 7: Tính ngưỡng mặt lạ chung LTg

Ngưỡng mặt lạ chung LTg(i) tại vị trí i tần số mẫu có nguồn gốc từ các sườn phía trên và dưới của mặt nạ ngưỡng riêng của mỗi âm thanh và mặt nạ không phải là âm thanh j và từ ngưỡng yên lặng LTg(i). Điều này cũng được đưa ra trong các bảng D.1a, D.1b, D.1c cho lớp I; các bảng D.1d, D.1e, D.1f cho lớp II. Ngưỡng mặt lạ chung được tìm thấy bằng cách tổng hợp các cường độ tương ứng với ngưỡng mặt lạ riêng và ngưỡng im lặng.

Tổng số lượng mặt nạ được đưa ra bởi m, và tổng số mặt nạ không phải là âm thanh được cho bởi n. Đối với một i cho phạm vi của j có thể được giảm xuống chỉ bao gồm các thành phần mặt nạ trong phạm vi -8 đến +3 Bark từ i. Bên ngoài phạm vi LTtmLTnm này là – ∞dB

Bước 8: Xác định ngưỡng mặt nạ tối thiểu

Mức mặt nạ tối thiểu LTmin(n) trong dải con n được xác định bởi biểu thức sau:

LTmin(n) = MIN[LTg(i)]dB

F(i) trong băng tần con n

trong đó f(i) là tần số thứ i của tần số lấy mẫu. Các f(i) được cho trong bảng D.1a. D.1b, D.1c cho lớp I; bảng D.1d, D.1c. D.1f cho lớp II. Một mức tối thiểu mask LTmin (n) được tính cho mỗi băng tần con.

Bước 9: Tính tỷ lệ tín hiệu – mặt nạ

Tỷ lệ tín hiệu – mặt nạ

SRMsb(n) = Lsb(n)-LTmin(n)dB

được tính cho băng tần con n.

Bảng D.1a – Tần số, tốc độ băng tần tới hạn và ngưỡng tuyệt đối

Bảng có giá trị đối với lớp I tại tần số lấy mẫu 32 kHz

Số chỉ mục i Tần số [Hz] Tốc độ Băng tần tới hạn [z] Ngưỡng tuyệt đối [dB]
1   62,50 0,617 33,44
2   125,00 1,232 19,20
3   187,50 1,842 13,87
4   250,00 2,445 11,01
5   312,50 3,037 9,20
6   375,00 3,618 7,94
7   437,50 4,185 7,00
8   500,00 4,736 6,28
9   562,50 5,272 5,70
10   625,00 5,789 5,21
11   687,50 6,289 4,80
12   750,00 6,770 4,45
13   812,50 7,233 4,14
14   875,00 7,677 3,86
15   937,50 7,233 3,61
16 1 000,00 7,677 3,37
17 1 062,50 8,103 3,15
18 1 125,00 8,511 2,93
19 1 187,50 8,901 2,73
20 1 250,00 9,275 2,53
21 1 312,50 9,632 2,32
22 1 375,00 9,974 2,12
23 1 437,50 10,301 1,92
24 1 400,00 10,614 1,71
25 1 562,50 10,913 1,49
26 1 625,00 11,199 1,27
27 1 687,50 11,474 1,04
28 1 750,00 11,736 0,80
29 1 812,50 11,988 0,55
30 1 875,00 12,230 0,29
31 2 937,50 12,461 . 0,02
32 2 000,00 12,684 -0,25
33 2 062,50 12,898 -0,54
34 2 125,00 13,104 -0,83
35 2 187,50 13,302 -1,12
36 2 250,00 13,493 -1,43
37 2 312,50 13,678 -1,73
38 2 375,00 13,855 -2,04
39 2 437,50 14,027 -2,34
40 2 500,00 14,509 -2,64
41 2 562,50 14,660 -2,93
42 2 625,00 14,807 -3,22
43 2 687,50 14,949 -3,49
44 2 750,00 15,087 -3,74
45 2 812,50 15,221 -3,98
46 2 875,00 15,351 -4,20
47 2 937,50 15,478 -4,40
48 3 000,00 15,602 -4,57
49 3 125,00 15,841 -4,8
50 3 250,00 16,069 -4,96
51 3 375,00 16,287 -4,97
52 3 500,00 16,496 -4,86
53 3 625,00 16,697 -4,63
54 3 750,00 16,891 -4,29
55 3 875,00 17,078 -3,87
56 4 000,00 17,259 -3,39
57 4 125,00 17,434 -2,86
58 4 250,00 17,605 -2,31
59 4 375,00 17,770 -1,77
60 4 500,00 17,932 -1,24
61 4 625,00 18,089 -0,74
62 4 750,00 18,242 -0,29
63 4 875,00 18,392 0,12
64 5 000,00 18,539 0,48
65 5 125,00 18,682 0,79
66 5 250,00 18,823 1,06
67 5 375,00 18,960 1,29
68 5 500,00 19,095 1,49
69 5 625,00 19,226 1,66
70 5 750,00 19,356 1,81
71 5 875,00 19,482 1,95
72 6 000,00 19,606 2,08
73 6 250,00 19,847 2,33
74 6 500,00 20,079 2,59
75 6 750,00 20,300 2,86
76 7 000,00 20,513 3,17
77 7 250,00 20,717 3,51
78 7 500,00 20,912 3,89
79 7 750,00 21,098 4,31
80 8 000,00 21,275 4,79
81 8 250,00 21,445 5,31
82 8 500,00 21,606 5,88
83 8 750,00 21,760 6,5
84 9 000,00 21,906 7,19
85 9 250,00 22,046 7,93
86 9 500,00 22,178 8,75
87 9 750,00 22,304 9,63
88 10 000,00 22,424 10,58
89 10 250,00 22,538 11,60
90 10 500,00 22,646 12,71
91 10 750,00 22,749 13,90
92 11 000,00 22,847 15,18
93 11 250,00 22,941 16,54
94 11 500,00 23,030 18,01
95 11 750,00 23,114 19,57
96 12 000,00 23,195 21,23
97 12 250,00 23,272 23,01
98 12 500,00 23,345 24,90
99 12 750,00 23,415 26,90
100 13 000,00 23,482 29,03
101 13 250,00 23,546 , 31,28
102 13 500,00 23,607 33,67
103 13 750,00 23,666 36,19
104 14 000,00 23,722 38,86
105 14 250,00 23,775 41,67
106 14 500,00 23,827 44,63
107 14 750,00 23,876 47,76
108 15 000,00 23,923 51,04

Bảng D.1b – Tần số, tốc độ băng tần tới hạn và ngưỡng tuyệt đối

Bảng này có giá trị đối với lớp I tại tần số lấy mẫu 44,1 kHz

Số chỉ mục i Tần số [Hz] Tốc độ Băng tần tới hạn [z] Ngưỡng tuyệt đối [dB]
1   86,13 0,850 25,87
2   172,27 1,694 14 85
3   258,40 2,525 10,72
4   344,53 3,337 8,50
5   430,66 4,124 7,10
6   516,80 4,882 6,11
7   602,93 5,608 5,37
8   689,06 6,301 4,79
9   775,20 6,959 4,32
10   861,33 7,581 3,92
11   947,46 8,169 3,57
12 1 033,59 8,723 3,25
13 1 119,73 9,244 2,95
14 1 205,86 9,734 ,67
15 1 291,99 10,195 2,39
16 1 378,13 10,629 2,11
17 1 464,26 11,037 1,83
18 1 550,39 11,421 1,53
19 1 636,52 11,783 1,23
20 1 722,66 12,125 0,90
21 1 808,79 12 448 0,56
22 1 894,92 12,753 0,21
23 1 981,05 13 042 -0,17
24 2 067,19 13,317 -0,56
25 2 153,32 13 578 -0,96
26 2 239,45 13,826 -1,38
27 2 325,59 14 062 -1,79
28 2 411,72 14,288 -2,21
29 2 497,85 14,504 -2,63
30 2 583,98 14,711 -3,03
31 2 670,12 14,909 -3,41
32 2 756,25 15,100 -3,77
33 2 842,38 15,284 -4,09
34 3 928,525 15,460 -4,37
35 3 014,65 15,631 -4,60
36 3 100,78 15,796 -4,78
37 3 186,91 15,955 -4,91
38 3 273,05 16,110 -4,97
39 3 359,18 16,260 -4,98
40 3 445,31 16,406 -4,92
41 3 531,45 16,547 -4,81
42 3 617,58 16,687 -4,65
43 3 703,71 16,820 -4,43
44 3 789,84 16,951 -4,17
45 3 875,98 17 079 -3,87
46 4 962,11 17 205 -3,54
47 4 048,24 17,327 -3,19
48 4 134,38 17,447 -2,82
49 4 306,64 17,680 -2,06
50 4 478,91 17,905 -1,32
51 4 651,17 18,121 -0,64
52 4 823,44 18,331 -0,04
53 5 995,70 18,534 0,47
54 5 167,97 18,731 0,89
55 5 340,23 18,922 1,23
56 5 512,50 19,108 1,51
57 5 684,77 19,289 1,74
58 6 857,03 19,464 1,93
59 6 029,30 19,635 2,11
60 6 201,56 19,801 2,28
61 6 373,83 19,963 2,46
62 6 546,09 20,120 2,63
63 6 718,36 20,273 2,82
64 7 890,63 20,421 3,03
65 7 062,89 20,565 3,25
66 7 235,16 20,705 3,49
67 7 407,42 20,840 3,74
68 7 579,69 20,972 4,02
69 7 751,95 21,099 4,32
70 8 924,22 21,222 4,64
71 8 096,48 21,342 4,98
72 8 268,75 21,457 5,35
73 8 6613,28 21,5677 6,15
74 9 957,81 21,882 7,07
75 9 302,34 22,074 8,10
76 9 646,88 22,253 9,25
77 10 991,41 22,420 10,54
78 10 335,94 22,576 11,97
79 10 680,47 22,721 13,56
80 11 025,00 22,857 15,31
81 11 369,53 22,984 17,23
82 11 714,06 23,102 19,34
83 12 058,59 23,213 21,64
84 12 403,13 23,317 24,15
85 12 747,66 23,415 26,88
86 13 092,19 23,506 29,84
87 13 436,72 23,592 33,05
88 13 781,25 23,673 36,52
89 14 125,78 23,749 40,25
90 14 470,31 23,821 44,27
91 14 814,84 23,888 48,59
92 15 159,38 23,952 53,22
93 15 503,91 24,013 58,18
94 15 848,44 24,070 63,49
95 16 192,98 24,125 68,00
96 16 537,50 24,176 68,00
97 16 882,03 24,225 68,00
98 17 226,56 24,271 68,00
99 17 571,09 24,316 68,00
100 17 915,63 24,358 68,00
101 18 260,16 24,395 68,00
102 18 604,69 24,436 68,00
103 18 949,22 24,473 68,00
104 19 293,75 24,508 68,00
105 19 638,28 24,542 68,00
106 19 982,81 24,574 68,00

Bảng D.1c – Tần số, tốc độ băng tần tới hạn và ngưỡng tuyệt đối

Bảng này có giá trị đối với lớp I tại tần số lấy mẫu 48 kHz

S chỉ mục i Tần số [Hz] Tốc độ Băng tần tới hạn [z] Ngưỡng tuyệt đối [dB]
1   93,75 0,925 21,17
2   187,50 1,842 13,87
3   281,25 2,742 10,01
4   375,00 3,618 7,94
5   468,75 4,463 6,62
6   562,50 5,272 5,70
7   656,25 60,41 5,00
8   750,00 6,770 4,45
9   743,75 7,457 4,00
10   937,50 8,103 3,61
11   031,25 8,708 3,26
12 1 125,00 9,275 2,93
13 1 218,75 9,805 .2,63
14 1 312,50 10,301 2,32
15 1 406,25 10,765 2,03
16 1 500,00 11,199 1,71
17 1 593,75 11,606 1,37
18 1 687,50 11,988 1,04
19 1 781,25 12,347 0,67
20 1 875,00 12,684 0,29
21 2 968,75 13,002 -0,11
22 2 062,50 13,302 -0,54
23 2 156,25 13,586 -0,97
24 2 250,00 13,855 -1,43
25 2 343,75 14,111 -1,88
26 2 437,50 14,354 -2,34
27 2 531,25 14,585 -2,79
28 2 625,00 14,807 -3,22
29 2 718,75 15,018 -3,62
30 2 812,50 15,221 -3,98
31 3 906,25 15,415 -4,30
32 3 000,00 15,602 -4,57
33 3 093,75 15,783 -477
34 3 187,50 15,956 -4,91
35 3 281,25 16,124 -4,98
36 3 375,00 16,287 -4,97
37 3 468,75 16,445 -4,90
38 3 562,50 16,598 -476
39 3 656,25 16,745 -4,55
40 3 750,00 16,891 -4,29
41 3 843,75 17,032 -3,99
42 3 937,50 17,169 -3,64
43 4 031,25 17,303 -3,26
44 4 125,00 17,434 -2,86
45 4 218,75 17,563 -2,45
46 4 312,50 17,688 -2,04
47 4 406,25 17,811 -1,63
48 4 500,00 17,932 -1,24
49 4 687,50 18,166 -0,51
50 4 875,00 18,392 0,12
51 5 062,50 18,611 0,64
52 5 250,00 18,823 1,06
53 5 437,50 19,028 1,39
54 5 625,00 19,226 1,66
55 5 812,50 19,419 1,88
56 6 000,00 19,606 2,08
57 6 187,50 19,788 2,27
58 6 375,00 19,964 2,46
59 6 562,50 20,135 2,65
60 6 750,00 20,300 2,86
61 6 937,50 20,461 3,09
62 7 125,00 20,616 3,33
63 7 312,50 20,766 3,60
64 7 500,00 20,912 3,89
65 7 687,50 21,052 4,20
66 7 875,00 21,188 4,54
67 8 062,50 21,318 4,91
68 8 250,00 21,445 5,31
69 8 437,50 21,567 5,73
70 8 625,00 21,684 6,18
71 8 812,50 21,797 6,67
72 8 000,00 21,906 7,19
73 9 375,00 22,113 8,33
74 9 750,00 22,304 9,63
75 9 125,00 22,482 11,08
76 10 500,00 22,646 12,71
77 10 875,00 22,799 14,53
78 10 250,00 22,941 16,54
79 11 625,00 23,072 18,77
80 11 000,00 23,195 21,23
81 12 375,00 23,309 23,94
82 12 750,00 23,415 26,90
83 12 125,00 23,515 30,14
84 13 500,00 23,607 33,67
85 13 875,00 23,694 37,51
86 13 250,00 23,775 41,67
87 14 625,00 23,852 36,67
88 14 000,00 13,923 51,04
89 15 375,00 23,991 56,29
90 15 750,00 24,054 61,94
91 16 125,00 24,114 68,00
92 16 500,00 24,171 68,00
93 16 875,00 24,224 68,00
94 17 250,00 24,275 68,00
95 17 625,00 24,322 68,00
96 18 000,00 24,368 68,00
97 18 375,00 24,411 68,00
98 18 750,00 24,452 68,00
99 19 125,00 24,491 68,00
100 19 500,00 24,528 68,00
101 19 875,00 24,564 68,00
102 20 250,00 24,597 68,00

Bảng D.1d – Tần số, tốc độ băng tần tới hạn và ngưỡng tuyệt đối

Bảng này có giá trị đối với lớp I tại tần số lấy mẫu 32 kHz

S chỉ mục i Tần số [Hz] Tốc độ Bảng tần tới hạn [z] Ngưỡng tuyệt đối [dB]
1   31,25 0,309 58,23
2   62,50 0,617 33,44
3   93,75 0,925 24,17
4   125,00 1,232 19,20
5   156,25 1,538 16,05
6   187,50 1,842 13,87
7   218,75 2,145 12,26
8   250,00 2,445 11,01
9   281,25 2,742 10,01
10   312,50 3,037 9,250
11   343,75 3,329 8,52
12   375,00 3,618 7,94
13   406,25 3,903 7,44
14   437,50 4,185 7,00
15   468,75 4,463 6,62
16   500,00 4,736 6,28
17   531,25 5,006 5,97
18   562,50 5,272 5,70
19   593,75 5,533 5,44
20   625,00 5,789 5,21
21   656,25 6,041 5,00
-22   687,50 6,289 4,80
23   718,75 6,532 4,62
24   750,00 6,770 4,45
25   781,25 7,004 4,29
26   812,50 7,233 4,14
27   843,75 7,457 4,00
28   875,00 7,677 3,86
29   906,25 7 892 3,73
30   937,50 8,103 3,61
31   968,75 8,309 3,49
32 1 000,00 5,511 3,37
33 1 031,25 8,708 3,26
34 1 062,50 8,901 3,15
35 1 093,75 9,090 3,04
36 1 125,00 9,275 2,93
37 1 156,25 9,456 2,83
38 1 187,50 9,632 2,73
39 1 218,75 9,805 2,63
40 1 250,00 9,974 2,53
41 1 281,25 10,139 2,42
42 1 312,50 10,301 2,32
43 1 343,75 10,459 2,22
44 1 375,00 10,614 2,12
45 1 406,25 10,765 2,02
46 1 437,50 10,913 1,92
47 1 468,75 11,058 1,84
48 1 500,00 11,199 1,71
49 1 562,50 11,474 1,49
50 1 625,00 11,736 1,27
51 1 678,50 11,988 1,04
52 1 750,00 12,230 0,80
53 1 812,50 12,461 0,55
54 1 875,00 12,684 0,29
55 1 937,50 12,898 0,02
56 2 000,00 13,104 -0,25
57 2 062,50 13,302 -0,54
58 2 125,00 13,493 -0,83
59 2 187,50 13,678 -1,12
60 2 250,00 13,855 -1,43
61 2 312,50 14,027 -1,73
62 2 375,00 14,1493 -2,04
63 2 437,50 14,354 -2,34
64 2 500,00 14,509 -2,64
65 2 562,50 14,660 -2,93
66 2 625,00 14,807 -3,22
67 2 687,50 14,949 -3,49
68 2 750,00 15,087 -3,74
69 2 812,50 15,221 -3,98
70 2 875,00 15,351 -4,2
71 2 937,50 15,478 -4,40
72 3 000,00 15,602 -4,57
73 3 125,00 15,841 -4,82
74 3 250,00 16,069 -4,96
75 3 375,00 16,287 -4,97
76 3 500,00 16,496 -4,86
77 3 625,00 16,697 -4,63
78 3 750,00 16,891 -4,29
79 3 875,00 17,078 -3,87
80 4 000,00 17,259 -3,39
81 4 125,00 17,424 -2,86
82 4 250,00 17,605 -2,31
83 4 375,00 17,770 -1,77
84 4 500,00 17,932 -1,24
85 4 625,00 18,089 -0,74
86 4 750,00 18,242 -0,29
87 4 875,00 18,392 0,12
88 5 000,00 18,539 0,48
89 5 125,00 18,682 0,79
90 5 250,00 18,823 1,06
91 5 375,00 18,960 1,29
92 5 500,00 19,095 1,49
93 5 625,00 19,226 1,66
94 5 750,00 16,356 1,81
95 5 875,00 19,482 1,95
96 6 000,00 19,606 2,08
97 6 250,00 19,847 2,33
98 6 500,00 20,079 2,59
99 6 750,00 20,300 2,86
100 7 000,00 20,513 3,17
101 7 250,00 20,717 3,51
102 7 500,00 20,912 3,89
103 7 750,00 21,098 4,31
104 8 000,00 21,285 4,79
105 8 250,00 21,445 5,31
106 8 500,00 21,606 5,88
107 8 750,00 21,760 6,50
108 9 000,00 21,906 7,19
109 9 250,00 22,046 7,93
110 9 500,00 22,178 8,75
111 9 750,00 22,304 9,63
112 10 000,00 22,424 10,58
113 10 250,00 22,538 11,60
114 10 500,00 22,646 12,71
115 10 750,00 22,749 13,90
116 11 000,00 22,847 15,18
117 11 250,00 22,941 16,54
118 11 500,00 23,030 18,01
119 11 750,00 23,114 16,57
120 12 000,00 23,195 21,23
121 12 250,00 23,272 23,01
122 12 500,00 23,345 14,90
123 12 750,00 23,415 16,90
124 13 000,00 23,482 29,03
125 13 250,00 23,546 31,28
126 13 500,00 23,607 33,67
127 13 750,00 23,666 36,19
128 14 000,00 23,722 38,86
129 14 250,00 23,775 41,67
130 14 500,00 23,827 44,63
131 14 750,00 23,876 47,76
132 15 000,00 23,923, 51,04

Bảng D.1e – Tần số, tốc độ băng tần tới hạn và ngưỡng tuyệt đối

Bảng này có giá trị đối với lớp II tại tần số lấy mẫu 44,1 kHz

S chỉ mục i Tần số [Hz] Tốc độ Băng tần tới hạn [z] Ngưỡng tuyệt đối [dB]
1   43,07 0,425 45,05
2   86,13 0,850 25,87
3   129,20 1,273 18,70
4   172,27 1,694 14,85
5   215,33 2,112 12,41
6   258,40 2,525 10,72
7   301,46 2,934 9,47
8   344,53 3,337 8,50
9   387,60 3,733 7,73
10   430,66 4,124 7,10
11   473,73 4,507 6,56
12   516,80 4,882 6,11
13   559,86 5,249 5,72
14   602,93 5,608 5,37
15   646,00 5,959 5,07
16   689,06 6,301 4,79
17   732,13 6,634 4,55
18   775,20 6,959 4,32
19   818,26 7,274 4,11
20   861,33 7,581 3,92
21   904,39 7,879 3,77
22   947,46 8,169 3,57
23   990,53 8,450 3,40
24 1 033,59 8,723 3,20
25 1 076,66 8,987 3,10
26 1 119,73 9,244 2,95
27 1 162,79 9,493 2,81
28 1 205,86 9,734 2,67
29 1 248,93 9,968 2,53
30 1 291,99 10,195 2,39
31 1 335,06 10,416 2,25
32 1 378,13 10,629 2,11
33 1 421,19 10,836 1,97
34 1 464,26 11,037 1,83
35 1 507,32 11,232 1,68
36 1 550,39 11,421 1,53
37 1 593,46 11,605 1,38
38 1 636,52 11,783 1,23
39 1 678,59 11,957 1,07
40 1 722,66 12,125 0,90
41 1 765,72 12,289 0,74
42 1 808,79 12,448 0,56
43 1 851;86 12,603 0,39-
44 1 894,92 12,753 0,21
45 1 937,99 12,900 0,02
46 2 981,05 13,042 -0,17
47 2 024,12 13,181 -0,36
48 2 067,19 13,317 -0,56
49 2 153,32 13,579 -0,96
50 2 239,45 13,826 -1,38
51 2 325,59 14,062 -1,79
52 2 411,72 14,288 -2,21
53 2 497,85 14,504 -2,63
54 2 583,98 14,711 -3,03
55 2 670,12 14,909 -3,41
56 2 756,25 15,100 -3,77
57 2 842,38 15,284 -4,09
58 2 928,52 15,460 -4,37
59 3 014,65 15,631 -4,60
60 3 100,78 15,796 -4,78
61 3 186,91 15,955 -4 91
62 3 273,05 16,110 -4,97
63 3 359,18 16,260 -4,98
64 3 445,31 16,406 -4,92
65 3 531,45 16,547 -4,81
66 3 617,59 16,685 -4,65
67 3 703,71 16,850 -4,43
68 3 789 84 16,951 -4,17
69 3 875,98 17,079 -3,87
70 3 962,11 17,205 -3,54
71 4 048,23 17,327 -3,19
72 4 134,38 17,447 -2,82
73 4 306,64 17,680 -2,06
74 4 478,91 17,905 -1,32
75 4 651,17 18,121 -0,64
76 4 823,44 18,331 -0,04
77 4 995,70 18,534 0,47
78 5 167,98 18,731 0,89
79 5 340,23 18,922 1,23
80 5 512,50 19,108 1,51
81 5 684,77 19,289 1,74
82 5 857,03 19,454 1,93
83 6 029,30 19,635 2,11
84 6 201,56 19,801 2,28
85 6 373,83 19,963 2,46
86 6 546,09 20,120 2,63
87 6 718,36 20,273 2,82
88 6 890,63 20,421 3,03
89 7 062,89 20,565 3,25
90 7 235,16 20,705 3,49
91 7 407,42 20,840 3,74
92 7 579,69 20,972 4,02
93 7 751,95 21,099 4,32
94 7 924,22 21,222 4,64
95 8 096,48 21,342 4,98
96 8 268,75 21,457 5,3…
97 8 613,28 21,677 6,15
98 8 957,81 21,882 7,07
99 9 302,34 22,074 8,10
100 9 646,88 22,253 9,25
101 9 991,41 22,420 10,54
102 10 335,94 22,576 11,97
103 10 680,47 22,721 13,56
104 11 025,00 22,857 15,31
105 11 369,53 22,984 17,23
106 11 714,06 23,102 19,34
107 12 058,59 23,213 21,64
108 12 403,13 23,317 24,15
109 12 747,66 23,415 26,88
110 13 092,19 23,506 29,84
111 13 436,82 23,592 33,05
112 13 781,25 23,673 36,52
113 14 125,78 23,749 40,25
114 14 470,31 23,821 44,27
115 14 814,84 23,888 48,59
116 15 159,38 23,952 53,22
117 15 503,91 24,013 58,18
118 15 848,44 24,070 63,49
119 16 192,97 24,125 68,00
120 16 537,50 24,176 68,00
121 16 5882,03 24,225 68,00
122 17 226,56 24,271 68,00
123 17 571,09 24,316 68,00
124 17 915,63 24,356 68,00
125 18 260,16 24,396 68,00
126 18 604,69 24,436 68,00
127 18 949,22 24,473 68,00
128 19 293,75 24,508 68,00
129 19 638,28 24,542 68 00
130 19 982,81 24,574 68,00

Bảng D.1f – Các tần số, tốc độ băng tần tới hạn và ngưỡng tuyệt đối

Bảng này có giá trị đối với lớp II tại tần số lấy mẫu 48 kHz

S chỉ mục
i
Tần số
[Hz]
Băng tần tới hạn
[z]
Ngưỡng tuyệt đối [dB]
1   46,88 0,463 42,10
2   93,75 0,925 24,17
3   140,63 1,385 17,47
4   187,50 1,842 13,87
5   234,38 2,295 11,60
6   281,25 2,742 10,01
7   328,13 3,184 8,84
8   375,00 3,618 7,94
9   421,88 4,045 7,22
10   468,75 4,463 6,62
11   515,63 4,872 6,12
12   562,50 5,272 5,70
13   609,38 5,661 5,33
14   656,25 6,041 5,00
15   703,13 6,411 4,71
16   750,00 6,770 4,45
17   796,88 7,119 4,21
18   843,75 7,457 4,00
19   890,63 7,785 3,79
20   937,50 8,103 3,61
21   984,38 8,410 3,43
22 1 031,35 8,708 3,26
23 1 078,13 8,996 3,09
24 1 125,00 9,275 2,93
25 1 171,88 9 544 2,78
26 1 218,75 9,805 2,63
27 1 265,63 10,057 2,47
28 1 312,50 10,301 2,32
29 1 359,38 10,537 2,17
30 1 406,25 10,765 2,02
31 1 453,13 10,986 1,86
32 1 500,00 11,199 1,71
33 1 546,88 11,406 1,55
34 1 593,75 11,606 1,38
35 1 640,63 11,800 1,21
36 1 687,50 11,988 1,04
37 1 734,38 12,170 0,86
38 1 781,25 12,347 0,67
39 1 828,13 12,518 0,49
40 1 875,00 12,684 0,29
41 1 921,88 12,845 0,09
42 1 968,75 13,002 -0,11
43 2 015,63 13,154 -0,32
44 2 062,50 13,302 -0,54
45 2 109,38 13,446 -0,75
46 2 156,25 13,586 -0,97
47 2 203,13 13,723 -1,20
48 2 250,00 13,855 -1,43
49 2 343,75 14,111 -1,88
50 2 437,50 14,354 -2,34
51 2 531,25 14,585 -2,79
52 2 625,00 14,807 -3,22
53 2 718,75 15,018 -3,62
54 2 812,50 15,221 -3,98
55 2 906,25 15,415 -4,30
56 3 nnn nn 15,302 -4,57
57 3 093J5 15,783 -4,77
58 3 187,50 15,956 -4,91
59 3 281,25 16,124 -4,98
60 3 375,00 16,287 -4,97
61 3 468,75 16,445 -4,90
62 3 562,50 16,598
63 3 656,25 16,746 -4,76
64 3 750,00 16,891 -4,55
65 3 843,75 17,032 -4,29
66 3 937,50 17,169 -3,99
67 4 031,25 17,303 -3,64
68 4 125,00 17,434 -3,26
69 4 218,75 17,563 -2,86
70 4 312,50 17,688 -2,45
71 4 406,25 17,811 -2,04
72 4 500,00 18,932 -1,63
73 4 687,50 18,166 -1,24
74 5 875,00 18,392 -0,51
75 5 062,50 18,611 0,12
76 5 250,00 18,823 0,64
77 5 437,50 19,0258 1,06
78 5 625,00 19,226 1,39
79 6 812,50 19,419 1,66
80 6 000,00 19,606 1,88
81 6 187,50 19,788 2,08
82 6 375,00 19,964 2,27
83 6 562,50 20,135 2,46
84 6 750,00 20,300 2,65
85 7 937,50 20,461 2,86
86 7 125,00 20,616 3,09
87 7 312,50 20,766 3,33
88 7 500,00 20,912 3,60
89 7 687,50 21,052 3,89
90 8 875,00 21,188 4,20
91 8 062,05 21,318 4,54
92 8 250,00 21,445 4,91
93 8 437,50 21,567 5,31
94 8 625,00 21,684 5,73
95 9 812,50 21,797 6,18
96 9 000,00 21,906 6,67
97 9 375,00 22,113 7,19
98 10 750,00 22,304 8,33
99 10 125,00 22,482 9,63
100 10 500,00 22,464 11,08
101 11 875,00 22,799 12,71
102 11 250,00 22,941 14,53
103 12 625,00 23,072 16,54
104 12 000,00 23,195 18,77
105 12 375,00 23,309 21,23
106 13 750,00 23,415 23,94
107 13 125,00 23,515 26,90
108 13 500,00 23,607 30,14
109 14 875,00 23,694 33,67
110 14 250,00 23,775 37,51
111 14 625,00 23,852 41,67
112 15 000,00 23,923 46,17
113 15 375,00 23,991 51,04
114 15 750,00 24,054 56,29
115 16 125,00 24,114 61,94
116 16 500,00 24,171 68,00
117 16 875,00 24,224 68,00
118 17 250,00 24,275 68,00
119 17 625,00 24,322 68,00
120 18 000,00 24,368 68,00
121 18 375,00 24,411 68,00
122 18 750,00 24,452 68,00
123 19 125,00 24,491 68,00
124 19 500,00 24,528 68,00
125 19 875,00 24,564 68,00
126 20 250,00 24,597 68,00

68,00

Bảng D.2a – Những giới hạn băng tần tới hạn

Bảng này có giá trị đối với lớp I tại tần số lấy mẫu 32 kHz

Các tần số dưới đây đại diện cho cho đầu cuối của mỗi băng tần tới hạn

Số TT Thông số của bảng F& CB Tần số [Hz] Bark [z]
0 1   62,500 0,617
1 3   187,500 1,842
2 5   312,500 3,037
3 7   437,500 4,185
4 9   562,500 5,272
5 11   687,500 6,289
6 13   812,500 7,233
7 15   937,500 8,103
8 18 1 125,000 9,275
9 21 1 312,500 10,301
10 24 1 500,000 11,199
11 27 1 1687,500 11,988
12 32 2 000,000 13,104
13 37 2 312,500 14,027
14 44 2 750,000 15,087
15 50 3 250,000 16,069
16 55 3 875,000 17,078
17 61 4 625,000 18,089
18 68 5 500,000 19,095
19 74 6 500,000 20,079
20 79 7 750,000 21,098
21 85 9 250,000 22,046
22 94 11 500,000 23,030
23 108 15 000,000 23,923

Bảng D.2b – Những giới hạn băng tần tới hạn

Bảng này có giá trị đối với lớp I tại tần số lấy mẫu 44,1 kHz

Các tần số dưới đây đại diện cho cho đầu cuối của mỗi băng tần tới hạn

Số TT Thông số của bảng F& CB Tần số [Hz] Bark [z]
0 1   86,133 0,850
1 2   172,266 1,694
2 3   258,398 2,525
3 5   430,664 4,124
4 6   516,797 4,882
5 8   689,063 6,301
6 9   775,195 6,959
7 11   947,461 8,169
8 13 1 119,727 9,244
9 15 1 291,992 10,195
10 17 1 464,258 11,037
11 20 1 722,656 12,125
12 23 1 981,055 13,042
13 27 2 325,586 14,062
14 32 2 756,250 15,100
15 37 3 186,914 15,955
16 45 3 875,977 17,079
17 50 4 478,906 17,904
18 55 5 340,234 18,922
19 61 6 373,828 19,963
20 68 7 579,688 20,971
21 75 9 302,344 22,074
22 81 11 369,531 22,984
23 93 15 503,906 24,013
24 106 19 982,813 24,573

Bảng D.2c – Những giới hạn băng tần tới hạn

Bảng này có giá trị đối với lớp I tại tần số lấy mẫu 48 kHz

Các tần số dưới đây đại diện cho cho đầu cuối của mỗi băng tần tới hạn

Số TT Thông số của bảng F&CB Tần số [Hz] Bark [z]
0 1   93,750 0,925
1 2   187,500 1,842
2 3   281,250 2,742
3 4   375,000 3,618
4 5   468,750 4,463
5 6   562,500 5,272
6 7   656,250 6,041
7 9   843,750 7,457
8 10   937,500 8,103
9 12 1 125,000 9,275
10 14 1 312,500 10,301
11 16 1 500,000 11,199
12 19 1 781,250 12,347
13 21 1 968,750 13,002
14 25 2 343,750 14,111
15 29 2 718,750 15,018
16 35 3 281,250 16,124
17 41 3 843,750 17,032
18 49 4 687,500 18,166
19 53 5 437,500 19,028
20 58 6 375,000 19,964
21 65 7 687,500 21,052
22 73 9 375,000 22,113
23 79 11 625,000 23,072
24 89 15 375,000 23,991
25 102 20 250,000 24,597

Bảng D.2d – Những giới hạn băng tần tới hạn

Bảng này có giá trị đối với lớp II tại tần số lấy mẫu 32 kHz

Các tần số dưới đây đại diện cho cho đầu cuối của mỗi băng tần tới hạn

Số TT Thông số của bảng F&CB Tần số [Hz] Bark [z]
0 1   31,250 0,309
1 3   93,750 0,925
2 6   187,5500 1,842
3 10   312,500 3,037
4 13   406,250 3,903
5 17   531,250 5,006
6 21   656,250 6,041
7 25   781,250 7,004
8 30   937,500 8,103
9 35 1 093,750 9,090
10 41 1 281,250 10,139
11 47 1 468,750 11,058
12 51 1 687,500 11,988
13 56 2 000,000 13,104
14 61 2 312,500 14,027
15 68 2 750,000 25,087
16 74 3 250,000 169,069
17 79 3 875,000 17,078
18 85 4 625,000 18,089
19 92 5 500,000 19,095
20 98 6 500,000 20,079
21 103 7 750,000 21,098
22 109 9 250,000 22,046
23 118 11 500,000 23,030
24 132 15 000,000 23,923

Bảng D.2e – Những giới hạn băng tần tới hạn

Bảng này có giá trị đối với lớp II tại tần số lấy mẫu 44,1 kHz

Các tần số dưới đây đại diện cho cho đầu cuối của mỗi băng tần tới hạn

Số TT Thông số của bảng F&CB Tần số [Hz] Bark [z]
0 1   43,066 0,425
1 2   86,133 0,850
2 3   129,199 1,273
3 5   215,332 2,112
4 7   301,465 2,934
5 10   430,664 4,124
6 13   559,863 5,249
7 16   689,063 6,301
8 19   818,262 7,274
9 22   947,461 8,169
10 26 1 119,727 9,244
11 30 1 291,995 10,195
12 35 1 507,324 11,232
13 40 1 722,656 12,125
14 46 1 981,055 13,042
15 51 2  325,586 14,062
16 56 2  756,250 15,100
17 62 3  273,047 16,11
18 69 3  875,977 17,079
19 74 4  478,906 17,904
20 79 5  340,234 18,922
21 85 6  373,828 19,963
22 92 7  579,688 20,971
23 99 9  302,344 22,074
24 105 11  369,531 22,984
25 117 15  503,906 24,013
26 130 19 982,813 24,573

Bảng D.2f – Những giới hạn băng tần tới hạn

Bảng dưới đây là giá trị cho tần số lấy mẫu của lớp II ở tần số 48 kHz

Các tần số dưới đây đại diện cho cho đầu cuối của mỗi băng tần tới hạn

Số TT Thông số của bảng F& CB Tần số [Hz] Bark [z]
0 1   46,875 0,463
1 2   93,750 0,925
2 3   140,625 1,385
3 5   234,375 2,295
4 7   328,125 3,184
5 9   421,875 4,045
6 12   562,500 5,272
7 14   656,250 6,041
8 17   796,875 7,119
9 20   937,500 8,103
10 24 1 125,000 9,275
11 27 1 265,625 10,057
12 32 1 500,000 11,199
13 37 1 734,375 12,170
14 42 1 968,750 13,002
15 49 2 343,750 14,111
16 53 2 718,750 15,018
17 59 3 281,250 16,124
18 65 3 843,750 17,032
19 73 4 687,500 18,166
20 77 5 437,500 19,028
21 82 6 375,000 19,964
22 89 7 687,500 21,052
23 97 9 375,000 22,113
24 103 11 625,000 23,072
25 113 15 375,000 23,991
26 126 20 250,000 24,597

D.2.  Mô hình tâm thính học 2

D.2.1.  Giới thiệu

Mô hình tâm thính học 2 là một mô hình tâm thính học độc lập có thể điều chỉnh và thích nghi với bất kỳ lớp ISO / IEC 11172-3 nào. Phụ lục này trình bày mô hình tâm thính tổng thể 2 và cung cấp đầy đủ thông tin để thực hiện Mô hình 2 với Lớp I và II. Mô hình tâm thính học Lớp III dựa trên việc thực hiện này, với sự thích nghi được mô tả trong bộ mã hóa lớp III.

Quá trình tạo ngưỡng có ba đầu vào:

  1. a) Độ dài thay đổi cho quá trình tính ngưỡng, iblen, trong đó 384 <iblen <640. iblen này phải không đổi trong bất kỳ ứng dụng cụ thể nào của quá trình tính ngưỡng. Nếu (như trong lớp III, nó là cần thiết để tính toán ngưỡng cho hai độ dài thay đổi khác nhau, hai quá trình, mỗi chiều dài chạy với chiều dài dịch chuyển cố định, sẽ là cần thiết. Trong trường hợp của người iblen nằm bên ngoài phạm vi 384 – 640 có thể cần thiết để tính các ngưỡng tâm thính với chiều dài cửa sổ khác nhau cũng như chiều dài thay đổi. Có hai cách để làm việc này:

– Sử dụng một chuyển đổi chiều dài khác nhau, và tính toán lại các hệ số khởi động cho mô hình, hoặc

– Sử dụng cùng một chiều dài biến đổi, nhưng một cửa sổ Hann ngắn hơn đáng kể, phù hợp với dữ liệu và vấn đề trong tầm tay.

Sự lựa chọn của những điều này là để cho việc thực hiện.

  1. b) Các mẫu iblen mới nhất của tín hiệu, với các mẫu bị trễ (trong giàn bộ lọc hoặc tính toán mô hình tâm thính học) đẻ cửa sổ tính toán mô hình tâm thính học được tập trung vào cửa sổ thời gian của ứng dụng.
  2. c) Tốc độ lấy mẫu. Là tập hợp các bảng cung cấp cho các tốc độ lấy mẫu tiêu chuẩn. Tốc độ lấy mẫu, giống như iblen, nhất thiết phải không đổi trong quá trình thực hiện quy trình tính ngưỡng.

Có một sản phẩm từ mô hình tâm thính học 2, một tập hợp các tỷ số tín hiệu- Mặt nạ, SMRn được điều chỉnh cho các lớp như mô tả dưới đây.

Trước khi chạy mô hình ban đầu, mảng được sử dụng để giữ cửa sổ dữ liệu FFT trước và các mảng được sử dụng để giữ r và f bằng 0 (zeroed) để cung cấp một điểm khởi đầu đã biết.

Trong lớp II. các tỷ lệ mặt nạ mô hình tâm thính học phải được tính toán hai lần trong mỗi khung mã hoá. Càng nghiêm ngặt của mỗi cặp tỉ số được sử dụng cho phân bổ bít như được mô tả trong mô hình mô phỏng phần mềm cho lớp I và II với mõ hình tâm thính học 2.

D.2.2  Nhận xét về ký hiệu

Trong suốt quá trình tính ngưỡng, ba chỉ số cho các giá trị dữ liệu được sử dụng. Đó là:

ώ – chỉ ra rằng tính toán được lập chỉ mục theo tần số trong miền dòng trải phổ FFT. Chỉ số 1 tương ứng với DC và chỉ số 513 tương ứng với đòng trải phổ ở tần số Nyquist.

b – chỉ ra rằng phép tính được lập chỉ mục trong miền phân vùng tính ngưỡng. Trong trường hợp tính toán bao gồm một tích chập hoặc tổng trong miền phân vùng tính ngưỡng, bb sẽ được sử dụng làm biến tổng. Số phân vùng bắt đầu từ 1.

n – chỉ ra rằng tính toán được lập chỉ mục trong miền phân bổ bộ mã hóa bít (hoặc codebook). Chỉ số 1 tương ứng với băng tần thấp nhất trong giàn bộ lọc băng tần con.

D.2.3  Chức năng “lan truyền”

Một số điểm trong mô tả sau đây tham khảo “chức năng lan truyền”. Nó được tính theo phương pháp sau:

tmpx = 1,05 (j-i),

Trường hợp i là giá trị của Bark của tín hiệu được lan truyền, j là giá trị Bark của dải được lan truyền vào, và tmpx là một biến theo thời gian.

x = 8 minium((tmpx-0,5)2 – 2 (tmpx-0,5) .0)

Trong đó x là một biến theo thời gian, và hàm tối thiểu (a, b) là một hàm trả về tiêu cực của a hoặc b.

tmpy = 15.811389 + 7,5 {tmpx +0.474) -17,5 (1,0+ (tmpx + 0,474)2)0’5

Ở đây tmpy là một biến theo thời gian khác.

D.2.4  Các bước tính ngưỡng

Các bước sau đây cần thiết để tính SMRn được sử dụng trong bộ mã hóa.

  1. a) Tái cấu trúc 1024 mẫu của tín hiệu đầu vào.

Các mẫu mới của iblen được cung cấp ở mọi cuộc gọi đến bộ tạo ngưỡng. Bộ tạo ngưỡng phải lưu trữ các mẫu 1024-iblen, và nối các mẫu đó để tái tạo chính xác 1024 mẫu liên tiếp của tín hiệu đầu vào, Si trong đó i trình diễn cho chỉ số,

1 <= i <= 1024 dòng đầu vào hiện tại.

  1. b) Tính phổ phức tạp của tín hiệu đầu vào.

Đầu tiên. Si được cửa sổ hóa bởi cửa sổ Hann 1024,  Chú

ý rằng trong lớp III. một cửa sổ ngắn hơn có thể được sử dụng khi kích hoạt cửa sổ đang hoạt động, với trung tâm thích hợp của cửa sổ, theo mô tả bộ mã hoá lớp III.

Thứ hai, một tiêu chuẩn FFT chuyển tiếp của SWi được tính toán.

Thứ ba, biểu diễn cực của biến đổi được tính toán. rωfω, trình diễn cho độ lớn và các thành phần pha của ov chuyển đổi swi. tương ứng.

  1. c) Tính toán một dự đoán r và f.

Một dự đoán cường độ âm lượng ^rώ và pha ^fώ được tính toán từ hai ngưỡng tính toán trước khối r và f.

rω = 2,0rω(t-1)-rω(t-2)

rω=2,0fω(t-1)-fω(t-2)

trong đó t trình diễn cho số khối hiện tại, t-1 lập chỉ mục dữ liệu của khối dữ liệu trước và t-2 lập chỉ mục dữ liệu từ khối tính toán ngưỡng trước đó

  1. d) Tính biện pháp không thể dự đoán cω

cω phép đo không thể tiên đoán, là:

Bằng cách bỏ hiệu suất, (phép đo có thể được tính toán trên chỉ một phần dưới của (tần số nên được làm từ DC đến ít nhất 3 kHz và tốt hơn là đến 7kHz. Một giới hạn trên nhỏ hơn 5,5kHz có thể làm giảm đáng kể hiệu suất từ những kết quả đạt được trong quá trình kiểm tra chủ quan của thuật toán âm thanh Các giá trị cω trên giới hạn này nên được đặt là 0,3 Kết quả tốt nhất sẽ được tính bởi cω lên đến 20 kHz.

  1. e) Tính toán năng lượng và tính không thể dự đoán trong phân vùng tính ngưỡng.

Năng lượng trong mỗi phân vùng,eb là :

và trọng số không thể dự đoán, Cb là :

Các phân vùng tính ngưỡng cung cấp độ phân giải xấp xỉ hoặc là một dòng FFT hoặc là 1/3 băng tần tới hạn, tùy theo cái nào rộng hơn. Ở tần số thấp, một dòng đơn lẻ FFT sẽ tạo thành một phân vùng tính toán, ở tần số cao, nhiều dòng sẽ được kết hợp thành một phân vùng tính toán. Một tập hợp các giá trị phân vùng được cung cấp cho mỗi ba tốc độ lấy mẫu trong bảng D.3 “Tính toán các bảng phân vùng”. Các phần tử của bảng sẽ được sử dụng trong quá trình tính ngưỡng, có một vài yếu tố trong mỗi mục trong bảng:

  1. Chỉ số của phân vùng tính toán, b.
  2. Dòng tần số thấp nhất trong phân vùng ωlowb
  3. Dòng tần số cao nhất trong phân vùng, ωhighb
  4. Giá trị bark trung bình của phân vùng, bvalb
  5. Một giới hạn dưới cho SNR trong phân vùng kiểm soát hiệu ứng bỏ mặt nạ lập thể minbvalb
  6. Giá trị cho âm mật nạ tiếng ồn (tính bằng dB) cho phân vùng đó. TMNb.

Một giá trị lớn nhất của b, bmax, bằng với chỉ số lớn nhất, tồn tại cho mỗi tốc độ lấy mẫu.

  1. f) Tích hợp năng lượng phản chia và tính không thể dự dự đoán được với chức năng lan truyền.

Bởi vì ctb là trọng số bằng năng lượng tín hiệu, nó phải được tái bình thường hóa thành cbb

Tại cùng một thời điểm, do bản chất không được bình thường hoá của chức năng lan truyền, ecbb nên năng lượng bình thường enb được tính toán.

enb = ecbb * rnormb

Hệ số bình thường, rnormb là:

  1. g) Chuyển đổi cbb sang tbb, chỉ s âm sắc.

tbb = -0,229 – 0,43 loge (cbb)

Mỗi tbb được giới hạn trong phạm vi 0 < tbb <1.

  1. h) Tính SNR yêu cầu trong mỗi phân vùng.

NMTb =5,5dB cho tất cả b. NMTb là giá trị cho âm mặt nạ tiếng ồn (tính bằng dB) cho phân vùng. Tín hiệu cần thiết đối với tỷ lệ tiếng ồn SNRb . Là:

SNRb = maximum(min valb, tbb * TMNb + (1 – tbbb) * NMTb)

Ở đây (a, b) cực đại là một hàm trả về giá trị âm thấp nhất của a hoặc b.

  1. i) Tính tỷ số công suất.

Tỷ số công suất, bcb, là:

  1. j) Tính ngưỡng thực tế nbb

nbb = enbbcb

  1. k) Phát tán năng lượng ngưỡng qua các dòng FFT, nbω
  2. l) Bao gồm ngưỡng tuyệt đối, mang lại ngưỡng năng lượng cuối cùng của khả năng nghe thrω

thrω = max (nbωabsthrω)

Các giá trị dB của absthr thể hiện trong bảng D.4. “Bảng ngưỡng tuyệt đối” tương đối so với mức sóng sin ± 1/2sb có trong FFT được sử dụng để tính ngưỡng. Giá trị dB phải được chuyển đổi thảnh miền năng lượng sau khi xem xét việc sử dụng quy chuẩn thực tế FFT.

  1. m) Kiểm soát tiếng vọng trước

Đối với lớp III. kiểm soát tiếng vọng trước xảy ra vào điểm này. Kiểm soát thực tế được mô tả như là một phần của đặc tả kỹ thuật mã hóa lớp III. Bước này bị bỏ qua đối với Lớp I và II.

  1. n) Tính các tỷ số tín hiệu-mặt nạ. SMR n .

Bảng D.5. ‘bảng phân vùng bộ mã hóa lớp I và II’ ‘cho thấy:

  1. Chỉ mục, n, của phân vùng bộ mã hóa.
  2. Chỉ số dưới ωlown, của phân vùng bộ mã hóa.
  3. Chỉ số trên ωhighn của phân vùng bộ mã hóa.
  4. Chỉ số chiều rộng, widthn, trong đó widthn =1 cho một băng tần hệ số tỷ lệ mô hình tâm thính hẹp, và chiều rộng n = 0 cho một băng tần hệ số tỷ lệ mô hình tâm thính rộng. Một tỷ lệ hệ số tỷ lệ mô hình tâm thính hẹp là một trong những tỷ lệ hệ số tỷ lệmô hình tâm thính trong phạm vi có chiều rộng là nhỏ hơn xấp xỉ 1/3 băng tần tới hạn.

Năng lượng trong băng tần hệ số tỷ lệ. epartn. Là:

Sau đó, nếu (widthn =1), mức tiếng ồn trong dải tần số npartn được tính như sau:

Hoặc,

Ở đây, trong trường hợp này, (a ……… z) tối thiểu là một hàm trả về đối số nhỏ nhất của đối số a…z.

Các tỷ số được gửi đến bộ mã hóa, SMRn, được tính như sau:

Bảng D.3a – Bảng tính toán phân vùng

Bảng này có giá trị ở tốc độ lấy mẫu tần số 32 kHz

Chỉ số ωlow ωhigh bval minval TMN
1 1 1 0,00 0,0 24,5
2 2 4 0,63 0,0 24,5
3 5 7 1,56 20,0 24,5
4 8 10 2,50 20,0 24,5
5 11 13 3,44 20,0 24,5
6 14 16 4,34 20,0 24,5
7 17 19 5,17 20,0 24,5
8 20 22 5,94 20,0 24,5
9 23 25 6,63 17,0 24,5
10 26 28 7,28 15,0 24,5
11 29 31 7,90 15,0 24,5
12 32 34 8,50 10,0 24,5
13 35 37 9,06 7,0 24,5
14 38 41 9,65 7,0 24,5
15 42 45 10,28 4,4 24,8
16 46 49 10,87 4,4 25,4
17 50 53 11,41 4,5 25,9
18 54 57 11,92 4,5 26,4
19 58 61 12,39 4,5 26,9
20 62 65 1283 4,5 27,3
21 66 70 13,29 4,5 27,8
22 71 75 13,78 4,5 28,3
23 76 81 14,227 4,5 28,8
24 82 87 14,76 4,5 259,3
25 88 93 15,22 4,5 29,7
26 94 99 15,63 4,5 30,1
27 100 106 16,06 4,5 30,6
28 107 113 16,47 4,5 31,0
29 114 120 16,86 4,5 31,4
30 121 129 17,25 4,5 31,8
31 130 138 17,65 4,5 32,2
32 139 148 17,05 4,5 32,5
33 149 159 18,42 4,5 32,9
34 160 170 18,81 4,5 33,3
35 171 183 19,18 4,5 33,7
36 184 196 19,55 4,5 34,1
37 197 210 19,93 4,5 34,4
38 211 225 20,29 4,5 34,8
39 226 240 20,65 4,5 35,2
40 241 258 21,02 4,5 35,5
41 259 279 21,38 4,5 35,9
42 280 300 21,74 4,5 36,2
43 301 326 22,10 4,5 36,6
44 327 354 22,44 4,5 36,9
45 355 382 22,79 4,5 37,3
46 383 420 23,14 4,5 37,6
47 421 458 23,49 4,5 38,0
48 459 496 23,83 4,5 38,3
49 497 513 24,07 4,5 38,6

Bảng D.3b – Bảng tính toán phân vùng

Bảng này có giá trị ở tốc độ lấy mẫu tần số 44,1 kHz

Chỉ số ωlow ωhigh bval minval TMN
1 1 1 0,00 0,0 24,5
2 2 2 0,43 0,0 24,5
3 3 3 0,86 0,0 24,5
4 4 4 1,29 20,0 24,5
5 5 5 1,72 20,0 24,5
6 6 6 2,15 20,0 24,5
7 7 7 2,58 20,0 24,5
8 8 8 3,01 20,0 24,5
9 9 9 3,45 20,0 24,5
10 10 10 3,88 20,0 24,5
11 11 11 4,28 20,0 24,5
12 12 12 4,67 20,0 24,5
13 13 13 5,06 20,0 24,5
14 14 14 5,42 20,0 24,5
15 15 15 5,77 20,0 24,5
16 16 16 6,11 17,0 24,5
17 17 19 6,73 17,0 24,5
18 20 22 7,61 15,0 24,5
19 23 25 8,44 10,0 24,5
20 26 28 9,21 7,0 24,5
21 29 31 9,88 7,0 24,5
22 32 34 10,51 4,4 25,0
23 35 37 11,11 4,5 25,6
24 38 40 11,65 4,5 26,2
25 41 44 12,24 4,5 26,7
26 45 48 12,85 4,5 27,4
27 49 52 13,41 4,5 27,9
28 53 56 13,94 4,5 28,4
29 57 60 14,42 4,5 28,9
30 61 64 14,86 4,5 29,4
31 65 69 15,32 4,5 29,8
32 70 74 15,79 4,5 30,3
33. 75 80 16,26 4,5 30,8
34 81 86 16,73 4,5 31,2
35 87 93 17,19 4,5 31,7
36 94 100 17,62 4,5 32,1
37 101 108 18,05 4,5 32,5
38 109 116 18,45 4,5 32,9
39 117 124 18,83 4,5 33,3
40 125 134 19,21 4,5 33,7
41 135 144 19,60 4,5 34,1
42 145 155 20,00 4,5 34,5
43 156 166 20,38 4,5 34,9
44 167 177 20,74 4,5 35,2
45 178 192 21,12 4,5 35,6
46 193 207 21,48 4,5 36,0
47 208 222 21,84 4,5 36,3
48 223 243 22,20 4,5 36,7
49 244 264 22,56 4,5 37,1
50 265 286 22,91 4,5 37,4
51 287 314 23,26 4,5 37,8
52 315 342 23,60 4,5 38,1
53 343 371 23,95 4,5 38,4
54 372 401 24,30 4,5 38,8
55 402 431 24,65 4,5 39,1
56 432 469 25,00 4,5 39,5
57 470 513 25,33 3,5 39,8

Bảng D.3c – Bảng tính toán phân vùng

Bảng này có giá trị ở tốc độ lấy mẫu tần số 48 kHz

Chỉ số ωlow ωhigh bval minval TMN
1 1 1 0,00 0,0 24,5
2 2 2 0,47 0,0 24,5
3 3 3 0,94 0,0 24,5
4 4 4 1,41 20,0 24,5
5 5 5 1,88 20,0 24,5
6 6 6 2,34 20,0 24,5
7 7 7 2,81 20,0 24,5
8 8 8 3,28 20,0 24,5
9 9 9 3,75 20,0 24,5
10 10 10 4,20 20,0 24,5
11 11 11 4,63 20,0 24,5
12 12 12 5,05 20,0 24,5
13 13 13 5,44 20,0 24,5
14 14 14 5,83 20,0 24,5
15 15 15 6,19 20,0 24,5
16 16 16 6,52 17,0 24,5
17 17 17 6,86 17,0 24,5
18 18 0 7,49 15,0 24,5
19 21 23 8,40 10,0 24,5
20 24 26 9,24 7,0 24,5
21 27 29 9,97 7,0 24,5
22 30 32 10,65 4,4 25,1
23 33 35 11,28 4,5 25,8
24 36 38 11,86 4,5 26,4
25 39 41 12,39 4,5 26,9
26 42 45 12,96 4,5 27,5
27 46 49 13,56 4,5 28,1
28 50 53 14,12 4,5 28,6
29 54 57 14,62 4,5 29,1
30 58 62 15,14 4,5 29,6
31 63 67 15,67 4,5 30,2
32 68 72 16,15 4,5 30,7
33 73 77 16,58 4,5 31,1
34 78 83 17,02 4,5 31,5
35 84 89 17,44 4,5 31,9
36 90 95 17,84 4,5 32,3
37 96 103 18,24 4,5 32,7
38 104 111 18,66 4,5 33,2
39 112 120 19,07 4,5 33,6
40 121 129 19,47 4,5 34,0
41 130 138 19,85 4,5 34,3
42 139 149 20,23 4,5 34,7
43 150 160 20,63 4,5 35,1
44 161 173 21,02 4,5 35,5
45 174 187 21,40 4,5 35,9
46 188 201 21,76 4,5 36,3
47 202 219 22,12 4,5 36,3
48 220 238 22,47 4,5 37,0
49 239 257 22,83 4,5 37,3
50 258 283 23,18 4,5 37,7
51 284 309 23,53 4,5 38,0
52 310 335 23,88 4,5 38,4
53 336 363 24,23 4,5 38,7
54 364 391 24,58 4,5 39,1
55 392 423 24,93 4,5 39,4
56 424 465 25,2:7 4,5 39,8
57 466 507 25,61 4,5 40,1
58 508 513 25,81 3,5 40,3

Bảng D.4a – Bảng ngưỡng tuyệt đối

Bảng này có giá trị tốc độ lấy mẫu tần số 32 kHz

Giá trị 0 dB thể hiện mức ngưỡng tuyệt đối 96 dB dưới mức năng lượng của một sóng sin biên độ ± 32 760

Ch số [line] absthr
lower higher [dB]
1 1 58,23
2 2 33,44
3 3 24,17
4 4 19,2
5 5 16,05
6 6 13,87
7 7 12,26
8 8 11,01
9 9 10,01
10 10 9,2
11 11 8,52
12 12 7,94
13 13 7,44
14 14 7
15 15 6,62
16 16 6,28
17 17 597
18 18 5,7
19 19 5,44
20 20 5,21
21 21 5
22 22 4,8
23 23 4,62
24 24 4,45
25 25 4,29
26 26 4,14
27 27 4
28 28 3,86
29 29 3,73
30 30 3,61
31 31 3,49
32 32 3,37
33 33 326
34 34 3 15
35 35 3,04
36 36 2,93
37 37 2,83
38 38 2,73
39 39 2,63
40 40 2,53
41 41 2,42
42 42 2,32
43 43 2,22
44 44 2,12
45 45 2,02
46 46 1,92
47 47 1,81
48 48 1,71
49 50 1,49
51 52 1,27
53 54 1,04
55 56 0,8
57 57 0,55
59 60 0,29
61 62 0,02
63 64 -0,25
65 66 -0,54
67 68 -0,83
69 70 -1,12
71 72 -1,43
73 74 -1,73
75 76 -2,04
77 78 -2,34
79 80 -2,64
81 82 -2,93
83 84 -3,22
85 86 -3,49
87 88 -3,74
89 90 -3,98
91 92 -4,2
93 94 -4,4
95 96 -4,57
97 100 -4,82
101 104 -4,96
105 108 -4,97
109 112 -4,86
113 116 -4,63
117 120 -4,29
121 142 -3 87
125 128 -3,39
129 132 -3,86
13 136 -2,31
137 140 -1,77
141 144 -1,24
145 148 -0,74
149 152 -0,29
153 156 0,12
157 160 0,48
161 164 0,79
165 168 1 06
169 172 1,29
173 176 1,49
177 180 1,66
181 184 1,81
185 188 1,95
189 192 2,08
193 200 2,33
201 208 2,59
209 216 2,86
217 224 3,17
225 232 3,51
233 240 3,89
241 248 4,31
249 256 4 79
257 264 5,31
265 272 5,88
273 280 6,5
281 288 7,19
289 296 7,93
297 304 8,75
305 312 9,63
313 320 10,58
321 328 11,6
329 336 12,71
337 344 13,9
345 352 15,18
353 360 16,54
361 368 18,01
369 376 19,57
377 384 21,23
385 392 23,01
393 400 25,9
401 408- 26,9
409 416 29,03
417 424 31,28
425 432 33,67
433 440 36,19
441 448 38 86
449 456 41,67
457 464 44,63
465 472 47,76
473 480 51,03

Bảng D.4b – Bảng ngưỡng tuyệt đối

Bảng này có giá trị ở tốc độ lấy mẫu tần số 44,1 kHz

Giá trị 0 dB thể hiện mức ngưỡng tuyệt đối 96 dB dưới mức năng lượng của một sóng sin biên độ +-32 760

Chỉ số [line] absthr
lower higher [dB]
1 1 45,05
2 2 25,87
3 3 18,7
4 4 14,85
5 5 12,41
6 6 10,72
7 7 9,47
8 8 8,5
9 9 7,73
10 10 7,1
11 11 6 56
12 12 6,11
13 13 5,72
14 14 5 37
15 15 5,07
16 16 4 79
17 17 4,55
18 18 4,32
19 19 4,11
20 20 3,92
21 21 374
22 22 3,57
23 23 3,4
24 24 3,25
25 25 3,1
26 26 2,94
27 27 2,81
28 28 2,67
29 29 2,53
30 30 2,39
31 31 2,25
32 32 2,11
33 33 1,97
34 34 1,83
35 35 1,68
36 36 1,53
37 37 1,38
38 38 1,23
39 39 1,07
40 40 0,9
41 41 0,74
42 42 0,56
43 43 0,39
44 44 0,21
45 45 0,02
46 46 -0,17
47 47 -0,36
48 48 -0,56
49 50 -0,96
51 52 -1,37
53 54 -1,79
55 56 -2,21
57 57 -2,63
59 60 -3,03
61 62 -3,41
63 64 -3,77
65 66 -4,09
67 68 -4,37
69 70 -4,6
71 72 -4,78
73 74 -4,91
75 76 -4,97
77 78 -4,98
79 80 -4,92
81 82 -4,81
83 84 -4,65
85 86 -4,43
87 88 -4,17
89 90 -3,87
91 92 -3,54
93 94 -3,19
95 96 -2,82
97 100 -2,06
101 104 -1,33
105 108 -0,64
109 112 -0,04
113 116 -0,47
117 120 -0,89
121 142 -1,23
125 128 -1,51
129 132 -1,74
13 136 -1,93
137 140 -2,11
141 144 -2,28
145 148 -2,45
149 152 -2,63
153 156 -2,82
157 160 -3,03
161 164 -3,25
165 168 -3,49
169 172 -3,74
173 176 -4,02
177 180 -4,32
181 184 -4,64
185 188 4,98
189 192 5,35
193 200 6,15
201 208 7,07
209 216 8,1
217 224 9,25
225 232 10,54
233 240 11,97
241 248 13,56
249 256 15,3
257 264 17,23
265 272 19,33
273 280 21,64
281 288 24,15
289 296 26,88
297 304 29,84
305 312 33,04
313 320 36,51
321 328 40,24
329 336 44,26
337 344 48,58
345 352 53,21
353 360 58,17
361 368 63,48
369 376 69,13
377 384 69,13
385 392 69,13
393 400 69,13
401 408 69,13
409 416 69,13
417 424 69,13
425 432 69,13
433 440 69,13
441 448 69,13
449 456 69,13
457 464 69,13

Bảng D.4c – Bảng ngưỡng tuyệt đối

Bảng này có giá trị ở tốc độ lấy mẫu tần số 44,1 kHz

Giá trị 0 dB thể hiện mức ngưỡng tuyệt đối 96 dB dưới mức năng lượng của một sóng sin biên độ+-32 760

Chỉ số [line] absthr
lower higher [dB]
1 1 42,10
2 2 24,17
3 3 17,47
4 4 13,87
5 5 11,60
6 6 10,01
7 7 8,84
8 8 7,94
9 9 7,22
10 10 6,62
11 11 6,12
12 12 5,70
13 13 5,33
14 14 5,00
15 15 4,71
16 16 4,45
17 17 4,21
18 18 4,00
19 19 3,79
20 20 3,61
21 21 3,63
22 22 3,26
23 23 3,09
24 24 2,93
25 25 2,78
26 26 2,63
27 27 2,47
28 28 2,32
29 29 2,17
30 30 2,02
31 31 1,86
32 32 1,71
33 33 1,55
34 34 1,38
35 35 1,21
36 36 1,04
37 37 0,86
38 38 0,67
39 39 0,49
40 40 0,29
41 41 0,09
42 42 -0,11
43 43 -0,32
44 44 -0,54
45 45 -0,75
46 46 -0,97
47 47 -1,20
48 48 -1,43
49 50 -1,88
51 52 -2,34
53 54 -2,79
55 56 -3 22
57 58 -3,62
59 60 -3,98
61 62 -4,3
63 64 -4,57
65 66 -4,77
67 68 -4,91
69 70 -4,98
71 72 -4,97
73 74 -4,9
75 76 -4,76
77 78 -4,55
79 80 -4,29
81 82 -3,99
83 84 -3,64
85 86 -3,26
87 88 -2,86
89 90 -2,45
91 92 -2,04
93 94 -1,63
95 96 -1,24
97 100 -0,51
101 104 0,12
105 108 0,64
109 112 1,06
113 116 1,39
117 120 1,66
121 124 1,88
125 128 2,08
129 132 2,27
133 136 2,46
137 140 2,65
141 144 2,86
145 148 3,09
149 152 3,33
153 156 3,6
157 160 3,89
161 164 4,2
165 168 4,54
169 172 4,91
173 176 5,31
177 180 5,73
181 184 6,18
185 188 6,67
189 192 7,19
193 200 8,33
201 208 9,63
209 216 11,08
217 224 12,71
225 232 14,53
233 240 16,54
241 248 18,77
249 256 21,23
257 264 23,94
265 272 26,90
273 280 30,14
281 288 33,67
289 296 37,51
297 304 41,67
305 312 46,17
313 320 51,04
321 328 56,29
329 332 61,94
333 340 68,00
341 348 68,00
349 356 68,00
357 364 68,00
365 372 68,00
373 380 68,00
381 388 68,00
389 396 68,00
397 404 68,00
405 412 68,00
413 420 68,00
421 428 68,00

Bảng D.5 – Bảng mã hoá phân vùng lớp I và II

Chỉ số ω lown+1

ω highn

Widthn
0 1 0
1 17 0
2 33 0
3 49 0
4 65 0
5 81 0
6 97 0
7 113 0
8 129 0
9 145 0
10 161 0
11 177 0
12 193 0
13 209 1
14 225 1
15 241 1
16 257 1
17 273 1
18 289 1
19 305 1
20 321 1
21 337 1
22 353 1
23 369 1
24 385 1
25 401 1
26 417 1
27 433 1
28 449 1
29 465 1
30 481 1
31 497 1
32 513 1

 

Phụ lục E

(Tham khảo)

Độ nhạy bít với lỗi

E.1  Tổng quan

Phần phụ lục chỉ ra độ nhạy của từng bít riêng biệt nếu ứng dụng lỗi cụ thể để bảo vệ là cần thiết. Độ nhạy của từng bít được gán với các giá trị từ 0 đến 5, chỉ ra mức độ xuống thấp bởi một trong những lỗi riêng biệt sau:

Phụ lục này chỉ ra độ nhạy của các bít riêng biệt đối với các lỗi ngẫu nhiên nếu ứng dụng lỗi cụ thể để bảo vệ là cần thiết. Độ nhạy của từng bít được gán với các giá trị từ 0 đến 5, cho thấy mức độ suy giảm từ một lỗi bị cô lập:

5  kinh khủng

4  rất khó chịu

3  khó chịu

2  nghe được

1  có thể nghe thấy

0  không nghe được

Các giá trị không phải là kết quả của phép đo chính xác, thay vì dựa vào mức độ nhận biết của bộ mã hoá-giải mã. Chúng giả định là không sử dụng lược đồ phát hiện lỗi.

Đối với tất cả các lớp, thông tin tiêu đề và kiểm tra lỗi được định nghĩa trong 2.3.1.3 và 2.4.1.4 được xem là có độ nhạy cao nhất.

E.2 Lớp I và II

Tham số Bit Độ nhạy
Phân phối bít Tất các bit 5
Hệ số tỷ lệ chọn thông tin Tất các bit 5
Hệ số tỷ lệ 5 (msb) 4
  4 4
  3 4
  2 3
  1 2
  0 (Isb) 1
Các mẫu băng tần con (*) 8-16 (msb) 3
  5-7 2
  3-4 1
  (Isb) 0-2 0

(*) theo phân phối bit

E.3 Lớp III

Tham số # Bit Độ nhạy
Scfsi Tất các bit 5
Part2_3_length Tất các bit 4
Big_values Tất các bit 3
Global_gain Tất các bit 5
Scalefac_compress Tất các bit 5
Window_switching_flag 0 5
Block_type Tất các bit 4
Mixed_block_flag 0 4
Table_select Tất các bit 5
Region0_count Tất các bít 3
Region1_count Tất các bit 3
Preflag 0 2
Scalefac_scale 0 2
Count1table_select 0 3
Subblock_gain 2 (msb) 4
  1 3
  0 (Isb) 2
Scale_fac(**) 3 (msb) 3(2)
  2 3(2)
  1 2(1)
  0 (Isb) 2(1)
Huffmancodebits()(***) 0…n-1 3-0

(**) chiều dài hệ số tỷ lệ phụ thuộc vào scalefac_compress.

Các giá trị có độ nhạy bít tham chiếu đến giá trị 1 scalefac_scale (Nếu giá trị 0 nằm trong dấu ngoặc đơn).

(***) Nếu n là số bít cho mã hóa Huffinan trong một khối thì độ nhạy bít giảm tuyến tính từ 3 xuống 0 khi số bít thay đổi từ 0 đến n (Từ tần số thấp đến tần số cao).

CHÚ THÍCH:

Sắp xếp lại các giá trị mã hóa Huffman:

Để có được hiệu suất lỗi rõ ràng tốt hơn cho tần số quét thấp của phổ các giá trị được mã hóa Huffman có thể được truyền không theo thứ tự hợp lý của chúng, nhưng theo cách thức xen kẽ nhau.

Nếu max_hlen là độ dài tối đa của một từ mã Huffman trên các bảng được sử dụng để mã hoá khối cụ thể và n là số bít được sử dụng cho dữ liệu mã hóa Huffman trong khối (không phải khung), sau đó int (n/max hlen) được lấp đầy với các từ mặ đầu tiên, bắt đầu từ tần số thấp. Các từ mã còn lại được điền vào vị trí còn lại, sắp xếp lại từ tần số thấp đến cao.

Sau bít xen kẽ, độ nhạy bít của bít k + i * int (n/maxhlen) giảm tuyến tính từ 3 xuống 0 vì k thay đổi từ 0 đến int (n/max_hlen) -1 trong đó i = 0,…., max hlen -7, và n là số lượng bít của mã hóa Huffman trong một khối.

Đây là cách thực hiện được đề nghị đối với dữ liệu Lớp III cho tất cả các kênh, ở đó có nhiều lỗi là rất quan trọng.

 

Phụ lục F

(Tham khảo)

Giấu lỗi

Một tính năng tùy chọn của mã hóa dòng bít là từ mã CRC cung cấp một vài phát hiện lỗi tới bộ giải mã; Khoảng cách Hamming của mã phát hiện lỗi này là d = 4, cho phép phát hiện tối đa 3 lỗi đơn bít hoặc để phát hiện một cụm lỗi có chiều dài lên đến 16 bit. Số lượng và vị trí của các bít được bảo vệ trong một khung âm thanh mã hoá thường phụ thuộc vào lớp, chế độ, tốc độ dữ liệu, và tần số lấy mẫu.

Điều này có thể được sử dụng để kiểm soát một thủ thuật giấu lỗi nhằm tránh những suy giảm nghiêm trọng của tín hiệu được dựng lại do lỗi trong các thông tin nhạy cảm nhất.

Một số kỹ thuật cơ bản có thể được sử dụng để giấu lỗi, ví dụ như thay thế thông tin, hoặc tắt tiếng. Một kỹ thuật thay thế đơn giản bao gồm, khi một khung được tìm thấy, thay thế nó bằng một cái cho trước (nếu không có lỗi).

 

Phụ lục G

(Tham khảo)

Mã hoá phối kết âm thanh nổi

G.1.  Mã hoá cường độ âm thanh nổi cho lớp I, II

Một phương pháp mã hóa âm thanh nổi được sử dụng trong lớp I và II là mã hóa cường độ âm thanh nổi. Mã hóa âm thanh cường độ cao có thể được sử dụng để tăng chất lượng âm thanh và/hoặc giảm tốc độ bít cho âm thanh nổi. Độ khuếch đại tốc độ bít đặc trưng là khoảng 10 đến 30 kbits/s. Bộ giả mã bổ sung có độ phức tạp không đáng kể, độ phức tạp của bộ mã hóa tăng lên không đáng kể. Độ trễ của bộ giải mã hóa và giả mã không bị ảnh hưởng.

Kết quả tâm thính chỉ ra ở tần số cao (khoảng trên 2 kHz) vị trí của hình ảnh lập thể trong một băng tần tới hạn được xác định bởi đường bao theo thời gian và không phải bởi cấu trúc độ nét theo thời gian của tín hiệu âm thanh. Ý tưởng cơ bản về mã hóa cường độ lập thể đối với một số băng tần con. thay vì truyền tín hiệu tuần tự các mẫu băng tần con, chỉ có tín hiệu tổng hợp được truyền đi, nhưng với các hệ số tỷ lệ cho cả kênh trái và phải, do đó giữ được hình ảnh âm thanh nổi.

Các lưu đồ của một bộ mã hóa và bộ giải mã lập thể, bao gồm chế độ cường độ lập thể, được cho thấy trong hình G.1. “lưu đồ mã hóa lập thể chung” và hình G.2 “lưu đồ giải mã lập thể chung”. Thứ nhất, một ước lượng tốc độ bít được thực hiện yêu cầu cho cả hai kênh trái và phải. Nếu tốc độ bít yêu cầu vượt quá tôc độ bít có thể, thì tốc độ bít yêu cầu có thể được giảm bằng cách đặt một số băng tần con vào chế độ intensity_stereo. Tùy thuộc vào tốc độ bít cần thiết, các băng tần con.

16 đến 31

12 đến 31

8 đến 31, hoặc

4 đến 31

có thể thiết lập chế độ intensity_stereo. Đối với việc định lượng các băng tần con kết hợp như vậy, mức phân bổ bít cao hơn cho kênh trái và phải được sử dụng.

Các tín hiệu băng tần con bên trái và bên phải của các băng tần con kết hợp chế độ lập thể được thêm vào. Các tín hiệu băng tần con mới này được chia tỷ lệ theo cách thông thường, nhưng hệ số tỷ lệ ban đầu được xác định của các tín hiệu băng tần con bên trái và bên phải được truyền theo cú pháp dòng bít. Lượng tử các mẫu băng tần con chung, mã hóa các mẫu phổ biến, và mã hóa phân bổ bít thông thường được thực hiện theo cách tương tự như trong mã hóa độc lập.

G.2.  MS_Stereo và mã hoá cường độ âm thanh nổi cho lớp III

Trong lớp III có thể kết hợp giữa chế độ ms_stereo và chế độ intensity_stereo.

  1. a) Chuyển đổi MS_stereo

Chế độ MS_stereo được bật lên nếu ở chế độ joint_stereo:

  1. b) Quá trình MS_stereo

– Ma trận MS

Trong chế độ MS_Stereo các giá trị bình thường giữa/rìa kênh Mi/Si được truyền đi thay vì giá trị kênh trái/phải Li/Si:

– Giới hạn của băng thông kênh Si

Tất cả các giá trị Si trên hệ số băng tần cao nhất được đặt là 0

– Dải kênh hẹp Si

Trên mỗi hệ số tỷ lệ băng tần sb, tất cả các cặp có giá trị nhỏ (Si,Si+1) được đặt là 0

if (Si 2 + Si+12) < Ssb * (Li2 + Li+12 + Ri2 + Ri+12) {

                       Si = 0; Si+1 = 0;

}

Các hệ số ngưỡng kênh khác nhau sau đây áp dụng cho các hệ số tỷ lệ băng tần cho kiểu khối !=2 (chuyển đổi MDCT dài):

Sb 0 1 2 3 4 5 6 7 8 9  
Ssb 0,0 0,0 0,0 0,0 0,0 0,10 0,10 0,10 0,10 0,10  

 

Sb 10 11 12 13 14 15 16 17 18 19 20
Ssb 0,10 0,20 0,30 0,40 0,50 0,60 0,70 0,80 0,90 1,00 1,50
  1. c) Xử lý cường độ âm thanh

– Tính toán vị trí cường độ âm thanh

Đối với mỗi hệ số băng tần con sb được mã hoá theo cường độ âm thanh, được thực hiện theo các bước sau:

– Li = Li + Ri cho tất cả các chỉ số i trong hệ số băng tần con sb thực tế

– Ri = 0 cho tất cả các chỉ số i trong thực tế hệ số băng tần con sb

– Vị trí cường độ âm thanh is_possb được truyền đi thay vì hệ số tỷ lệ của kênh phải (luôn luôn là 3 bít, vị trí cường độ âm thanh 0 … 6,7 = cường độ âm thanh không hợp lệ )

Trong đó L_Encrgysb/R_Encrgysb biểu thị năng lượng tín hiệu của kênh Trái/Phải trong hệ số tỷ lệ băng tần thực tế và Li/Ri là giá trị chuyển đổi

Các hệ số tỷ lệ băng tần của kênh phải/khác chỉ chứa số 0 sau khi mã hóa không thuộc phần cường độ mã hóa nên được gửi đi với thang hệ số 7 đề ngăn việc giải mã cường độ âm thanh.

Hình G.1 – Lưu đồ mã hóa âm thanh nổi

Hình G.2 – Lưu đồ giải mã âm thanh nổi

 

Phụ lục H

(Tham khảo)

Danh sách chủ sở hữu bằng sáng chế

Một số thông tin thêm có liên quan đến tiêu chuẩn 11172: I-10148 Torino
  Italy
AT&T  
32 Avenue of the Americas CompuSonics Corporation
New York PO Box 61017
NY 10013-2412 Palo Alto
USA CA 94306
  USA
Aware  
1 Memorial Drive Daimler Benz AG
Cambridge PO Box 800 230
02142 Massachusetts Epplestrasse 225
USA D-7000 Stuttgart 80
  Germany
Bellcore  
290 W Mount Pleasant Avenue Dornier Gmbh
Livingston An der Bundesstrasse 31
NJ 07039 D-7990 Friedrichshafenl
USA Germany
The Bristish Broadcasting Corporation Fraunhofer Gesselschaft zur Foerdening dcr
Broadcasting House Angerwandten Forschung e.V
London Leonrodstrasse 54
W1A 1AA 8000 Muenchen 19
United Kingdom Germany
   
Bristish Telecommunication pic Hitachi Ltd
Intellectual Property Unit 6 Kanda-Surugadai 4 chome
13th Floor Chiyoda-ku
151 Gower street Tokyo 101
London Japan
WC1E 6BA  
United Kingdom Institut for Rundfunktechnik Gmbh
CCETT FlorianmaiihlstraBe 60
4 Rue du Clos-Courtel 8000 Miinchen 45
BP 59 Germany
F-35512  
Cesson-Sevigne Cdex International Business Machines
France Corporation
  Armonk
CNET New York 10504
38-40 Rue du General Leclere USA
F-92131 Issy-les-Moulineaux  
France KDD Corporation
  2-3-2 Nishishinjuku
Compression Labs, Incorporated Shinjuku-ku
2860 Junction Avenue Tokyo
San Jose Japan
CA 95134  
USA Licentia Patent-Verwaltungs-Gmbh
  Theodor-Stem-Kai &
CSELT D-6000 Frankfurt 70
Via G Reiss Romoti 274 Germany
  Tokyo 141
Massachusetts Institute of Technology 20 Ames street Japan
Cambridge Symbionics
Massachusetts 02139 St John’s Innovation Centre
USA Cowley Road

Cambridge

Matsushita Electric Industial Co.Ltd CB4 4WS
1006 Oaza-Kadoma

Kadoma

United Kingdom
Osaka 571 Telefunken Fernseh und Rundfunk GmbH
Japan Gottinger Chaussee

D-3000 Hannover 91

Mitsubishi Electric Corporation

2-3 Marunouchi

Germany
2-Chome Thomson Consumer Electronics
Chiyoda-Ku 9, Place des Vosges
Tokyo La Defense 5
100 Japan 92400 Courbevoie

France

NEC Corporation

7-1 Shiba 5-Chome

Toppan Printing Co, Ltd
Minato-ku 1-5-1 Taito
Tokyo Taito-ku
Japan Tokyo 110

Japan

Nippon Hoso Kyokai

2-2-1 Jin-nan

Toshiba Corporation
Shibuya-ku 1-1 Shibaru 1-Chome
Tokyo 150-01 Minato-ku
Japan Tokyo 105

Japan

Philips Electronics NV

Groenewoudseweg 1

Victor Company of Japan Ltd
5621 BA Eindhoven 12 Moriya-cho 3 chome
The Netherlands Kannagawa-ku

Yokohama

Pioneer Electronic Corporation Kanagawa 221
4-1 Meguro 1-Chome

Meguro-ku

Tokyo 153

Japan

Japan
Ricoh Co, Ltd

1-3-6 Nakamagome

Ohta-ku

 
Tokyo 143

Japan

 
Schawartz Engineering & Design

15 Buckland Court

San Carlos, CA 94070

USA

 
Sony Corporation

6-7-35 Kitashinagawa

Shinagawa-ku

 

 

Thư mục tài liệu tham khảo

[1]  ISO/IEC 11172-3:1993 Information technology — Coding of moving pictures and associated audio for digital storage media at up to about 1,5 Mbrt/s – Part 3: Audio (Công nghệ thông tin – Mã hóa hình ảnh động và âm thanh kết hợp cho phương tiện lưu trữ số lên tới 1,5 Mbps – Phần 3: Âm thanh).

[2]   QCVN 64: 2012/BTTTT: Quy chuẩn kỹ thuật quốc gia về tín hiệu phát của truyền hình kỹ thuật số chuẩn DVB-T2.

[3]  QCVN 80:2014/BTTTT: Quy chuẩn kỹ thuật quốc gia về thiết bị thu tín hiệu truyền hình số vệ tinh DVB-S và DVB-S2.

[4]  ITU-TH.261 (02-2012): Đường truyền tín hiệu phi thoại – Mã hóa hình ảnh cho các dịch vụ nghe nhìn ở tốc độ 64 kbps.

 

 

TIÊU CHUẨN QUỐC GIA TCVN 12892-3:2020 (ISO/IEC 11172-3:1993/COR.1:1996) VỀ CÔNG NGHỆ THÔNG TIN – MÃ HÓA ẢNH HÌNH ẢNH ĐỘNG VÀ ÂM THANH KẾT HỢP CHO PHƯƠNG TIỆN LƯU TRỮ SỐ LÊN TỚI 1,5 MBIT/S – PHẦN 3: ÂM THANH
Số, ký hiệu văn bản TCVN12892-3:2020 Ngày hiệu lực
Loại văn bản Tiêu chuẩn Việt Nam Ngày đăng công báo
Lĩnh vực Giao dịch điện tử
Ngày ban hành 01/01/2020
Cơ quan ban hành Tình trạng Còn hiệu lực

Các văn bản liên kết

Văn bản được hướng dẫn Văn bản hướng dẫn
Văn bản được hợp nhất Văn bản hợp nhất
Văn bản bị sửa đổi, bổ sung Văn bản sửa đổi, bổ sung
Văn bản bị đính chính Văn bản đính chính
Văn bản bị thay thế Văn bản thay thế
Văn bản được dẫn chiếu Văn bản căn cứ

Tải văn bản