TIÊU CHUẨN QUỐC GIA TCVN 7981-5:2009 (ISO/TS 17369-5:2005) VỀ TRAO ĐỔI SIÊU DỮ LIỆU VÀ DỮ LIỆU THỐNG KÊ – PHẦN 5: HƯỚNG DẪN THỰC THI CÁC TIÊU CHUẨN ĐỊNH DẠNG SDMX
TCVN 7981-5:2009
ISO/TS 17369-5:2005
TRAO ĐỔI SIÊU DỮ LIỆU VÀ DỮ LIỆU THỐNG KÊ – PHẦN 5: HƯỚNG DẪN THỰC THI TIÊU CHUẨN ĐỊNH DẠNG SDMX
Statistical data and metadata exchange – Section 5: lmplementor’s guide for SDMX format standards
Lời nói đầu
TCVN 7981-5:2009 hoàn toàn tương đương với ISO 17369-5:2005
TCVN 7981-5:2009 do Ban Kỹ thuật Tiêu chuẩn quốc gia TCVN/TC 154 “Quá trình, các yếu tố dữ liệu và tài liệu trong thương mại, công nghiệp và hành chính” biên soạn, Tổng cục Tiêu chuẩn Đo lường Chất lượng đề nghị, Bộ Khoa học và Công nghệ công bố.
Bộ tiêu chuẩn TCVN 7981 (ISO 17369) gồm các phần sau:
– TCVN 7981-1:2008 (ISO/TS 17369-1:2005); Phần 1: Khung tổng quát về các tiêu chuẩn SDMX.
– TCVN 7981-2:2008 (ISO/TS 17369-2:2005); Phần 2: Mô hình thông tin: Thiết kế khái niệm UML.
– TCVN 7981-3:2009 (ISO/TS 17369-3:2005); Phần 3: Lược đồ và tài liệu SDMX-ML.
– TCVN 7981-4:2009 (ISO/TS 17369-4:2005); Phần 4: Cú pháp và tài liệu SDMX-EDI.
– TCVN 7981-5:2009 (ISO/TS 17369-5:2005); Phần 5: Hướng dẫn thực thi tiêu chuẩn định dạng SDMX.
– TCVN 7981-6:2009 (ISO/TS 17369-6:2005); Phần 6: Hướng dẫn SDMX để sử dụng các dịch vụ web.
TRAO ĐỔI SIÊU DỮ LIỆU VÀ DỮ LIỆU THỐNG KÊ – PHẦN 5: HƯỚNG DẪN THỰC THI TIÊU CHUẨN ĐỊNH DẠNG SDMX
Statistical data and metadata exchange – Section 5: lmplementor’s guide for SDMX format standards
1. Giới thiệu
Tiêu chuẩn này cung cấp thông tin về các tiêu chuẩn định dạng SDMX (SDMX-ML và SDMX-EDI) cho người thực thi và đưa ra thông tin giúp người sử dụng SDMX hiểu và thực thi các tiêu chuẩn định dạng SDMX. Tiêu chuẩn này mang tính tham khảo, không đưa ra bất kỳ quy tắc nào để sử dụng các tiêu chuẩn định dạng SDMX như đã quy định trong tiêu chuẩn TCVN 7981-3:2009; Lược đồ và tài liệu SDMX-ML và tiêu chuẩn TCVN 7981-4:2009; Cú pháp và tài liệu SDMX-EDI.
Tiêu chuẩn này được chia thành các phần sau:
Hướng dẫn về mô hình thông tin SDMX.
Trình bày các khác biệt về tính năng được hỗ trợ bởi các định dạng và cú pháp khác nhau.
Quy phạm sử dụng định dạng SDMX hiệu quả nhất.
2. Mô hình thông tin SDMX cho người thực thi
2.1. Giới thiệu
Mục đích của điều này là giới thiệu về mô hình thông tin SDMX cho người dùng quan tâm tới việc sử dụng các định dạng XML hoặc EDI và cho người dùng mong muốn hiểu sâu hơn về mô hình thông tin này. Tài liệu mô hình thông tin SDMX đầy đủ, sơ đồ UML và các giải thích giúp cho người dùng có quan điểm đầy đủ về mô hình thông tin SDMX. Phụ lục về mô hình thông tin SDMX cung cấp hướng dẫn hữu ích cho người dùng chưa quen với các tập khóa.
Mô hình thông tin SDMX mô tả cấu trúc dữ liệu và siêu dữ liệu cơ bản sử dụng trong các định dạng dữ liệu SDMX. Có một sự phân biệt chính giữa dữ liệu phần giao, dữ liệu theo chuỗi thời gian và siêu dữ liệu mô tả cấu trúc của các dữ liệu đó. Mô hình thông tin SDMX liên quan đến các dữ liệu thống kê và siêu dữ liệu cấu trúc của nó và được mô tả tại Điều này. Cả dữ liệu và siêu dữ liệu cấu trúc đều có một số siêu dữ liệu bổ sung chung, liên quan đến quản lý và quản trị chúng. Các khía cạnh về mô hình dữ liệu này không được đề cập ở đây.
Mô hình thông tin này phù hợp với mô hình dữ liệu GESMES/TS phiên bản 3.0, cùng với các ngoại lệ sau:
Kết cấu “nhóm quan hệ” được khái quát hóa để cho phép bất kỳ miền dữ liệu hoặc các miền dữ liệu nào là đại diện, khác với mô hình dữ liệu GESMES/TS chỉ có tần suất là đại diện và được đổi tên thành “nhóm” để phân biệt với “nhóm quan hệ”. Tập các khóa “nhóm” riêng phần cho phép phải được khai báo trong tập khóa và các thuộc tính có thể được đính kèm với bất kỳ khóa nào trong các khóa “nhóm” này.
Hiện nay, phần về biểu diễn dữ liệu là một quy ước để hỗ trợ tính liên tác với các thực thi cú pháp EDIFACT.
Các định dạng dữ liệu phần giao được tạo từ mô hình này và một vài tính năng hỗ trợ để tạo ra các quan sát cấu trúc tập dữ liệu đơn theo chuỗi thời gian và phần giao nhau được thêm vào các mô tả siêu dữ liệu cấu trúc.
Rõ ràng, đây không phải là sự trùng hợp ngẫu nhiên – mục đích ở đây là giúp mô hình dữ liệu GESMES/TS trở thành nền tảng không chỉ đối với các thông điệp EDIFACT, mà còn đối với XML được sử dụng cho web phổ biến.
Lưu ý rằng trong các mô tả dưới đây, phần văn bản dưới dạng phông chữ courier, in nghiêng là tên được sử dụng trong mô hình thông tin (ví dụ: DataSet).
2.2. Thành phần cơ bản của mô hình thông tin
Thông tin thống kê trong SDMX chia thành hai phần cơ bản – siêu dữ liệu cấu trúc (bao gồm các KeyFamily, các Concept và Code List được liên kết) (xem phần khung tiêu chuẩn) – và dữ liệu quan sát (DataSet). Đây là điều khác biệt quan trọng, với thuật ngữ cụ thể tương ứng với mỗi phần. Dữ liệu điển hình là một tập các quan sát dạng số tại một thời điểm cụ thể – được tổ chức thành các tập dữ liệu (DataSet). Các tập dữ liệu này được cấu trúc theo một tập khóa cụ thể (KeyFamily) và được mô tả trong định nghĩa luồng dữ liệu (DataFlowDefinition). Tập khóa mô tả siêu dữ liệu cho phép hiểu điều được thể hiện trong tập dữ liệu đó, trong khi đó định nghĩa luồng dữ liệu cung cấp thẻ định danh và thông tin quan trọng khác (như là; thông tin định kỳ hoặc báo cáo) chung cho toàn bộ các tập dữ liệu thành phần của nó.
2.3. Tập dữ liệu
Các tập dữ liệu dựng sẵn một số dữ liệu theo chuỗi thời gian hoặc dữ liệu theo các phần (tổ chức các quan sát dữ liệu phần giao tại một thời điểm riêng). Ngoài quan sát dạng số (Obsecvation) và ngày tháng liên quan (TimePeriod) là lõi của các chuỗi thời gian, có thể có thuộc tính (AttributeValue) chỉ ra trạng thái của quan sát đó, ví dụ: giá trị có thể là bình thường hoặc bị ngắt, v.v. Các thuộc tính này có thể là tùy chọn (hoặc “có điều kiện”) và có thể có các giá trị được mã hóa hoặc văn bản tùy ý. Chúng gắn liền với mọi phần trong tập dữ liệu đó – mỗi quan sát có thể có một giá trị khác cho thuộc tính đó hoặc có thể chỉ có một giá trị thuộc tính riêng mô tả toàn bộ tập dữ liệu hoặc mỗi chuỗi thời gian, v.v.
Mỗi chuỗi thời gian được xác định bởi giá trị miền dữ liệu của nó. Dữ liệu theo chuỗi thời gian được xem như n-miền. Một chuỗi thời gian cho trước có một giá trị (KeyValue) trong tập các giá trị cho phép cho mỗi miền trong các miền của nó (Dimension) và một tập các quan sát (Observation): một giá trị cho mỗi thời điểm cụ thể (TimePeriod). Một chuỗi thời gian cụ thể có thể có các miền là “frequency”, “topic”, “stock or flow”, “reporting country”, vv, với một giá trị đơn tương ứng cho mỗi miền. Khi được lấy cùng nhau, tập các giá trị này định danh duy nhất chuỗi thời gian trong tập dữ liệu của nó, được gọi là khóa theo chuỗi thời gian (TimeSeriesKey).
Các biểu diễn dữ liệu phần giao có thể được tạo từ cùng một tập khóa thông qua việc lập cấu trúc các biểu diễn chuỗi thời gian với điều kiện siêu dữ liệu cấu trúc bổ sung cần thiết được cung cấp. Chức năng này cho phép khai báo nhiều đơn vị đo trong tập khóa đó, tương ứng với các giá trị biểu diễn của một miền. Khi lập cấu trúc dữ liệu để biểu diễn một tập các quan sát tại một thời điểm riêng, “phần” – một hoặc nhiều quan sát cho mỗi đơn vị đo được khai báo – thay thế các chuỗi trong cấu trúc dữ liệu đó. Mỗi đơn vị đo có ít nhất một miền trong khóa đó (“miền dữ liệu đơn vị đo”) tại mức quan sát, trong khi khoảng thời gian đó được đính kèm ở mức cao hơn trong các cấu trúc dữ liệu (các mức Group (nhóm) – xem bên dưới). Phần còn lại của khóa đó được tìm thấy tại mức Section (phần) (hoặc ở mức trên), tương tự đối với khoảng thời gian được đính kèm ở mức Series (chuỗi) cho cấu trúc dữ liệu theo chuỗi thời gian.
Hỗ trợ việc biểu diễn dữ liệu phần giao không đầy đủ bằng việc biểu diễn dữ liệu theo chuỗi thời gian. Chức năng mong đợi là: cho phép sử dụng tập khóa biểu diễn dữ liệu phần giao được tạo ra cùng với ứng dụng này. Do việc biểu diễn dữ liệu theo chuỗi thời gian cũng có thể áp dụng cho mọi tập khóa có khoảng thời gian như một khái niệm, nên các cấu trúc dữ liệu này cũng được tạo từ tập khóa đó. Kết quả là hai kiểu cấu trúc dữ liệu bổ sung được cung cấp: quan sát phần giao cần thiết và quan sát hướng vào chuỗi thời gian hữu ích cho các hệ thống không được lập cấu hình để xử lý dữ liệu trong bất kỳ dạng nào khác. Tập khóa được tạo ra để hỗ trợ việc lập cấu trúc phần giao của dữ liệu hỗ trợ phép biến đổi dữ liệu có thể dự đoán (vì vậy, có thể tự động) từ cấu trúc phần giao sang cấu trúc chuỗi thời gian. Các tập dữ liệu được tổ chức thành “các nhóm” về chuỗi thời gian hoặc các phần (GroupKey); đây là cơ chế đặc biệt hữu ích để đính kèm các siêu dữ liệu với dữ liệu. Nhóm này được gọi là “nhóm quan hệ” chia sẻ các giá trị miền dữ liệu cho tất cả các miền dữ liệu khác, ngoại trừ miền dữ liệu tần suất (miền dữ liệu tần suất được gọi là đại diện). Trong tập khóa, các nhóm hợp lệ được khai báo và đặt tên. Tất cả các thành viên của nhóm này chia sẻ các giá trị khóa cho tập các miền được nêu rõ. Các thuộc tính có thể được đính kèm ở mức này trong các định dạng dữ liệu, như các giá trị khóa được chia sẻ cho các định dạng, trong đó kích cỡ thông điệp là một vấn đề. Trong các định dạng phần giao, khoảng thời gian (một khoảng hoặc một thời điểm) được đính kèm ở mức nhóm.
Tập khóa là một mô tả của tất cả các siêu dữ liệu cần thiết để hiểu cấu trúc tập dữ liệu. Điều này bao gồm việc định danh các miền dữ liệu (Dimensions) theo thuật ngữ thống kê tiêu chuẩn, cấu trúc khóa (KeyDescriptor), các thuộc tính (MetadataAttribute) liên kết với tập dữ liệu, các danh sách mã (CodeList) liệt kê các giá trị hợp lệ cho mỗi miền dữ liệu và thuộc tính mã hóa (CodedAttribute), thông tin về các thuộc tính là được yêu cầu hay tùy chọn hoặc được mã hóa hay dạng văn bản tùy ý. Căn cứ vào siêu dữ liệu trong tập khóa đó, tất cả các dữ liệu trong tập dữ liệu đó trở thành có nghĩa.
Có khả năng liên kết các ghi chú (Annotation) với cả các cấu trúc được mô tả trong tập khóa và các quan sát được chứa trong các tập dữ liệu. Các ghi chú này là dạng khá điển hình của tài liệu, trong đó chúng được sử dụng để mô tả cả các dữ liệu – giống như các thuộc tính khác – nhưng nó cũng có thể được sử dụng để mô tả siêu dữ liệu khác. Ví dụ: thông tin về một số miền dữ liệu cụ thể trong cấu trúc tập khóa, được xem như một chú thích cho việc mô tả miền dữ liệu đó. Các “chú thích cuối trang” hợp lệ được đính kèm với dữ liệu như tài liệu biểu thị thuộc tính tại vị trí thích hợp trong tập khóa – các chú thích là tài liệu bất quy tắc cần được đính kèm tại nhiều vị trí trong các tập khóa hoặc các tập dữ liệu.
Điều sau đây cung cấp các định nghĩa đầy đủ hơn về mô hình thông tin SDMX bởi nó liên quan đến dữ liệu thống kê, do vậy người thực thi cú pháp sẽ tham khảo dễ dàng hơn.
2.4. Định dạng dữ liệu và mức đính kèm
Xem định dạng sẵn có trong các phần trên:
SDMX-ML và SDMX-EDI đều có một định dạng để mô tả các tập khóa, khái niệm và danh sách mã.
Trong SDMX-EDI, có một định dạng thông điệp đơn để truyền thông điệp liên quan đến dữ liệu. Định dạng này cho phép thể hiện ở dạng cô đọng nhiều kiểu gói thông tin khác nhau như: dữ liệu, tài liệu hướng dẫn, thông điệp xóa, vv. Định dạng này là định dạng hướng vào chuỗi thời gian. Thời gian được quy định hoặc như một dải cho một tập các giá trị quan sát với một tần suất đã biết hoặc như được liên kết trên cơ sở một-một với các giá trị quan sát.
Trong SDMX-ML, thông điệp Generic Data (dữ liệu chung) yêu cầu tất cả các giá trị khóa phải được quy định tại mức Series (chuỗi) và các giá trị thuộc tính đính kèm tại mức này được gán trong tập khóa (nếu mọi giá trị thuộc tính được truyền). Đây là định dạng hướng vào chuỗi thời gian yêu cầu quy định thời gian cho mỗi giá trị quan sát.
Trong SDMX-ML, thông điệp Compact Data (dữ liệu cô đọng) yêu cầu giá trị của các khóa được quy định ở mức Series (chuỗi). Các giá trị thuộc tính quy định ở mức này được gán cho chúng trong tập khóa, nếu được cung cấp. Đây là định dạng hướng vào chuỗi thời gian, nó liên kết thời gian với quan sát hoặc trên cơ sở một-một hoặc được biểu diễn như một dải cho một tập các quan sát với tần suất xác định.
Trong thông điệp Utility Data (dữ liệu tiện ích) SDMX-ML, tất cả các giá trị khóa được đính kèm ở mức Series (chuỗi) và các giá trị thuộc tính được đính kèm tại mức này là gán trong tập khóa. Các giá trị thuộc tính phải được cung cấp – không có khái niệm thông điệp “xóa” hoặc thông điệp từng phần (để cập nhật, chỉ dẫn chứng bằng tài liệu…) như cho các định dạng dữ liệu khác. Đây là định dạng hướng vào chuỗi thời gian yêu cầu rằng thời gian được quy định cho mỗi quan sát trên cơ sở một-một.
Mức đính kèm trong thông điệp Cross-Sectional Data (dữ liệu phần giao) SDMX-ML khác với các định dạng khác. Các giá trị khóa có thể được đính kèm ở mọi mức như hoặc tổ hợp các mức như đã khai báo trong tập khóa. Trong các trường hợp ngoại lệ rằng thời gian luôn được đính kèm tại mức nhóm cho các tập khóa sử dụng thời gian như một khái niệm. Giá trị khóa có thể đính kèm ở mức quan sát cho từng kiểu đơn vị đo được khai báo. Giá trị thuộc tính được cung cấp ở bất kỳ mức nào được gán trong tập khóa. Đây là định dạng không hướng vào chuỗi thời gian.
Trong thông điệp Query (truy vấn) SDMX-ML, vấn đề của các mức đính kèm là không liên quan đến thông điệp này.
2.5. Khái niệm, định nghĩa, đặc tính và quy tắc
Điều này cung cấp ngôn ngữ và cơ cấu chung để mô tả các trao đổi dữ liệu thống kê
1. Chu kỳ (TimePeirod) là một tham chiếu thời gian có thể là khoảng thời gian hoặc một điểm thời gian.
2. Quan sát (Observation) là giá trị, tại một chu kỳ cụ thể của một biến cụ thể (đôi khi gọi là “hiện tượng quan sát”).
3. Để trở nên hữu ích, một quan sát phải có nhiều thông tin liên quan đến nó hơn là chỉ có giá trị và chu kỳ liên kết. Thông tin về quan sát được gọi là siêu dữ liệu.
4. Đặc điểm của các quan sát tạo nên siêu dữ liệu được coi như khái niệm thống kê (Concept) (ví dụ, quốc gia báo cáo). Khái niệm thống kê sử dụng trong tập khóa (KeyFamily) được mã hóa hoặc không mã hóa.
Sử dụng khái niệm thống kê mã hóa lấy giá trị từ danh sách mã (CodeList) của các giá trị hợp lệ. Ví dụ, tạo ra khái niệm thống kê mã hóa “quốc gia báo cáo”, lấy giá trị từ danh sách mã quốc gia của ISO. Danh sách mã có thể cung cấp giá trị của nhiều khái niệm thống kê.
Sử dụng khái niệm thống kê không mã hóa lấy giá trị từ văn bản dạng tùy ý (ví dụ, tiêu đề chuỗi thời gian).
5. Chuỗi thời gian là một véctơ sắp xếp theo thời gian của các quan sát (Observation).
6. Nếu chuỗi thời gian có các khoảng cách thời gian giữa các quan sát của nó, thì khoảng cách thời gian này xác định tần suất của chuỗi thời gian đó.
7. Ngữ cảnh trao đổi dữ liệu là cơ cấu gồm hai hoặc nhiều đối tác thỏa thuận về:
Trao đổi một hoặc nhiều tập dữ liệu được định danh và các thuộc tính liên quan (“chuỗi thời gian trao đổi”; ETS).
Sử dụng một hoặc nhiều tập khóa để phục vụ cho yêu cầu này.
Có thể tuân thủ một số thỏa thuận kinh doanh và thực thi.
8. Cơ quan duy trì định nghĩa cấu trúc là cơ quan tạo ra các tập khóa.
9. Chuỗi thời gian được trao đổi (ETS) là tập hợp các định nghĩa luồng dữ liệu, ví dụ như tập dữ liệu được trao đổi (DataSet).
10. Mỗi định nghĩa luồng dữ liệu lấy cấu trúc chính xác từ một tập khóa (KeyFamily).
11. Thẻ định danh luồng dữ liệu định danh định duy nhất cho mỗi định nghĩa luồng dữ liệu trong ETS.
12. Mỗi tập khóa liên kết chính xác một danh sách mã với việc sử dụng khái niệm thống kê mã hóa được định nghĩa trong tập khóa đó.
13. Mỗi tập khóa được định danh duy nhất bởi một cơ quan duy trì định nghĩa cấu trúc bằng cách sử dụng thẻ định danh tập khóa duy nhất.
14. Mỗi tập khóa có một cấu trúc khóa (KeyDescriptor), cụ thể là tập có thứ tự các sử dụng khái niệm thống kê mã hóa mà kết hợp các giá trị của nó định danh duy nhất cho mỗi chuỗi thời gian trong tập dữ liệu.
Sử dụng khái niệm thống kê mã hóa được ấn định như thành viên của cấu trúc chính trong tập khóa gọi là các miền dữ liệu (Dimension) của tập khóa.
Miền dữ liệu đơn vị đo (MeasureTypeDimension) là lớp đặc trưng của miền dữ liệu. Các mã biểu diễn miền dữ liệu đơn vị đo tương ứng với tập đơn vị đo phần giao (Measure) được khai báo. Miền dữ liệu đơn vị đo chỉ tồn tại trong tập khóa mô tả việc biểu diễn dữ liệu phần giao.
Không có tập khóa nào được phép gán các sử dụng khái niệm thống kê mã hóa như một miền dữ liệu quá một lần. (Tuy nhiên, danh sách mã hóa giống nhau được dùng để biểu diễn nhiều khái niệm thống kê trong tập khóa).
Chỉ Khái niệm thống kê mã hóa mới được phép là các miền dữ liệu của cấu trúc khóa.
Tần suất được gán như một miền dữ liệu (FrequencyDimension) trong mỗi tập khóa sử dụng các khái niệm về thời gian (TimeDimension). (Lưu ý rằng phần lớn các cơ quan trung tâm tạo ra định nghĩa cấu trúc, để tạo điều kiện thuận lợi cho việc định dạng tần suất theo phương thức đồng nhất và để xác định tần suất như miền dữ liệu đầu tiên của cấu trúc khóa.
Mỗi chuỗi thời gian lấy một giá trị (KeyValue) cho mỗi miền dữ liệu của tập khóa chứa chuỗi đó.
Ý nghĩa gắn với giá trị của một miền dữ liệu hoặc thuộc tính không được phép phụ thuộc vào giá trị của bất kỳ miền dữ liệu khác, ngoại trừ miền dữ liệu “đơn vị đo” và thuộc tính “đơn vị” mô tả ở trên.
Danh sách các giá trị định danh duy nhất một chuỗi thời gian trong tập dữ liệu gọi là khóa của chuỗi thời gian (TimeSeriesKey).
Trong ETS, chuỗi thời gian được định danh duy nhất bởi thẻ định danh tập dữ liệu kết hợp với khóa chuỗi thời gian (Lưu ý rằng trong mô hình thông tin, thẻ định danh của tập dữ liệu là thẻ định danh luồng dữ liệu được chỉ rõ bởi thời gian)
Trong tập dữ liệu, quan sát được định danh bởi khóa chuỗi thời gian (TimeSeriesKey) kết hợp với khoảng thời gian (TimePeirod).
15. Trong một tập dữ liệu, các khóa của tập chuỗi thời gian khác với giá trị được lấy bởi miền dữ liệu tần suất được gọi là nhóm quan hệ. Trong ETS, nhóm quan hệ được định danh duy nhất bởi thẻ định danh tập dữ liệu kết hợp với khóa mật mã của nhóm quan hệ (GroupKey). Các khóa của tập chuỗi thời gian khác với một số giá trị miền dữ liệu hoặc các giá trị được gọi là một nhóm.
16. Thêm vào các miền dữ liệu, mỗi tập khóa gán một tập gồm các cách sử dụng khái niệm thống kê chỉ rõ các quan sát trong tập khóa. Các thành viên của tập sử dụng khái niệm thống kê được gọi là thuộc tính (MetadataAttribute) của tập khóa.
Không tập khóa nào được phép gán cách sử dụng khái niệm thống kê như một thuộc tính quá một lần.
Cách sử dụng không theo khái niệm thống kê có thể được gán cả thuộc tính và miền dữ liệu của cùng một tập khóa.
Mỗi tập khóa có một đặc tính cho mỗi thuộc tính của nó nhằm xác định xem:
– Thuộc tính lấy một giá trị độc lập cho mỗi quan sát trong tập dữ liệu.
– Thuộc tính lấy một giá trị độc lập cho mỗi chuỗi thời gian trong tập dữ liệu.
– Thuộc tính lấy một giá trị độc lập cho mỗi nhóm quan hệ trong tập dữ liệu.
– Thuộc tính cung cấp giá trị đơn cho toàn bộ tập dữ liệu.
Đặc tính này định danh duy nhất mức gán thuộc tính cho tập khóa.
Trong một tập khóa, mỗi thuộc tính được đánh giá là bắt buộc hoặc có điều kiện (thuộc tính có điều kiện là thuộc tính mà giá trị được cung cấp dựa trên điều kiện mở rộng đối với các quan hệ hình thức được mô tả bởi tập khóa: về chức năng, nó là giá trị lựa chọn).
o Thuộc tính bắt buộc là thuộc tính phải lấy một giá trị nếu không các quan sát tương ứng liên quan đến các thuộc tính này sẽ không được đánh giá đầy đủ về ý nghĩa (ví dụ: “trạng thái” của quan sát hoặc các đơn vị biểu diễn hiện toàn bộ chuỗi thời gian).
o Trong tập khóa, thuộc tính có điều kiện được phép lấy giá trị trống.
Chú thích (Annotation) là tài liệu không hợp lệ có thể được đính kèm tại nhiều vị trí trong tập khóa hoặc tập dữ liệu.
17. Mỗi tập khóa có các đặc tính sau:
Thẻ định danh: Cung cấp định danh duy nhất trong tập khóa được cơ quan duy trì định nghĩa cấu trúc quy định.
Tên: Đây là thẻ định danh duy nhất trực quan hơn thẻ định danh thường.
Mô tả: Mô tả mục đích và miền được bao hàm bởi tập khóa.
18. Mỗi tập dữ liệu có các đặc tính như sau:
Thẻ định danh: Cung cấp định danh duy nhất trong ETS (trong mô hình thông tin, đây là thẻ định danh của DataFlowDefinition).
Mô tả: Mô tả mục đích và miền được bao hàm bởi tập dữ liệu (trong mô hình thông tin, mô tả này là một phần của DataFlowDefinition)
Tập khóa: Tập khóa mô tả cấu trúc của tập dữ liệu.
19. Mỗi khái niệm thống kê (Concept) có các đặc tính sau đây:
Thẻ định danh: Cung cấp định danh duy nhất trong tập khái niệm thống kê được cơ quan duy trì định nghĩa cấu trúc quy định.
Tên: Đây là thẻ định danh không duy nhất trực quan hơn thẻ định danh thường.
Mô tả: Mô tả ý nghĩa và mục đích của khái niệm thống kê.
20. Sử dụng khái niệm thống kê không mã hóa có các đặc tính sau:
Kiểu: Chữ, vừa chữ vừa số, số.
Độ dài tối đa: Số lượng ký tự tối đa trong giá trị văn bản của khái niệm.
Số thập phân: Số lượng các con số xuất hiện sau dấu phẩy của số thập phân.
21. Mỗi danh sách mã có các đặc tính sau:
Thẻ định danh: Cung cấp định danh duy nhất trong tập danh sách mã do cơ quan duy trì định nghĩa cấu trúc quy định.
Tên: Đây là thẻ định danh không duy nhất trực quan hơn thẻ định danh thường.
Mô tả: Mô tả mục đích của danh sách mã.
Độ dài giá trị mã hóa: Số lượng chính xác hoặc tối đa nhất của ký tự và kiểu (ví dụ số, cả số và chữ) phải được quy định.
22. Mỗi mã trong danh sách mã có các đặc tính sau:
Thẻ định danh: Cung cấp định danh duy nhất trong danh sách mã do cơ quan duy trì định nghĩa cấu trúc quy định.
Tên: Đây là thẻ định danh không duy nhất trực quan hơn thẻ định danh thường.
Mô tả: Mô tả duy nhất giá trị mã hóa
3. So sánh chức năng và khả năng biểu diễn của SDMX-ML và SDMX-EDI
SDMX đề xuất một số định dạng tương đương để mô tả dữ liệu và siêu dữ liệu cấu trúc được sử dụng trong các ứng dụng khác nhau. Mặc dù tất cả các định dạng này bắt nguồn trực tiếp từ mô hình thông tin SDMX, vì vậy tương đương với nhau, nhưng các cú pháp được sử dụng để thực hiện lại nảy sinh một số hạn chế khi sử dụng. Đồng thời, các tối ưu hóa khác nhau cung cấp các khả năng khác nhau. Điều này mô tả sự khác biệt đó và cung cấp một số quy tắc cho các ứng dụng cần hỗ trợ nhiều hơn một định dạng hoặc cú pháp SDMX.
3.1. Tối ưu định dạng và sự khác biệt
Điều sau đây cung cấp cách nhìn khái quát về sự khác biệt giữa các định dạng SDMX khác nhau:
Định nghĩa cấu trúc
Thông điệp cấu trúc SDMX-ML hỗ trợ sử dụng chú thích cho cấu trúc không được cú pháp SDMX-EDI hỗ trợ.
Thông điệp cấu trúc SDMX-ML cho phép một tập khóa phụ thuộc vào cấu trúc – nghĩa là danh sách mã và khái niệm trong thông điệp hoặc được tham chiếu theo thông điệp chứa trong tập khóa. Cú pháp XML được thiết kế để thúc đẩy URI và cơ chế tham khảo dựa trên internet và cơ chế này được sử dụng trong thông điệp SDMX-ML. Lựa chọn này không có giá trị khi sử dụng trong thông điệp cấu trúc SDMX-EDI.
Kiểm tra tính hợp lệ
SDMX-EDI giống như các thông điệp của cú pháp EDIFACT – bỏ qua việc kiểm tra tính hợp lệ của các ứng dụng dành riêng (“kiểm tra tính hợp lệ” là kiểm tra cú pháp, định kiểu dữ liệu và sự gắn kết của thông điệp dữ liệu với cấu trúc như đã mô tả trong định nghĩa cấu trúc).
Thông điệp Generic Data (dữ liệu chung) SDMX-ML bỏ qua việc kiểm tra tính hợp lệ trên mức cú pháp XML của ứng dụng.
Dữ liệu cô đọng SDMX-ML và thông điệp Cross-Sectional Data (dữ liệu phần giao) cho phép việc kiểm tra tính hợp lệ của cú pháp XML và việc định kiểu dữ liệu được thực hiện với phân tích cú pháp XML chung và tuân theo thỏa thuận giữa định nghĩa cấu trúc và dữ liệu ở cấp độ vừa phải với cùng một công cụ.
Thông điệp Utility Data (dữ liệu tiện ích) SDMX-ML tác động đến trình phân tách XML chung để thực hiện đầy đủ cấp độ hợp lệ của tất cả các mức (lưu ý rằng sự phụ thuộc giữa các miền dữ liệu mã hóa và giá trị thuộc tính không có trong định nghĩa cấu trúc, do đó chúng luôn được ứng dụng thông qua.
Cập nhật, xóa thông điệp và thông điệp tài liệu
Thông điệp Utility Data (dữ liệu tiện ích) SDMX-ML phải luôn luôn cung cấp cập nhật tập dữ liệu đầy đủ và do đó không được sử dụng để xóa. Ngoài ra, nó cũng không được sử dụng để gửi tài liệu khi không có dữ liệu tương ứng. Tất cả các thông điệp dữ liệu SDMX khác cho phép xóa các thông điệp chỉ chứa dữ liệu hoặc tài liệu.
Mã hóa ký tự
Tất cả các thông điệp SDMX-ML sử dụng mã hóa UTF-8, trong khi SDMX – EDI sử dụng ISO 8879-1 để mã hóa ký tự. UTF có khả năng thể hiện nhiều hơn một số tập ký tự (xem [Tham khảo phụ lục SDMX-EDI đính kèm trong văn bản này]). Nhiều dụng cụ biến đổi cho phép các trường hợp XML và mã hóa UTF-8 được thể hiện như tiêu chuẩn mã hóa ký tự ISO 8879-1 và chuyển UTF-8 thành ISO 8879-1. Các dụng cụ này được sử dụng khi chuyển thông điệp SDMX-ML thành thông điệp SDMX-EDI và ngược lại.
Định kiểu dữ liệu
Cú pháp XML và cú pháp EDIFACT có cơ chế định kiểu dữ liệu khác nhau. Điều dưới đây cung cấp một tập các quy ước được quan sát khi hỗ trợ các thông điệp trong cả hai cú pháp.
3.2. Kiểu dữ liệu
Cú pháp XML có cơ chế khác đối với việc định kiểu dữ liệu so với cú pháp EDIFACT, sự khác nhau này tạo ra một số khó khăn cho các ứng dụng mà hỗ trợ định dạng dữ liệu SDMX dựa trên EDIFACT và XML. Điều này cung cấp tập hợp các quy ước khi thể hiện dữ liệu trong tất cả các định dạng và làm rõ liên tác giữa chúng.
Lưu ý rằng điều này không xác định địa chỉ mã hóa ký tự – người ta thừa nhận rằng phần mềm quy ước bao gồm việc sử dụng các biến đổi sẽ ánh xạ giữa mã hóa của định dạng SDMX-EDI và mã hóa UTF-8 của định dạng SDMX-ML (ISO 8879-1)
Lưu ý rằng: các quy ước sau tuân theo tính không ràng buộc liên tác giữa việc biểu diễn EDIFAXCT và biểu diễn XML của dữ liệu và siêu dữ liệu. Với các thực thi trong đó không có sự biến đổi nào giữa cú pháp EDIFACT và XML được biết trước. Các hạn chế dưới đây không cần áp dụng.
23. Các thẻ định danh là:
Tối đa là 18 ký tự;
Bất kỳ ký tự nào từ A đến Z (các chữ hoa trong bảng chữ cái), 0..9 (các số từ 0 đến 9), dấu _(gạch dưới);
Ký tự đầu tiên trong bảng chữ cái.
24. Tên là:
Tối đa là 70 ký tự.
Từ tập ký tự ISO 8859-1 (bao gồm ký tự có trọng âm)
25. Mô tả là:
Tối đa là 350 ký tự;
Từ tập ký tự ISO 8859-1
26. Giá trị mã là:
Tối đa là 18 ký tự;
Bất kỳ ký tự từ A đến Z (các chữ hoa trong bảng chữ cái), 0..9 (các số từ 0 đến 9), _(đường gạch dưới từ ngữ), / (dấu gạch chéo), = (dấu bằng), – (dấu gạch nối);
Tuy nhiên, giá trị mã cung cấp các giá trị cho một miền dữ liệu chỉ sử dụng các ký tự sau:
A..Z (Các chữ hoa từ A đến Z), 0..9 (các số từ 0 đến 9), _ (đường gạch dưới từ ngữ)
27. Giá trị quan sát:
Các số thập phân (được ký hiệu chỉ khi các số này mang giá trị âm)
Số lượng tối đa của các số quan trọng này là:
– 15 số đối với số dương
– 14 số đối với số thập phân dương hoặc số nguyên âm
– 13 số đối với số thập phân âm
Ký pháp có thể được sử dụng
28. Giá trị văn bản khái niệm thống kê không mã hóa
Tối đa là 1050 ký tự;
Từ tập ký tự ISO 8859-1
29. Khóa chuỗi thời gian:
Về nguyên tắc, độ dài tối đa cho phép của khóa chuỗi thời gian được sử dụng trong trao đổi dữ liệu không bị giới hạn. Tuy nhiên, vì mục đích của công việc, con người cố gắng giới hạn độ dài tối đa là 35 ký tự; trong độ dài này, vị trí phân tách ở giữa tất cả các giá trị miền dữ liệu kế tiếp nhau; điều này có nghĩa là độ dài tối đa cho phép một khóa chuỗi thuần có thể ít hơn 35 ký tự. Ký tự phân tách được sử dụng là dấu hai chấm “:”.
4. Quy phạm hiệu quả nhất của SDMX-ML và SDMX-EDI
4.1. Hướng dẫn về thông báo và phổ biến
4.1.1. Cơ quan trung tâm và vai trò của chúng trong trao đổi dữ liệu thống kê
Cơ quan trung tâm là tổ chức mà ở đó các cơ quan đối tác báo cáo số liệu thống kê. Các số liệu thống kê này được các cơ quan trung tâm sử dụng để biên tập các khối tập hợp và/hoặc đặt chúng cùng với nhau theo cách thức giống nhau (trực tuyến hoặc trên CD-ROM hay thông qua việc truyền tệp tin). Do đó, cơ quan trung tâm nhận dữ liệu từ các cơ quan khác và cũng “phổ biến” dữ liệu đến các cá nhân và/hoặc các tổ chức. Trong một quốc gia, NSI hoặc ngân hàng trung ương quốc gia, đóng vai trò là cơ quan trung tâm vì nó tập hợp dữ liệu từ các cơ quan khác và phổ biến thông tin thống kê đến người sử dụng. Trong SDMX, vai trò của cơ quan trung tâm rất quan trọng: mỗi thông điệp thống kê được dựa trên định nghĩa cấu trúc (khái niệm thống kê, danh sách mã, tập khóa) do một cơ quan cụ thể tạo ra, thông thường là cơ quan trung tâm. Cơ quan này đóng vai trò “cơ quan duy trì định nghĩa cấu trúc” cho thông điệp được trao đổi tương ứng. Tất nhiên, hai cơ quan có thể trao đổi dữ liệu liên quan đến thông tin cấu trúc nhận được từ cơ quan thứ ba.
– Các cơ quan trung tâm có thể đóng một vai trò kép.
– Tập hợp và phổ biến thống kê;
– Tạo ra các định nghĩa cấu trúc để trao đổi dữ liệu
4.1.2. Định nghĩa các tập khóa
Các hướng dẫn sau đây gợi ý cho việc tạo dựng tập khóa. Tuy nhiên, các tiêu chuẩn này sẽ được các cơ quan trung tâm xem xét khi tạo ra định nghĩa tập khóa mới.
Tránh các miền dữ liệu không thích hợp với tất cả các chuỗi thời gian trong tập khóa. Nếu có một số miền dữ liệu không thích hợp cho chuỗi thì cần xem xét di chuyển của các chuỗi này đến tập khóa mới, tại đó các miền dữ liệu này được đưa ra khỏi khóa cấu trúc1.
Tránh các miền dữ liệu hỗn hợp: Mỗi miền dữ liệu đáp ứng các đặc tính riêng của dữ liệu, không đáp ứng sự kết hợp của các đặc tính.
Tránh tạo ra danh sách mã mới khi vẫn tồn tại một danh sách mã. Tuyệt đối lưu ý rằng định nghĩa cấu trúc và danh sách mã phải phù hợp với hệ phương pháp chuẩn quốc tế trong mọi trường hợp có sự tồn tại của chúng, ví dụ như hệ thống kế toán quốc gia năm 1993; bảng cân đối chi tiêu, phiên bản thứ 5, thống kê tài chính và tiền tệ, thống kê tài chính của chính phủ v.v. Khi thiết lập giá trị trao đổi dữ liệu mới, ưu tiên thứ tự sau đây khi xem xét sử dụng danh sách mã:
o Danh sách mã chuẩn quốc tế;
o Danh sách mã quốc tế được các cơ quan quốc tế và/hoặc khu vực bổ sung;
o Danh sách chuẩn được các cơ quan quốc tế sử dụng;
o Các danh sách mã mới được thỏa thuận giữa cơ quan quốc tế và khu vực;
o Các danh sách mã mới;
o Danh sách mã giống nhau được sử dụng cho một số khái niệm thống kê trong tập khóa hoặc thông qua các tập khóa.
Định nghĩa tập khóa. Các mục sau đây phải được quy định thông qua cơ quan duy trì định nghĩa cấu trúc khi xác định tập khóa mới.
Định danh tập khóa:
o Thẻ định danh tập khóa
o Tên tập khóa
Danh sách các khái niệm thống kê mã hóa được gán theo miền dữ liệu của tập khóa. Đối với mỗi:
o Thẻ định danh khái niệm thống kê
o Tên khái niệm thống kê
o Số thứ tự của miền dữ liệu trong cấu trúc khóa
o Thẻ định danh danh sách mã
Danh sách khái niệm thống kê gán thuộc tính cho tập khóa. Đối với mỗi:
o Thẻ định danh khái niệm thống kê
o Tên khái niệm thống kê
o Thẻ định danh danh sách mã nếu khái niệm được mã hóa
o Trạng thái gán: bắt buộc hoặc có điều kiện
o Mức đính kèm
o Độ dài văn bản tối đa đối với các khái niệm không mã hóa
o Độ dài mã tối đa cho khái niệm mã hóa
Danh mục danh sách mã được sử dụng trong tập khóa. Đối với mỗi:
o Thẻ định danh danh sách mã
o Tên danh sách mã
o Giá trị mã hóa và mô tả
Xác định của các định nghĩa luồng dữ liệu: Hai (hoặc nhiều) đối tác thực hiện trao đổi dữ liệu trong trường hợp cụ thể cần được thống nhất như sau:
o Danh sách thẻ định danh tập dữ liệu chúng sử dụng;
o Đối với mỗi luồng dữ liệu:
¡ Nội dung và mô tả của nó
¡ Xác định tập khóa liên quan
Thuộc tính bắt buộc. Khi quyết định cấu trúc khóa của tập khóa, tập thuộc tính bắt buộc của tập khóa phải được xác định. Nói chung, một số khái niệm thống kê cần được thông qua tất cả tập khóa để chỉ rõ thông tin bao hàm. Các ví dụ như sau:
o Phạm vi tham chiếu
o Tần suất (luôn luôn là một tần suất)
o Tiêu đề mô tả (xem chú thích bên dưới)
o Bộ sưu tập (ví dụ kết thúc một chu kỳ, trung bình hoặc tổng số qua các chu kỳ)
o Đơn vị (tên tiền tệ)
o Chia đơn vị (ở vị trí hàng triệu)
o Tính sẵn có (một chuỗi sẵn có cho các cơ quan sử dụng)
o Số thập phân (ví dụ: số lượng số thập phân sử dụng trong chuỗi thời gian)
o Trạng thái quan sát (ví dụ: đánh giá, tạm thời, thông thường)
Do đó, các khái niệm không phải là các miền dữ liệu trong tập khóa phải được thực hiện trong tập khóa đó như thuộc tính bắt buộc. Ngoài ra, các thuộc tính bổ sung được coi là bắt buộc khi xác định tập khóa cụ thể.
4.1.3. Thời gian và tần suất
Một tập khóa không được yêu cầu thiết kế để cung cấp việc biểu diễn dữ liệu phần giao có khái niệm Time liên kết với dữ liệu nó mô tả, đây là trường hợp hiếm gặp. Đối với tất cả các tập khóa sử dụng khái niệm thời gian, tần suất khái niệm cũng được sử dụng trong tập khóa như một miền dữ liệu. Trong khi điều này không quan trọng đối với một số nhà công bố và phổ biến các số liệu thống kê, việc thiếu tần suất có thể gây khó khăn cho nhiều hệ thống khi biểu diễn và xử lý số liệu thống kê.
Theo quy ước, tần suất là miền dữ liệu đầu tiên trong khóa. Tần suất là giá trị điển hình trong danh sách sau đây, mặc dù đối với việc sử dụng nó cần phải được bổ sung thêm vào danh sách:
A | Thường liên |
B | Công việc (thường không được hỗ trợ) |
D | Hàng ngày |
E | Sự kiện (thường không được hỗ trợ) |
H | Bán thường niên |
M | Hàng tháng |
Q | Hàng quý |
W | Hàng tuần |
Đối với các lý do liên quan đến việc tương thích ngược với hệ thống hiện có, có một khái niệm của “TIME_FORMAT” tương ứng, khái niệm này cần thiết trong các định dạng để mô tả cách thức định dạng thời gian. TIME_FORMAT được bao gồm trong các tập khóa giống như thuộc tính mức chuỗi. Tuy nhiên, khi định nghĩa tập khóa được xuất bản là SDMX-EDI, thì TIME_FORMAT được khai báo là một miền dữ liệu (trong chuỗi, nó được đặt ngay sau miền dữ liệu thời gian), không phải là một thuộc tính. Trong SDMX-ML, nó được khai báo như đã xác định trong tập khóa (ví dụ: thuộc tính mức chuỗi). Khi biểu diễn XML, TIME_FORMAT là một giá trị được lấy từ danh sách sau đây (nghĩa của chúng được định nghĩa trong ISO 8601):
P1Y – Thường niên
P6M – Bán thường niên
P3M – Hàng quý
P1M – Hàng tháng
P7D – Hàng tuần
P1D – Hàng ngày
PT1M – Từng phút
Đối với SDMX-EDI, có một danh sách cú pháp cụ thể về các mã liên quan được lấy từ danh sách mã liên kết với UN/EDIFACT TDID phần tử dữ liệu 2379 – Mã định dạng ngày hoặc thời gian hoặc chu kỳ.
Các ứng dụng xử lý thời gian trong SDMX-EDI hoặc SDMX-ML phải hiểu cách thức lặp thời gian, ví dụ như hiểu biết về năm nhuận và năm có 53 tuần. Tính toán các tuần tuân theo ISO 2017 (cho biết tuần đầu tiên trong một năm là tuần có thứ năm đầu tiên của năm đó).
Dải thời gian được biểu diễn trong SDMX-ML đơn giản hóa bằng cách bỏ đi giá trị thời gian từ các quan sát cho tất cả các quan sát ngoại trừ quan sát đầu tiên (chỉ được hỗ trợ bởi các thông điệp CompactData (dữ liệu cô đọng)). Trong SDMX-EDI, khoảng thời gian được diễn tả như một dải thời gian bằng cách tuyên bố bắt đầu và kết thúc chu kỳ. Điều này có thể được sử dụng để xác nhận việc kiểm tra tính hợp lệ nếu tất cả các quan sát dành cho chuỗi thời gian. Khi SDMX-ML chỉ khai báo trong chu kỳ đầu, người ta khuyến cáo rằng khoảng thời gian cũng có mặt trong quan sát cuối cùng để thực hiện việc kiểm tra tính hợp lệ tương đồng.
Các thuộc tính bổ sung quy định các mục này là liệu khoảng thời gian được quy định là chu kỳ bắt đầu hay chu kỳ kết thúc, v.v. Ví dụ, chuỗi hàng tháng có thể chứa các quan sát vào thời điểm bắt đầu, giữa hoặc cuối tháng, đó có thể là quan trọng đối với siêu dữ liệu được đinh kèm như một thuộc tính.
Nếu một tập khóa sử dụng thời gian mà không sử dụng khái niệm tần suất, thì nó không thể sử dụng các đặc tính riêng của các định dạng (ví dụ như việc biểu diễn dải thời gian trong SDMX-EDI và thông điệp CompactData (dữ liệu cô đọng) của SDMX- ML.)
4.1.4. Trao đổi thuộc tính
4.1.4.1. Thuộc tính về mức chuỗi, mức tập dữ liệu và mức quan hệ
Đặc tính tĩnh
o Sau khi tạo ra các chuỗi, người gửi phải cung cấp cho người nhận các giá trị thuộc tính bắt buộc. Trong trường hợp giá trị này có sẵn, các giá trị cho các thuộc tính điều kiện cũng phải được cung cấp. Trong khi đó thông tin này bước đầu có thể được cung cấp bởi các phương tiện khác mà không phải là thông điệp SDMX-ML hoặc SDMX-EDI (ví dụ như giấy tờ, điện thoại) với mong muốn rằng các cơ quan đối tác sẽ cung cấp thông tin này ở định dạng SDMX-ML hoặc SDMX-EDI.
o Một trung tâm có thể thỏa thuận với đối tác trao đổi của nó các thủ tục đặc biệt cho phép thiết lập các giá trị ban đầu của thuộc tính.
o Giá trị thuộc tính ở mức tập dữ liệu được thiết lập và duy trì duy nhất bởi trung tâm quản lý tập dữ liệu trao đổi.
Phương tiện thông báo các thay đổi đến trung tâm
o Sau khi tạo ra một chuỗi, người gửi không cần thông báo lại giá trị thuộc tính với điều kiện chúng không thay đổi.
o Nếu có thay đổi về các giá trị thuộc tính của một chuỗi (hoặc nhóm quan hệ), các cơ quan thông báo cần thông báo tất cả các giá trị thuộc tính một lần nữa (đây là lựa chọn đề nghị) hoặc giá trị thuộc tính đã thay đổi. Điều này áp dụng cho thuộc tính bắt buộc và thuộc tính điều kiện. Ví dụ, phải thông báo cho trung tâm nếu giá trị được thông báo trước của một thuộc tính điều kiện không còn hợp lệ.
o Một trung tâm có thể thỏa thuận với đối tác trao đổi của nó các thủ tục đặc biệt cho phép sửa đổi trong các giá trị thuộc tính.
Phương tiện thông tin của thuộc tính mức quan sát “trạng thái quan sát”, “tính bảo mật của quan sát”, “quan sát trước khi dừng”
o Trong SDMX-EDI, thuộc tính mức quan sát “trạng thái quan sát” là một phần của cú pháp cố định trong đoạn ARR được sử dụng để thông báo quan sát. Bất kỳ khi nào một quan sát được trao đổi, trạng thái quan sát tương ứng cũng phải được trao đổi kèm theo quan sát đó, không quan tâm đến liệu nó có thay đổi trao đổi dữ liệu trước đó hay không. Nguyên tắc này áp dụng cho việc sử dụng định dạng ML-SDMX, mặc dù các cú pháp không yêu cầu.
o Nếu “trạng thái quan sát” thay đổi mà các quan sát vẫn không thay đổi, thì cả hai thành phần này phải được thông báo.
o Tập khóa xác định các thuộc tính mức quan sát “tính bảo mật quan sát” và “quan sát trước khi dừng”, quy tắc này áp dụng cho các thuộc tính: nếu một cơ quan nhận được từ các cơ quan khác một quan sát với thuộc tính trạng thái quan sát kèm theo, thì có nghĩa là tính bảo mật của các quan sát liên quan và thuộc tính quan sát trước khi dừng không bao giờ tồn tại hoặc chúng không có giá trị cho quan sát này2
4.2. Quy phạm hiệu quả nhất cho trao đổi dữ liệu theo lô
Trao đổi dữ liệu theo lô – việc trao đổi và duy trì toàn bộ cơ sở dữ liệu giữa các bên tương ứng là hoạt động thường xuyên sử dụng định dạng SDMX-EDI và cũng có thể sử dụng CompactDataMessage (thông điệp Compact Data (dữ liệu cô đọng)) trong SDMX-ML. Các điểm dưới đây áp dụng cho cả hai định dạng.
4.2.1. Nhiều cơ quan trung tâm liên quan đến trao đổi dữ liệu
Trong đoạn thảo luận về vai trò của các cơ quan trung tâm, đề cập đến việc cơ quan trung tâm quản lý trao đổi tập dữ liệu dựa trên định nghĩa cấu trúc nó tạo ra. Có thể có các trường hợp khác, trong đó định nghĩa cấu trúc của cơ quan thứ ba được sử dụng khi trao đổi dữ liệu. Trong trường hợp này, cơ quan trung tâm quản lý tập dữ liệu cần chú ý (có thể hợp tác với cơ quan duy trì định nghĩa cấu trúc tương ứng) rằng các định nghĩa cấu trúc quen thuộc với các đối tác trao đổi dữ liệu liên quan và thông điệp định nghĩa cấu trúc SDMX tương ứng cần được duy trì và cập nhật nếu cần thiết.
SDMX tạo điều kiện cho các cơ quan thành viên thiết kế các hệ thống trao đổi dữ liệu chung có xét đến vai trò của các cơ quan trung tâm khi đưa ra định nghĩa cấu trúc. Về nguyên tắc, mỗi cơ quan cần thiết kế hệ thống của nó theo cách có thể ứng phó với một môi trường tồn tại nhiều cơ quan duy trì định nghĩa cấu trúc. Ví dụ: hình vẽ sau đây mô tả các cách thức tổ chức định nghĩa cấu trúc công nhận sự tồn tại của ba cơ quan trung tâm (ví dụ, BIS, ECB, Eurostat). Trên thực tế, càng nhiều cơ quan trung tâm hình thành, các chi nhánh càng xuất hiện nhiều, thậm chí có thể bao gồm cả các cơ quan gia đình (ví dụ như một ngân hàng trung tâm hoặc cơ quan thống kê), nếu cơ quan gia đình đóng vai trò “tạo ra” định nghĩa cấu trúc trong cộng đồng người sử dụng.
4.2.2. Định vị miền dữ liệu “tần suất”
Vị trí miền dữ liệu “tần suất” không được định danh rõ ràng trong định nghĩa tập khóa. Ngoài ra, phần lớn các cơ quan trung tâm tạo ra ra định nghĩa cấu trúc quyết định gán miền dữ liệu này cho vị trí đầu tiên trong cấu trúc khóa. Điều này tạo điều kiện thuận lợi để định danh các miền dữ liệu, đôi khi nó cần thiết cho vai trò chủ yếu của tần suất trong một số hệ thống cơ sở dữ liệu và các thuộc tính đính kèm tại mức nhóm quan hệ.
4.2.3. Định danh các tập khóa
Để tạo điều kiện dễ dàng cho việc nhận dạng cơ quan duy trì định nghĩa cấu trúc được xác định trong tập khóa, hầu hết các cơ quan trung tâm sử dụng ký tự đầu tiên của thẻ định danh tập khóa để định danh cơ quan của họ: ví dụ như BIS_MACRO, EUROSTAT_BOP01, ECB_BOP1, v.v.
4.2.4. Định danh tập dữ liệu
Để tạo điều kiện dễ dàng cho việc nhận dạng cơ quan quản lý tập dữ liệu, nhiều cơ quan trung tâm sử dụng các ký tự đầu tiên của thẻ định danh tập dữ liệu để định danh cơ quan của họ: ví dụ như BIS_MACRO, ECB_BOP1, ECB_BOP1T, v.v.
4.2.5. Cung cấp đặc biệt
4.2.5.1. Cung cấp liên quan đến “tần suất”
Tần suất đặc biệt. Việc công bố dữ liệu được tập hợp tại các dải thời gian đặc biệt (theo quy luật hoặc không theo quy luật) ít hơn tần suất hàng ngày (ví dụ như 24 hoặc 36 hoặc 48 quan sát mỗi năm, vào các ngày không theo quy luật trong năm), điều này không thảo luận cụ thể ở đây. Tuy nhiên, đối với mục đích trao đổi dữ liệu:
o Các dữ liệu này có thể ánh xạ đến một chuỗi cùng với tần suất hàng ngày; chuỗi hàng ngày chỉ nắm giữ các quan sát cho các sự kiện diễn ra trong các ngày đó;
o Nếu dải thời gian tập hợp là các giá trị bổ sung và theo quy luật cho (các) danh sách mã tần suất hiện có được bổ sung trong tương lai.
Đánh dấu dữ liệu. Việc cung cấp dữ liệu tập hợp trong các dải thời gian không theo quy luật có tần suất cao hơn tần suất hàng ngày (ví dụ: dữ liệu phân thời gian) không được đề cập ở đây. Tuy nhiên, đối với mục đích trao đổi dữ liệu, các chuỗi này có thể được trao đổi trong định dạng SDMX-EDI bằng cách sử dụng các lựa chọn để gửi quan sát cùng với tem thời gian liên kết.
MỤC LỤC
Lời nói đầu
1. Giới thiệu
2. Mô hình thông tin SDMX cho người thực thi
2.1. Giới thiệu
2.2. Thành phần cơ bản của mô hình thông tin
2.3. Tập dữ liệu
2.4. Định dạng dữ liệu và mức đính kèm
2.5. Khái niệm, định nghĩa, đặc tính và quy tắc
3. So sánh chức năng và khả năng biểu diễn của SDMX-ML và SDMX-EDI
3.1. Tối ưu định dạng và sự khác biệt
3.2. Kiểu dữ liệu
4. Quy phạm hiệu quả nhất của SDMX-ML và SDMX-EDI
4.1. Hướng dẫn về thông báo và phổ biến
4.1.1. Cơ quan trung tâm và vai trò của chúng trong trao đổi dữ liệu thống kê
4.1.2. Định nghĩa các tập khóa
4.1.3. Thời gian và tần suất
4.1.4. Trao đổi thuộc tính
4.2. Quy phạm hiệu quả nhất cho trao đổi dữ liệu theo lô
4.2.1. Nhiều cơ quan trung tâm liên quan đến trao đổi dữ liệu
4.2.2. Định vị miền dữ liệu “tần suất”
4.2.3. Định danh các tập khóa
4.2.4. Định danh tập dữ liệu
4.2.5. Cung cấp đặc biệt
1 Trong trường hợp không tạo ra tập khóa riêng thì phải tạo ra lập chuỗi thời gian cho các miền dữ liệu không liên quan, giá trị như “không áp dụng”, “không xác định”, “tất cả” hoặc “tổng số” phải được gán cho miền dữ liệu này.
2 Tuy nhiên logic này không áp dụng cho thuộc tính ghi chú quan sát. Nếu nó không được nhận trong một trao đổi hoặc nếu nó tồn tại từ trước, giá trị nhận được trước đó vẫn được giữ trong cơ sở dữ liệu của người nhận (cung cấp quy tắc “cập nhật” và “sửa đổi”)
TIÊU CHUẨN QUỐC GIA TCVN 7981-5:2009 (ISO/TS 17369-5:2005) VỀ TRAO ĐỔI SIÊU DỮ LIỆU VÀ DỮ LIỆU THỐNG KÊ – PHẦN 5: HƯỚNG DẪN THỰC THI CÁC TIÊU CHUẨN ĐỊNH DẠNG SDMX | |||
Số, ký hiệu văn bản | TCVN7981-5:2009 | Ngày hiệu lực | |
Loại văn bản | Tiêu chuẩn Việt Nam | Ngày đăng công báo | |
Lĩnh vực |
Lĩnh vực khác |
Ngày ban hành | |
Cơ quan ban hành | Tình trạng | Còn hiệu lực |
Các văn bản liên kết
Văn bản được hướng dẫn | Văn bản hướng dẫn | ||
Văn bản được hợp nhất | Văn bản hợp nhất | ||
Văn bản bị sửa đổi, bổ sung | Văn bản sửa đổi, bổ sung | ||
Văn bản bị đính chính | Văn bản đính chính | ||
Văn bản bị thay thế | Văn bản thay thế | ||
Văn bản được dẫn chiếu | Văn bản căn cứ |