Greenplum: Làm thế nào để tìm thấy Skewness của bảng (Skew of data)?

2022-10-22 23:14:17

Greenplum dựa trên kiến trúc MPP (Xử lý song song khối lượng lớn).
Có nhiều phân đoạn đang chạy ở chế độ không có gì được chia sẻ, điều đó có nghĩa là dữ liệu của bạn phải phân bổ đồng đều trên tất cả các phân đoạn.

Nếu dữ liệu bảng không được phân phối đều, chúng ta không thể đạt được hiệu suất tốt của hệ thống xử lý song song.

Độ lệch của bảng có nghĩa là dữ liệu bảng không được phân phối đồng đều trên các phân đoạn và khối lượng công việc không được phân chia hợp lý giữa các phân đoạn.

Bạn có thể tìm độ lệch của dữ liệu bằng cách kiểm tra gp_segment_id cho mỗi bản ghi.

Số lượng bản ghi của các phân đoạn phải rất gần nhau như 90% đến 95% và nếu bạn nhận thấy sự khác biệt lớn về số lượng hoặc số lượng 0 cho một vài phân đoạn có nghĩa là dữ liệu của bạn không được phân phối đúng cách.

Hai chế độ xem gp_toolkit khác để lấy thông tin về Độ lệch của dữ liệu:

gp_toolkit.gp_skew_coefficients: Chế độ xem này hiển thị độ lệch phân phối dữ liệu bằng cách tính toán hệ số biến thiên (CV) cho dữ liệu được lưu trữ trên mỗi phân đoạn.
gp_toolkit.gp_skew_idle_fraction: Chế độ xem này hiển thị độ lệch phân phối dữ liệu bằng cách tính toán tỷ lệ phần trăm hệ thống không hoạt động trong quá trình quét bảng, đây là một chỉ báo về độ lệch dữ liệu xử lý.

Xem thêm:


Chia sẻ: