Phiếu tự đánh giá cho hệ thống sản xuất học máy
Đối với mỗi bài kiểm tra, một điểm được trao cho việc thực hiện bài kiểm tra theo cách thủ công và ghi lại.
0 điểm: Nhiều dự án nghiên cứu hơn là một hệ thống sản xuất.
1-2 điểm: Không hoàn toàn chưa được kiểm tra nhưng đáng xem xét khả năng có những lỗ hổng nghiêm trọng về độ tin cậy.
3-4 điểm: Bước đầu tiên đã đạt ở bước sản xuất cơ bản nhưng có thể cần đầu tư thêm.
5-6 điểm: Được kiểm tra hợp lý nhưng có thể nhiều kiểm tra và quy trình đó có thể được tự động hóa.
7-10 điểm: Mức độ mạnh mẽ của kiểm tra và giám sát tự động, thích hợp cho nhiệm vụ hệ thống quan trọng.
12+ điểm: Mức độ kiểm tra và giám sát tự động vượt trội.
1. Kiểm tra tính năng và dữ liệu
Kiểm tra xem các bản phân phối của từng tính năng có phù hợp với mong đợi của bạn không.
Kiểm tra mối quan hệ giữa từng tính năng và mục tiêu và mối tương quan theo cặp giữa các tín hiệu riêng lẻ.
Kiểm tra chi phí của từng tính năng.
Kiểm tra xem một mô hình không chứa bất kỳ tính năng nào đã được xác định theo cách thủ công là không phù hợp để sử dụng.
Kiểm tra xem hệ thống của bạn có duy trì các biện pháp kiểm soát quyền riêng tư trên toàn bộ đường dẫn dữ liệu của nó hay không.
Kiểm tra thời gian biểu cần thiết để phát triển và thêm một tính năng mới vào mô hình sản xuất. Một nhóm có thể chuyển từ ý tưởng tính năng đến khi chạy trong quá trình sản xuất càng nhanh, thì nhóm đó có thể cải thiện hệ thống và phản ứng với các thay đổi bên ngoài càng nhanh.
Kiểm tra tất cả mã tạo ra các tính năng đầu vào, cả trong đào tạo và triển khai.
2. Kiểm tra phát triển mô hình
Kiểm tra xem mọi thông số kỹ thuật của mô hình đều trải qua quá trình xem xét mã (code review) và được đăng ký vào kho lưu trữ
Kiểm tra mối quan hệ giữa số liệu proxy ngoại tuyến và số liệu tác động thực tế. Điều này có thể được đo lường trong một thử nghiệm A / B quy mô nhỏ bằng cách sử dụng một mô hình kém chất lượng hơn một cách chủ đích.
Kiểm tra tác động của từng siêu thông số có thể điều chỉnh được. Có thể sử dụng grid search hoặc các chiến lược tìm kiếm siêu tham số khác
Kiểm tra ảnh hưởng của độ vững chắc của mô hình.
Kiểm tra dựa trên một mô hình đơn giản hơn làm đường cơ sở
Kiểm tra chất lượng mô hình trên các lát dữ liệu quan trọng.
Kiểm tra mô hình để tìm sai lệch ngầm định.
3. Kiểm tra cơ sở hạ tầng
Kiểm tra khả năng tái đào tạo.
Mã đặc tả mô hình kiểm thử đơn vị.
Tích hợp kiểm tra đường ống ML đầy đủ.
Kiểm tra chất lượng mô hình trước khi cố gắng phân phối nó.
Kiểm tra xem một ví dụ hoặc lô đào tạo có thể được gửi đến mô hình và các thay đổi đối với trạng thái bên trong có thể được quan sát từ đào tạo đến dự đoán.
Kiểm tra các mô hình thông qua quy trình canary trước khi chúng đi vào môi trường phục vụ sản xuất.
Kiểm tra mức độ nhanh chóng và an toàn mô hình có thể được khôi phục về phiên bản phân phối trước đó.
4. Kiểm tra quá trình giám sát
Kiểm tra tính không ổn định ngược dòng trong các tính năng, cả trong đào tạo và phục vụ.
Kiểm tra xem các biến dữ liệu có trong quá trình đào tạo và phục vụ đầu vào hay không.
Kiểm tra xem các tính năng đào tạo và phục vụ của bạn có tính các giá trị giống nhau không.
Kiểm tra độ bền của mô hình.
Kiểm tra NaN hoặc số vô hạn xuất hiện trong mô hình của bạn trong quá trình đào tạo hoặc phục vụ.
Kiểm tra sự thụt lùi đáng kể hoặc rò rỉ chậm về tốc độ đào tạo, độ trễ cung cấp, thông lượng hoặc mức sử dụng RAM.
Kiểm tra hồi quy về chất lượng dự đoán trên dữ liệu đã lưu.
Tài liệu nguồn: https://storage.googleapis.com/pub-tools-public-publication-data/pdf/45742.pdf
Last updated