Nếu bạn có một lượng lớn dữ liệu muốn sử dụng trong học máy (machine learning) hoặc học sâu (deep learning), bạn sẽ cần tới các công cụ và con người để làm giàu cho dữ liệu đó nhằm đào tạo, đánh giá và điều chỉnh mô hình của mình.
Hướng dẫn này sẽ hữu ích nhất nếu bạn có dữ liệu mà bạn có thể gắn nhãn và bạn đang đối mặt với một hoặc nhiều thách thức dưới đây.
1. Bạn có rất nhiều dữ liệu chưa được gắn nhãn
Hầu hết dữ liệu không được gắn nhãn và đó là thách thức đối với hầu hết các nhóm dự án AI.
Theo công ty phân tích Cognilytica, toàn bộ 80% thời gian dự án AI được dành cho việc thu thập, sắp xếp và gắn nhãn dữ liệu (data labeling), và đây là thời gian mà các nhóm không muốn bỏ ra vì họ đang trong cuộc chạy đua tới dữ-liệu-có-thể-sử-dụng được, tức là dữ liệu được cấu trúc và dán nhãn phù hợp để đào tạo và triển khai các mô hình.
2. Các nhãn dữ liệu của bạn có chất lượng thấp
Có rất nhiều lý do khiến dữ liệu được gắn nhãn của bạn có chất lượng thấp, nguyên nhân thường ở con người, quy trình hoặc công nghệ được sử dụng trong quy trình data labeling.
3. Quá trình gắn nhãn dữ liệu của bạn không hiệu quả hoặc tốn kém
Nếu bạn đang trả tiền cho các nhà khoa học dữ liệu (data scientist) để xử lý dữ liệu, thì tốt hơn bạn nên tìm cách thức khác.
Mức lương cho các nhà khoa học dữ liệu có thể lên tới 190.000 đô / năm. Thật phí phạm khi để những nhân sự được trả lương cao này dành thời gian vào công việc cơ bản, lặp đi lặp lại.
4. Bạn cần bổ sung QA (quality assurance) vào quy trình gắn nhãn dữ liệu của mình hoặc cải tiến quy trình QA đã thực hiện
Đây là nơi mà data labeling thường bỏ sót và có thể cung cấp giá trị đáng kể, đặc biệt là trong giai đoạn thử nghiệm và đánh giá mô hình học máy.