Dữ liệu được gắn nhãn (Labeled Data) và sự thật cơ bản

Dữ liệu được gắn nhãn là gì?

Trong học máy (machine learning), nếu bạn có dữ liệu đã được gắn nhãn, điều đó có nghĩa là dữ liệu của bạn được đánh dấu hoặc được chú thích, để hiển thị mục tiêu, là câu trả lời mà bạn muốn mô hình machine learning của mình dự đoán.

Nói chung, data labeling có thể hiểu là các tác vụ bao gồm gắn thẻ dữ liệu, chú thích, phân loại, kiểm duyệt, phiên âm hoặc xử lý.

Chú thích dữ liệu (data annotation) là gì?

Chú thích dữ liệu thường để nói về quá trình gắn nhãn dữ liệu. Chú thích dữ liệu và gắn nhãn dữ liệu thường được sử dụng thay thế cho nhau, mặc dù chúng có thể được sử dụng khác nhau tùy theo ngành hoặc tình huống sử dụng.

Dữ liệu được gắn nhãn làm nổi bật các đặc tính của dữ liệu – thuộc tính, đặc điểm hoặc phân loại – mà có thể được phân tích để tìm ra các hình mẫu giúp dự đoán mục tiêu.

Ví dụ: trong tầm nhìn máy tính dành cho xe tự hành, một người gắn nhãn dữ liệu có thể sử dụng công cụ gắn nhãn video từng khung hình để chỉ ra vị trí của biển báo đường phố, người đi bộ hoặc các phương tiện khác.

Human-in-the-Loop’ (HITL) là gì?

HITL (bán tự hành) tận dụng trí thông minh của con người và máy móc để tạo ra các mô hình học máy.

Trong cấu hình HITL, con người tham gia vào một vòng tròn cải tiến trong đó khả năng phán đoán của con người được sử dụng để đào tạo, điều chỉnh và kiểm tra một mô hình dữ liệu cụ thể.

Các nhãn trong học máy là gì?

Nhãn là thứ mà HITL sử dụng để xác định và gọi ra các đặc tính có trong dữ liệu.

Việc lựa chọn các đặc tính có tính thông tin, phân biệt và độc lập để gắn nhãn là cực kỳ quan trọng nếu bạn muốn phát triển các thuật toán trong nhận dạng hình mẫu, phân loại và hồi quy một cách hiệu quả.

Dữ liệu được gắn nhãn chính xác có thể cung cấp sự thật nền tảng để thử nghiệm và lặp lại các mô hình của bạn.

“Sự thật nền tảng” trong học máy là gì?

Trong học máy, “sự thật nền tảng” (ground truth) nghĩa là kiểm tra độ chính xác trong kết quả của các thuật toán ML so với thế giới thực. Về bản chất, đó là kiểm tra thực tế về độ chính xác của các thuật toán.

Thuật ngữ này được mượn từ khí tượng học, trong đó “sự thật nền tảng” đề cập đến thông tin thu được trên mặt đất nơi một sự kiện thời tiết xảy ra, dữ liệu đó sau đó được so sánh với các mô hình dự báo để xác định độ chính xác của chúng.

“Dữ liệu đào tạo” trong học máy là gì?

Dữ liệu đào tạo là dữ liệu đã được làm giàu (enriched data) mà bạn sử dụng để đào tạo mô hình hoặc thuật toán machine learning.

Ngày nay, các công ty thực hiện data labeling ra sao?

Các tổ chức sử dụng sự kết hợp giữa phần mềm, quy trình và con người để làm sạch, tạo cấu trúc hoặc gắn nhãn dữ liệu.

Nói chung, bạn có 4 phướng án đối với nhân sự làm data labeling:

  • Nhân viên – Họ thuộc biên chế của bạn, toàn thời gian hoặc bán thời gian. Mô tả công việc của họ có thể không bao gồm data labeling.
  • Các nhóm được quản lý – Bạn sử dụng các nhóm nhân viên gắn nhãn dữ liệu đã được kiểm tra, đào tạo và quản lý.
  • Nhà thầu – Họ là người lao động tạm thời hoặc tự do.
  • Crowdsourcing – Bạn sử dụng nền tảng của bên thứ ba để tiếp cận nhiều người lao động cùng một lúc.

Data Labeling bao gồm một loạt các nhiệm vụ:

  • Sử dụng công cụ để làm giàu dữ liệu
  • Đảm bảo chất lượng cho việc gắn nhãn dữ liệu
  • Lặp lại quy trình, chẳng hạn như các thay đổi trong lựa chọn đặc tính dữ liệu, tiến trình tác vụ hoặc QA
  • Quản lý nhân viên gắn nhãn dữ liệu
  • Đào tạo thành viên mới trong nhóm
  • Lập kế hoạch dự án, vận hành quy trình và đo lường thành công

Related articles

6 thách thức trong gán nhãn hình ảnh (Image Annotation)

Công việc gán nhãn hình ảnh hiện nay ngày...

Hiểu biết về Data Labeling có hữu ích cho bạn?

Nếu bạn có một lượng lớn dữ liệu muốn...

Ghi nhãn dữ liệu là gì?

Gắn nhãn dữ liệu là gì? Trong máy học, gắn...

Ứng dụng AI trong quản trị và số hóa dữ liệu

Với sự phát triển của công nghệ, quá trình...

Case Studies

Check liệu Hộ Tịch

Dự án số hoá – Nhập liệu dữ liệu Bến Tre

Dự án số hoá là dự án số hoá các thông tin về dữ liệu hành chính công. Các dữ liệu mang tính bảo...
Check liệu Hộ Tịch

Dự án số hoá – Nhập liệu dữ liệu Sơn Tây

Dự án số hoá là dự án số hoá các thông tin về dữ liệu hành chính công. Các dữ liệu mang tính bảo...
Đặt tên Dữ Liệu

Dự án số hoá – Nhập liệu dữ liệu Trà Vinh

Dự án số hoá là dự án số hoá các thông tin về dữ liệu hành chính công. Các dữ liệu mang tính bảo...