Gắn nhãn dữ liệu là gì?
Trong máy học, gắn nhãn dữ liệu là quá trình xác định dữ liệu thô (hình ảnh, tệp văn bản, video, v.v.) và thêm một hoặc nhiều nhãn có nghĩa và chứa thông tin hữu ích để cung cấp ngữ cảnh cho mô hình máy học có thể học hỏi từ đó. Ví dụ: nhãn có thể cho biết ảnh chứa con chim hay ô tô, những từ nào được phát ra trong bản ghi âm hoặc liệu ảnh chụp X-quang có chứa khối u hay không. Ghi nhãn dữ liệu là quy trình bắt buộc đối với nhiều trường hợp sử dụng, bao gồm cả thị giác máy tính, xử lý ngôn ngữ tự nhiên và nhận diện giọng nói.
Quy trình ghi nhãn dữ liệu hoạt động như thế nào?
Hiện nay, hầu hết các mô hình máy học thực tế đều sử dụng phương pháp học có giám sát. Phương pháp này áp dụng thuật toán để ánh xạ một đầu vào đến một đầu ra. Để phương pháp học có giám sát hoạt động hiệu quả, bạn cần cung cấp một tập dữ liệu được ghi nhãn nhằm đào tạo mô hình này đưa ra quyết định chính xác. Quy trình ghi nhãn dữ liệu thường bắt đầu bằng việc yêu cầu con người đánh giá về một dữ liệu cụ thể chưa được ghi nhãn. Ví dụ: Đặt ra câu hỏi “ảnh có chứa chim không” và yêu cầu người ghi nhãn gắn thẻ tất cả những hình ảnh trong tập dữ liệu thỏa mãn câu trả lời “có”. Thao tác gắn thẻ có thể chỉ đơn giản là trả lời có/không, nhưng cũng có thể chi tiết như là xác định các điểm ảnh cụ thể trong hình ảnh có liên quan đến chim. Mô hình máy học sẽ sử dụng nhãn do con người cung cấp để học các mẫu hình cơ bản trong một quy trình có tên là “đào tạo mô hình”. Cuối cùng, bạn có một mô hình được đào tạo, có thể dùng để đưa ra dự đoán về dữ liệu mới.
Trong máy học, tập dữ liệu được ghi nhãn thích hợp mà bạn sử dụng làm tiêu chuẩn khách quan để đào tạo và đánh giá một mô hình nhất định thường được gọi là “sự thật nền tảng”. Độ chính xác của mô hình được đào tạo sẽ phụ thuộc vào độ chính xác của sự thật nền tảng. Vì vậy, việc dành thời gian và nguồn lực để đảm bảo ghi nhãn dữ liệu với độ chính xác cao là rất cần thiết.
Có những loại ghi nhãn dữ liệu phổ biến nào?
Thị giác máy tính
Khi xây dựng hệ thống thị giác máy tính, trước tiên bạn cần ghi nhãn hình ảnh, điểm ảnh, điểm chính hoặc tạo một đường viền bao quanh hoàn toàn hình ảnh kỹ thuật số, gọi là hộp giới hạn, để tạo tập dữ liệu đào tạo. Ví dụ: Bạn có thể phân loại hình ảnh theo loại chất lượng (như hình ảnh sản phẩm so với hình ảnh trong bối cảnh đời thường) hoặc nội dung (những gì thực sự xuất hiện trong hình ảnh đó). Bạn cũng có thể phân đoạn hình ảnh theo cấp độ điểm ảnh. Sau đó, bạn có thể sử dụng dữ liệu đào tạo này nhằm xây dựng mô hình thị giác máy tính dùng để tự động phân loại hình ảnh, phát hiện vị trí đối tượng, xác định điểm chính trong hình ảnh hoặc phân đoạn hình ảnh.
Xử lý ngôn ngữ tự nhiên
Khi xử lý ngôn ngữ tự nhiên, trước tiên bạn phải xác định thủ công các phần quan trọng trong văn bản hoặc gắn thẻ văn bản bằng các nhãn cụ thể để tạo tập dữ liệu đào tạo. Ví dụ: Có thể bạn muốn xác định cảm xúc hoặc mục đích của một đoạn văn bản, xác định từ loại, phân loại danh từ riêng như địa điểm, con người và xác định văn bản trong hình ảnh, tệp PDF hoặc các tệp khác. Để thực hiện việc này, bạn có thể vẽ các hộp giới hạn xung quanh văn bản, rồi chép lại văn bản bằng cách thủ công vào tập dữ liệu đào tạo. Các mô hình xử lý ngôn ngữ tự nhiên được sử dụng để phân tích cảm xúc, nhận dạng tên thực thể và nhận dạng ký tự quang học.
Xử lý âm thanh
Xử lý âm thanh sẽ chuyển đổi tất cả các loại âm thanh như lời nói, tiếng ồn tự nhiên (tiếng sủa, tiếng còi hoặc tiếng hót) và âm thanh trong nhà (tiếng kính vỡ, tiếng máy quét hoặc tiếng báo động) thành định dạng có cấu trúc để có thể dùng trong máy học. Khi xử lý âm thanh, trước tiên bạn thường phải chép âm bằng cách thủ công thành văn bản viết. Từ đó, bạn có thể khám phá thông tin sâu hơn về âm thanh bằng cách thêm thẻ và phân loại âm thanh. Âm thanh được phân loại này sẽ trở thành tập dữ liệu đào tạo của bạn.
Đâu là một số biện pháp tốt nhất để ghi nhãn dữ liệu?
Có nhiều kỹ thuật giúp cải thiện tính hiệu quả và chính xác của việc ghi nhãn dữ liệu. Có thể kể đến một vài kỹ thuật như:
- Giao diện công việc trực quan và được sắp xếp hợp lý để giúp giảm thiểu tải nhận thức và việc phải chuyển đổi ngữ cảnh cho người ghi nhãn.
- Sự đồng thuận giữa đội ngũ ghi nhãn để giúp tránh lỗi/sai lệch của những người chú thích riêng lẻ. Để tạo ra sự đồng thuận giữa đội ngũ ghi nhãn, cần gửi từng đối tượng trong tập dữ liệu cho nhiều người chú thích, sau đó hợp nhất các phản hồi của họ (được gọi là “chú thích”) thành một nhãn duy nhất.
- Kiểm tra nhãn để xác minh tính chính xác của nhãn và cập nhật nhãn khi cần thiết.
- Học chủ động để ghi nhãn dữ liệu hiệu quả hơn bằng cách sử dụng máy học nhằm xác định dữ liệu phù hợp nhất để con người ghi nhãn.
Làm thế nào để ghi nhãn dữ liệu một cách hiệu quả?
Các mô hình machine learning thành công được xây dựng trên một khối lượng lớn dữ liệu đào tạo có chất lượng cao. Nhưng quy trình tạo ra dữ liệu đào tạo cần thiết để xây dựng các mô hình này thường đắt đỏ, phức tạp và tốn thời gian. Phần lớn các mô hình được tạo ra hiện nay yêu cầu con người ghi nhãn dữ liệu theo cách thủ công nhằm giúp cho mô hình học cách đưa ra quyết định chính xác. Để vượt qua thách thức này, bạn có thể nâng cao hiệu quả ghi nhãn bằng cách sử dụng mô hình máy học để ghi nhãn dữ liệu tự động.
Trong quy trình này, đầu tiên thì mô hình máy học ghi nhãn dữ liệu sẽ được đào tạo dựa trên một tập hợp con dữ liệu thô đã được con người ghi nhãn. Trong trường hợp kết quả của mô hình ghi nhãn có độ tin cậy cao dựa trên những gì đã học bấy lâu, mô hình sẽ tự động áp dụng nhãn cho dữ liệu thô. Trong trường hợp kết quả của mô hình ghi nhãn có độ tin cậy thấp hơn, mô hình sẽ chuyển dữ liệu để con người ghi nhãn. Sau đó, mô hình ghi nhãn lại nhận được nhãn do con người tạo ra để học và cải thiện khả năng tự động ghi nhãn cho tập dữ liệu thô tiếp theo. Dần dần, mô hình này có thể tự động ghi nhãn ngày càng nhiều dữ liệu hơn và tăng tốc đáng kể cho việc tạo các tập dữ liệu đào tạo.