Buổi seminar của tuần thứ 3 sẽ giới thiệu cho các bạn hiện tượng mất cân bằng dữ liệu, những lĩnh vực dễ gây ra hiện tượng và cách để giải quyết các vấn đề do hiện tượng gây ra, ngoài ra cũng giúp các bạn thành thục hơn với việc sử dụng thư viện build nhanh model ML (sklearn).
Qua buổi này, các bạn sẽ dần hình thành mindset trong việc điều chỉnh mô hình cũng như điều chỉnh dữ liệu cho phù hợp để đạt được độ chính xác cao hơn dựa vào đặc thù của bài toán.
Nội dung chi tiết:
– Giới thiệu về bài toán Imbalance Data: về khái niệm và các lĩnh vực thường gặp.
– Giới thiệu về cách phân chia tập dữ liệu và metrics đánh giá: Cách phân chia tập xử lý cho bài toán và Các metrics thường dùng.
– Giới thiệu về các phương pháp xử lý data Imbalance: UnderSampling, OverSampling, Feature Selection, Thu thập thêm quan sát, Thu thập thêm biến.
– Các mô hình thường sử dụng cho bài toán: Decision Tree và Ensemble Learning.
– Tổng kết và một số kinh nghiệm.
– Lab hours: Ôn tập và thực chiến.
– Q&A.
🧑💻 Đối tượng: Những bạn có nhu cầu tìm hiểu sâu về dữ liệu, điển hình là hiện tượng mất cân bằng dữ liệu cũng như quan tâm đến việc evaluate, experiment với model.
⏰ Thời gian: 8 AM – 10.30 AM, thứ Bảy ngày 15-10-2022.
🎯 Địa điểm: Cơ sở Dĩ An, Trường Đại học Bách Khoa, Tp.HCM.