Buổi seminar của tuần thứ 2 sẽ giới thiệu đến các bạn quá trình tiền xử lý dữ liệu và vai trò của nó. Đồng thời cũng trình bày các kỹ thuật tiền xử lý dữ liệu trong các dự án thực tế.
Qua buổi này, các bạn sẽ:
– Nắm được các kỹ thuật tiền xử lý dữ liệu: data cleaning, data integration, data transformation, data reduction.
– Có khả năng thực hiện data preprocessing cho một tập dữ liệu đơn giản cho trước.
Nội dung chi tiết:
– Giới thiệu Data Preprocesing (về vai trò và khái niệm).
– Các bước trong data preprocessing: data cleaning, data integration, data transformation, data reduction.
– Một số kỹ thuật cho data preprocessing
+ Data Cleaning: Missing Data, Noisy Data, Inconsistent Data.
+ Data Integration: Schema integration and object matching, removing redundant attributes, detection and resolution data value conflicts.
+ Data transformation: Generalization, Normalization, Attribute Selection, Aggregation.
+ Data reduction: Data cube aggregation, Dimensionality reduction, Data compression, Attribute subset selection.
– Tổng kết lại một số kỹ thuật và kinh nghiệm.
– Lab hours: Ôn tập Scikit-learn, Pandas; Làm bài tập trên Kaggle.
🧑💻 Đối tượng: Sinh viên Bách Khoa K19, K20, K21 quan tâm đến các bài toán thực tế về AI và data.
⏰ Thời gian: 9 AM – 11.30 AM, thứ Bảy ngày 01-10-2022.
🎯 Địa điểm: Phòng 303B9, Cơ sở Lý Thường Kiệt (Quận 10), Trường Đại học Bách Khoa, Tp.HCM.