Nghiên cứu một số thuật toán ứng dụng datamining tailieu.vn năm 2024

Phân cụm dữ liệu là một kỹ thuật trong DATA MINING, nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích cho việc ra quyết định. Như vậy phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm tương tự với nhau

Từ khóa: tiểu luận nghiên cứu đề tài, công nghệ thông tin, dữ liệu mờ, thuật toán phân cụm, bài toán ứng dụng, thuật toán k-means, thuật toán k-tâm

Nội dung Text: Báo cáo đề tài nghiên cứu khoa học cấp trường: Nghiên cứu một số thuật toán học máy (machine learning) ứng dụng cho bài toán xác định các chủ đề quan tâm của khách hàng trực tuyến

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY (MACHINE LEARNING) ỨNG DỤNG CHO BÀI TOÁN XÁC ĐỊNH CÁC CHỦ ĐỀ QUAN TÂM CỦA KHÁCH HÀNG TRỰC TUYẾN Mã số đề tài: CS20_37 Chủ nhiệm đề tài: ThS. Nguyễn Thị Hội Thành viên tham gia: ThS. Trần Thị Nhung ThS. Nguyễn Thị Đào Hà Nội, 03 - 2021
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG NGHIÊN CỨU MỘT SỐ THUẬT TOÁN HỌC MÁY (MACHINE LEARNING) ỨNG DỤNG CHO BÀI TOÁN XÁC ĐỊNH CÁC CHỦ ĐỀ QUAN TÂM CỦA KHÁCH HÀNG TRỰC TUYẾN Mã số đề tài: CS20_37 Chủ nhiệm đề tài: ThS. Nguyễn Thị Hội Thành viên tham gia: ThS. Trần Thị Nhung ThS. Nguyễn Thị Đào Xác nhận của Trường Đại học Thương mại Chủ nhiệm đề tài 2
  3. MỤC LỤC DANH MỤC TỪ VIẾT TẮT ......................................................................................... 5 DANH MỤC BẢNG BIỂU ............................................................................................. 6 DANH MỤC HÌNH VẼ .................................................................................................. 6 THÔNG TIN KẾT QUẢ NGHIÊN CỨU ....................................................................... 7 MỞ ĐẦU ......................................................................................................................... 8 CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU ................................................... 8 1.1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI NGHIÊN CỨU .............................................. 8 1.2. TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU ........................................................ 9 1.2.1 Tình hình nghiên cứu trong nước .................................................................... 9 1.2.2. Tính hình nghiên cứu ngoài nước ................................................................ 11 1.3. MỤC TIÊU NGHIÊN CỨU ............................................................................... 12 1.4. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ................................................... 13 1.4.1. Đối tượng nghiên cứu .................................................................................. 13 1.4.2. Phạm vi nghiên cứu ...................................................................................... 13 1.5. PHƯƠNG PHÁP NGHIÊN CỨU ...................................................................... 13 1.5.1. Cách tiếp cận ................................................................................................ 13 1.5.2. Phương pháp nghiên cứu.............................................................................. 13 1.6. KẾT CẤU BÁO CÁO NGHIÊN CỨU .............................................................. 14 CHƯƠNG 2. HỌC MÁY VÀ ỨNG DỤNG TRONG BÀI TOÁN KINH TẾ ............. 16 2.1. TỔNG QUAN VỀ HỌC MÁY........................................................................... 16 2.2. QUY TRÌNH PHÂN TÍCH DỮ LIỆU BẰNG HỌC MÁY ............................... 17 2.3. MỘT SỐ THUẬT TOÁN HỌC MÁY PHỔ BIẾN............................................ 17 2.3.1. Phân loại dựa trên phương thức học ............................................................ 17 2.3.2. Phân loại dựa trên sự tương đồng về cách hoạt động .................................. 20 2.4. ỨNG DỤNG HỌC MÁY TRONG CÁC BÀI TOÁN KINH TẾ ...................... 22 2.4.1. Học máy ứng dụng trong tài chính............................................................... 22 2.4.2. Học máy ứng dụng trong Marketing ............................................................ 27 2.4.3. Học máy ứng dụng trong Thương mại điện tử............................................. 28 CHƯƠNG 3. BÀI TOÁN PHÂN LOẠI KHÁCH HÀNG THEO CHỦ ĐỀ ................ 31 3.1. VAI TRÒ CỦA PHÂN TÍCH DỮ LIỆU KHÁCH HÀNG................................ 31 3.1.1. Quan hệ khách hàng trong kinh doanh......................................................... 31 3
  4. 3.1.2. Vai trò của bài toán phân tích dữ liệu khách hàng ....................................... 32 3.1.3. Dữ liệu khách hàng ...................................................................................... 33 3.2. BÀI TOÁN PHÂN LOẠI KHÁCH HÀNG TRỰC TUYẾN THEO CHỦ ĐỀ . 34 3.3. CÁC HƯỚNG TIẾP CẬN CỦA BÀI TOÁN .................................................... 35 3.4. ỨNG DỤNG CỦA BÀI TOÁN ......................................................................... 37 3.4.1. Ứng dụng trong hệ thống khuyến nghị ........................................................ 37 3.4.2. Ứng dụng trong phân nhóm khách hàng ...................................................... 38 CHƯƠNG 4: THỰC NGHIỆM, ĐÁNH GIÁ VÀ THẢO LUẬN ................................ 41 4.1. MỤC ĐÍCH VÀ CHUẨN BỊ CHO THỰC NGHIỆM ....................................... 41 4.1.1. Mục đích của thực nghiệm ........................................................................... 41 4.1.2. Các bước chuẩn bị cho thực nghiệm ............................................................ 41 4.2. KỊCH BẢN THỰC NGHIỆM VÀ THAM SỐ ĐẦU RA .................................. 48 4.2.1. Kịch bản thực nghiệm .................................................................................. 48 4.2.2. Tham số đầu ra ............................................................................................. 49 4.3. KẾT QUẢ THỰC NGHIỆM, ĐÁNH GIÁ VÀ THẢO LUẬN ......................... 49 4.5 CÁC HÀM Ý ĐỀ XUẤT ỨNG DỤNG CHO TỔ CHỨC, DOANH NGHIỆP.. 55 KẾT LUẬN ................................................................................................................... 59 DANH MỤC TÀI LIỆU THAM KHẢO ...................................................................... 60 PHỤ LỤC ...................................................................................................................... 62 4
  5. DANH MỤC TỪ VIẾT TẮT Từ viết Diễn giải Nghĩa tiếng việt tắt AI Artificial Intelligence Trí tuệ nhân tạo B2C Business to Customer Doanh nghiệp đến khách hàng ML Machine Learning Học máy TMĐT Thương mại điện tử CNTT Công nghệ thông tin CNN Convolutional Neural Network Mạng nơ ron tích chập KNN K - Nearest Neighbors Người láng giềng gần nhất MNB Multinomial Naive Bayes Mô hình xác suất phân lớp SVM Support Vector Machines Mô hình không gian véc tơ W2Vec Word to Vector Mô hình véc tơ 5
  6. DANH MỤC BẢNG BIỂU Bảng 4.1: Tóm tắt thông số của các bộ dữ liệu thử nghiệm .......................................... 43 Bảng 4.2: Minh họa dữ liệu thu thập từ thực tế ............................................................. 43 Bảng 4.3: Danh sách các thuật toán được sử dụng để so sánh ...................................... 44 Bảng 4.4: Độ chính xác Accuracy trên bộ ngữ liệu 20 NewsGroups ........................... 50 Bảng 4.5 Độ chính xác F1- score trên bộ ngữ liệu 20 NewsGroups ............................. 51 Bảng 4.6: Độ chính xác các thuật toán trên bộ ngữ liệu Tiếng Việt ............................. 52 Bảng 4.7: Kết quả F1- score trên bộ ngữ liệu Tiếng Việt ............................................. 53 DANH MỤC HÌNH VẼ Hình 2.1: Quy trình xử lý dữ liệu bằng học máy........................................................... 17 Hình 2.2: Phân loại các thuật toán theo phương pháp học ............................................ 18 Hình 2.3: Phân loại thuật toán theo sự tương đồng về hoạt động ................................. 20 Hình 3.1: Mô phỏng bài toán ......................................................................................... 35 Hình 3.2: Ứng dụng vào hệ thống khuyến nghị sản phẩm ............................................ 38 Hình 3.3: Ứng dụng vào hệ thống phân tích dữ liệu khách hàng .................................. 40 Hình 4.1: Thu thập từ phần đánh giá sản phẩm của trang https://shopee.vn/ và sendo.vn ....................................................................................................................................... 42 Hình 4.2: Thu thập từ đánh giá sản phẩm của trang Facebook.com và YouTube.com 42 Hình 4.3 : Minh họa thuật toán CNN (Kim Y. , 2014) ................................................. 45 Hình 4.4 : Minh họa thuật toán Word2Vec (Kim Y. , 2014) ........................................ 46 Hình 4.5: Thuật toán NB nguyên thủy .......................................................................... 47 Hình 4.6 : Mô phỏng thuật toán SVM (......................................................................... 47 Hình 4.7: So sánh Accuracy và F1- score trên bộ 20 NewsGroups .............................. 52 Hình 4.8: So sánh Accuracy và F1- score trên bộ dữ liệu Tiếng Việt........................... 53 Hình 4.9: Phân nhóm khách hàng dựa trên học máy..................................................... 55 6
  7. THÔNG TIN KẾT QUẢ NGHIÊN CỨU Đề tài được thực hiện trong 08 tháng từ tháng 07 năm 2020 đến hết tháng 03 năm 2021, trong quá trình thực hiện đề tài, nhóm nghiên cứu đã thực hiện các công việc sau: - Thu thập các tài liệu liên quan đến đề tài từ các nguồn khác nhau như mạng Internet, sách, các tạp chí và các Kỷ yếu Hội thảo - Dựa trên tình hình thực tế về phát triển công nghệ ứng dụng, nhóm nghiên cứu viết báo cáo kết quả của đề tài với bài báo có tên: “Discovering interest topics of online customer by machine learning” được in trong Kỷ yếu Hội thảo Khoa học Quốc tế: “Phát triển kinh tế và thương mại Việt Nam trong bối cảnh bảo hộ thương mại”, tháng 08 năm 2020, NXB Hà Nội - Dựa trên tình hình thực tế về phát triển công nghệ ứng, nhóm nghiên cứu viết báo cáo kết quả của đề tài với bài báo thứ hai có tên: “So sánh một số thuật toán học máy ứng dụng trong phân tích dữ liệu khách hàng trực tuyến” được in trong Kỷ yếu Hội thảo Khoa học Quốc gia: "Phát triển thương mại điện tử Việt Nam trong kỷ nguyên số", tháng 11 năm 2020, NXB Thống kê - Trong quá trình nghiên cứu và thực hiện đề tài, nhóm nghiên cứu đã thực hiện thu thập các tài liệu liên quan đến học máy từ các sách, báo, tạp chí và các phần mềm, thư viện các thuật toán từ mạng Internet, các thuật toán phổ biến cho học máy và các bộ dữ liệu để thực nghiệm - Quá trình thực nghiệm để so sánh các thuật toán được nhóm thực hiện cài đặt bằng ngôn ngữ lập Python version 3.8 trên hệ điều hành Windows 10. Môi trường soạn thảo và thực thi mã nguồn IDE Python là Wing 101 version 7.2.50. Trong quá trình thực hiện nhóm có sử dụng một số thư viện và một số mã nguồn trên hệ thống Python online. - Đề tài nghiên cứu đã cài đặt 7 thuật toán phân loại để so sánh bao gồm: CNN, T2V, MNB, NB, SVM, K-NN và C4.5. Tiến hành thực nghiệm trên 02 bộ dữ liệu: Bộ dữ liệu chuẩn 20News group lấy từ hệ thống thư viện miễn phí của đại học Stanford và bộ dữ liệu thực tế thu thập được từ một số trang thương mại điện tử và phương tiện truyền thông xã hội của Việt Nam - Kết quả của đề tài nghiên cứu có thể sử dụng làm tài liệu tham khảo cho giảng viên và sinh viên trong quá trình giảng dạy, học tập các học phần “Hệ thống thông tin quản lý”, “Marketing thương mại điện tử” và “Khai phá dữ liệu trong kinh doanh” - Ngoài ra, hướng tiếp cận của đề tài cũng được nhóm nghiên cứu sử dụng trong định hướng đề tài làm khóa luận Tốt nghiệp của một số sinh viên chuyên ngành Quản trị HTTT của K53S - Cuối cùng, các kết quả nghiên cứu được trình bày chi tiết cụ thể trong Báo cáo kết quả nghiên cứu này 7
  8. MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI NGHIÊN CỨU 1.1. TÍNH CẤP THIẾT CỦA ĐỀ TÀI NGHIÊN CỨU Các phương tiện truyền thông xã hội (social media) xuất hiện vào những năm cuối thế kỷ 20 đã tạo điều kiện thuận lợi cho hàng triệu người trên thế giới kết nối, thiết lập và duy trì các mối quan hệ cũng như tiếp cận và chia sẻ thông tin với nhau. Sự ảnh hưởng của các phương tiện truyền thông xã hội đến mọi mặt trong đời sống xã hội đang ngày càng khẳng định rõ vai trò của chúng trong nhiều lĩnh vực đặc biệt là giáo dục, kinh doanh, và các vấn đề xã hội như phát hiện lừa đảo, phát hiện tâm lý tội phạm trong nghiên cứu của Zafarani Reza et al., [24] và D. M. Boyd et al [9]. Bên cạnh những khách hàng cá nhân, các tổ chức, doanh nghiệp, các nhà quản lý cũng sử dụng các phương tiện truyền thông xã hội như một kênh truyền thông mới, với nhiều ưu thế như chi phí tiết kiệm, có hiệu quả lan truyền cao trong các hoạt động sản xuất kinh doanh của các tổ chức, doanh nghiệp A. Abdul-Rahim et al., [1], Amedie Jacob et al., [5], Hsinchun Chen et la., [15]. Thêm nữa, với sự phát triển không ngừng của các thiết bị di động như điện thoại thông minh (smart phones), thiết bị cầm tay thông minh (tablet), máy tính bảng (Ipad), v.v. cùng với hạ tầng cơ sở viễn thông lan tỏa rộng khắp, hệ thống mạng Internet công cộng phủ sóng miễn phí ở các thành phố lớn đã giúp cho các mạng xã hội ngày càng phổ biến và lan rộng. Do đó, các cá nhân và các tổ chức, doanh nghiệp ngày càng chú ý nhiều hơn đến các ứng dụng của mạng xã hội vào hỗ trợ các hoạt động kinh doanh, hoạt động giáo dục, các biện pháp quản lý và điều hành trong hoạt động của các tổ chức, doanh nghiệp. Một chiến lược kinh doanh dựa trên quản trị quan hệ khách hàng vì vậy cần có sự đối xử khác nhau với những khách hàng khác nhau. Một doanh nghiệp phải có khả năng nhận diện và nhận ra những khách hàng cá nhân khác nhau và phải biết điều gì khiến khách hàng này khác khách hàng kia. Cần có tương tác cá nhân với bất kì khách hàng nào, đôi khi phải thay đổi hành vi để đáp ứng nhu cầu cụ thể của khách hàng đó hay phát hiện được nhu cầu, và quan trọng là phải đem lại lợi nhuận tối đa cho khách hàng cũng như doanh nghiệp, việc ứng dụng phân tích dữ liệu (Data Analysis) đóng vai trò quan trọng trong việc xác định được định hướng và mục tiêu kinh doanh, khám phá ý nghĩa đằng sau các con số và số liệu trong dữ liệu của khách hàng và có đóng góp vào việc ra quyết định kinh doanh của các tổ chức, doanh nghiệp [1] [2]. Thông tin khách hàng cũng cung cấp cho doanh nghiệp khả năng phân biệt khách hàng của mình với những người khác. Thông tin khách hàng là một tài sản kinh tế, tựa như một phần của thiết bị, nhà máy hay bằng sáng chế, giúp doanh nghiệp cải thiện sản xuất, giảm chi phí bình quân. Một khi công ty bắt đầu có quan điểm kinh doanh cụ thể về khách hàng, công ty sẽ bắt đầu xem khách hàng như tài sản cần được quản trị chu đáo như những tài sản khác. Ở khía cạnh tài chính, chiến lược kiểu này sẽ có khuynh hướng tập trung nhiều nguồn lực của tổ chức hơn nhằm thỏa mãn nhu cầu của những 8
  9. khách hàng đó để đem lại giá trị dài hạn cho doanh nghiệp, trong khi đó giới hạn hoặc giảm nguồn lực với những khách hàng có giá trị thấp hơn [2]. Tạo ra và quản trị quan hệ khách hàng cá nhân có thể thất bại nếu không có bốn thành tố bao gồm: Nhận diện khách hàng; Phân biệt khách hàng; Tương tác với khách hàng và Đối xử tùy biến. Để đạt được 4 yếu tố này thì các tổ chức kinh doanh, các nhà nghiên cứu đã đưa ra rất nhiều phương pháp và hướng tiếp cận khác nhau, tuy nhiên trong những năm gần đây, kết hợp học máy trong phân tích dữ liệu kinh doanh nói chung và dữ liệu về khách hàng nói riêng đã được sử dụng và được coi là một hướng tiếp cận có nhiều kết quả tốt. Đặc biệt trong bối cảnh cách mạng công nghệ lần thứ 4 đang lan rộng thì học máy kết hợp phân tích dữ liệu trực tuyến được coi là xu hướng mới trong ứng dụng công nghệ thông tin vào các hoạt động kinh doanh. Do đó, pha nhóm nghiên cứu lựa chọn đề tài “Nghiên cứu một số thuật toán học máy (machine learning) ứng dụng cho bài toán xác định các chủ đề quan tâm của khách hàng trực tuyến” nhằm đưa ra một báo cáo tổng quan về học máy và các thuật toán học máy phổ biến được ứng dụng cho bài toán xác định các chủ đề quan tâm về sản phẩm và dịch vụ của khách hàng trực tuyến trên các phương tiện truyền thông xã hội. Bên cạnh đó, đề tài cũng là tài liệu hỗ trợ quá trình học tập và giảng dạy nội dung về hệ thống phân tích dữ liệu khách hàng, khai thác dữ liệu trực tuyến và như một hướng tiếp cận trong marketing cá nhân hóa khách hàng. Kết quả của đề tài nghiên cứu có thể sử dụng làm tài liệu tham khảo cho giảng viên và sinh viên trong quá trình giảng dạy và học tập các học phần “Hệ thống thông tin quản lý”, “Marketing thương mại điện tử” và “Khai phá dữ liệu trong kinh doanh” 1.2. TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU 1.2.1. Tình hình nghiên cứu trong nước Bài toán phân loại khách hàng đóng vai trò quan trọng trong hoạt động kinh doanh của các tổ chức, doanh nghiệp. Phân tích dữ liệu về khách hàng không chỉ đơn thuần là trình bày các con số và các số liệu để quản lý mà còn đòi hỏi một cách tiếp cận sâu sắc hơn trong việc ghi lại, phân tích và trình bày các phát hiện theo cách dễ hiểu hơn nhằm hỗ trợ tổ chức, doanh nghiệp trong hoạt động quản trị chăm sóc khách hàng, hoạt động bán hàng và marketing. Cùng với sự phát triển của công nghệ thông tin và sự lan tỏa của cuộc cách mạng công nghệ lần thứ 4, học máy (Machine learning) cùng với các thuật toán học máy ngày càng được ứng dụng nhiều hơn trong các bài toán kinh tế. Đặc biệt các bài toán ứng dụng dựa trên việc khai phá dữ liệu (Data mining) hay là các bài toán rút trích, khám phá ra các thông tin có giá trị hoặc đưa ra các dự đoán từ dữ liệu đã có. Như các bài toán ứng dụng trong phát hiện bất thường (Anomaly detection), phát hiện các ngoại lệ, ví dụ như phát hiện gian lận thẻ tín dụng; Các bài toán Phát hiện các quy luật (Association rules), ví dụ, trong một siêu thị hay một trang thương mại điện tử hay việc phát hiện các quy luật của khách hàng như khi khách hàng mua món hàng A thường mua kèm món hàng nào? Các thông tin này rất hữu ích cho việc tiếp thị sản 9
  10. phẩm và hỗ trợ các chiến lược quảng bá sản phẩm; Các bài toán Gom nhóm hay phân loại (Grouping or Classification), ví dụ, khách hàng được phân nhóm theo hành vi hoặc thông tin hồ sơ của họ, khách hàng thường có những thói quen và hành vi dựa trên sự yêu thích thì cũng có thể nhóm vào các lớp, … và các bài toán dự đoán (Predictions) dựa trên dữ liệu của khách hàng, chẳng hạn như có thể dự đoán giá của căn hộ dựa trên các dữ liệu là giá các căn hộ mà khách hàng đã từng mua hoặc đã từng quan tâm theo dõi trước đó. Các thuật toán học máy được giới thiệu và ứng dụng trong nhiều bài toán kinh tế như ứng dụng trong một số hoạt động kinh doanh cho tổ chức như Nguyễn Anh Duy và Nguyễn Phúc Quỳnh Như [8] đã giới thiệu các ứng dụng của amazone.com bao gồm: Hệ thống giới thiệu cá nhân (Personalized Recommendation System); có thể dùng bộ máy lọc khách hàng (Comprehensive collaborative Filtering Engine) hoặc giới thiệu về Các từ khóa trong Kindle Book (Recommendations from Kindle Highlighting) hay phân loại khách hàng dựa trên hành vi Click chuột (One-Click Ordering). Hoặc ứng dụng trong Mô hình giao hàng dự đoán (Anticipatory Shipping Model). Trong nghiên cứu của Phan Thanh Đức và các tác giả [8] cũng đề cập đến các ứng dụng của phân tích dữ liệu khách hàng trong hoạt động quản trị chăm sóc khách hàng của các ngân hàng thương mại Việt Nam. Trong nghiên cứu cũng thấy rõ những lợi ích mà phân tích dữ liệu khách hàng trực tuyến (Big Data) tạo ra cho các ngân hàng thương mại. Bằng việc thu thập dữ liệu từ các nguồn như các website thương mại điện tử, mạng xã hội zalo, các nền tảng dịch vụ khác để thu thập, phân tích và đề xuất hệ thống CRM hỗ trợ trong hoạt động chăm sóc khách hàng. Trong nghiên cứu của Huỳnh Quyết Thắng, Đinh Thị Thu Phương [3] cũng đề cập đến một trong hai hướng tiếp cận khi phân loại bài viết của khách hàng bằng Tiếng Việt, sử dụng phương pháp học không giám sát (Unsupervized learning) kết hợp trong học có giám sát (Supervised learning). Đây là một trong các kỹ thuật quan trọng trong bài toán phân lớp văn bản dùng cho Tiếng Việt. Phương pháp này có thể áp dụng trong các bài toán dự đoán một kết quả đầu ra từ dữ liệu đầu vào hoặc các bài toán phân cụm (tự gán nhãn cho các cụ dữ liệu có cấu trúc tương tự nhau, giảm chiều dữ liệu để hỗ trợ các hình thức học khác,…). Bài toán gán nhãn văn bản Tiếng Việt còn được Đỗ Trung Thành, Đỗ Phúc [4] trình bày theo mô hình chủ đề (Topic Model), đây cũng là một hướng tiếp cận được áp dụng khá nhiều trong bài toán phân cụm, với số lượng các chủ đề trên các phương tiện truyền thông xã hội rất rộng thì phương pháp này cũng thương được áp dụng trong các trang tin tức điện tử và các diễn đàn khi phân loại bài viết. Nó cũng có thể áp dụng trong bài toán phân loại khách hàng dựa trên các nhóm sản phẩm hoặc các bài viết giới thiệu sản phẩm của khách hàng. Bên cạnh các đề xuất về mặt phương pháp thì Đỗ Thanh Nghị [6] cũng đề xuất sử dụng các thư viện trong R để phân tích và thực hiện các thực nghiệm, mặc dù chưa 10
  11. đề xuất thư viện cho ngôn ngữ Tiếng Việt, tuy nhiên R hoặc Python đều là những công cụ hiệu quả trong ứng dụng phân tích dữ liệu theo hướng học máy. Như vậy, hướng tiếp cận học máy trong phân tích dữ liệu, đặc biệt là dữ liệu khách hàng đã từng bước được áp dụng trong một số nghiên cứu ở Việt Nam, tuy nhiên, những điểm mạnh và ưu thế của học máy ứng dụng vào các bài toán cụ thể hầu như rất ít nghiên cứu để cập đến. 1.2.2. Tính hình nghiên cứu ngoài nước Việc xác định các hành vi và xu hướng quan tâm đến các sản phẩm, dịch vụ của người sử dụng hay khách hàng trên các phương tiện truyền thông xã hội như các website, các mạng xã hội, các cổng thông tin, v.v. ngày càng được chú ý và đóng vai trò quan trọng trong các ứng dụng thực tiễn vì điều này có thể giúp các tổ chức, doanh nghiệp và người bán hàng rút ngắn thời gian phân nhóm khách hàng, xác định tốt hơn nhóm khách hàng mục tiêu cho trong hoạt động kinh doanh của họ như các nghiên cứu của Abdul- Rahim et al., [1], Ezgi và S. Mardikyan [2], Amedie Jacob et al., [5], … Bên cạnh đó, dựa trên các phương tiện truyền thông xã hội và các mạng xã hội, các chiến dịch quảng cáo của các tổ chức, doanh nghiệp cũng dần chuyển sang phương thức tương tác, trao đổi giữa người bán và người mua hơn là các chương trình chạy quảng bá, không tập trung vào các mục tiêu cụ thể như trước đây. Hành vi và xu hướng quan tâm của người sử dụng trên các mạng xã hội thường được thể hiện thông qua các tweet, các status, các câu lệnh tìm kiếm (search queries), các bài đánh giá (reviews), v.v. của khách hàng trên các mạng xã hội [1] [2] [5] [15], … Các nghiên cứu nhằm phát hiện các chủ đề quan tâm về sản phẩm, dịch vụ của khách hàng hay khách hàng trên các phương tiện truyền thông xã hội gần đây thường đi theo hai hướng tiếp cận chính: Hướng thứ nhất là tập trung phân tích về các kết nối, quan hệ bạn bè, danh sách những người được theo dõi, … của khách hàng trên các phương tiện truyền thông xã hội như trong [2] [4] [10], …; Hướng thứ hai là tập trung phân tích các bài đăng (status), các thẻ đánh dấu, các bài chia sẻ, các bình luận và các đối tượng được sinh ra trong quá trình hoạt động của khách hàng trên các phương tiện truyền thông xã hội [3] [5] [12] [13] [17], …, hướng tiếp cận thứ hai sẽ loại bỏ được vấn đề về cấu trúc mạng, hay sự khó khăn trong tiếp cận thông tin cá nhân khách hàng (profile), vì vậy, xu hướng của các nghiên cứu hiện nay đều theo cách tiếp cận này. Các hướng tiếp cận để phân tích trong các bài toán nghiên cứu phân loại khách hàng theo các chủ đề quan tâm trên các phương tiện truyền thông xã hội được chia thanh thành hai hướng tiếp cận: hướng tiếp cận ngữ nghĩa và hướng tiếp cận thống kê. Với hướng tiếp cận ngữ nghĩa, các nghiên cứu thường dựa trên các hệ thống từ điển, hệ thống mạng từ (WordNet) và hệ thống bản thể học (Ontology) như các nghiên cứu của Allahyari Mehdi et al., [4], D. M. Boyd et al., [9], Faris Kateb and Jugal Kalita [12]; Với hướng tiếp cận thống kê thường dựa trên đối sánh, thống kê từ loại dựa trên độ đo khoảng cách hoặc các phương pháp đối chiếu đã được xây dựng, hướng tiếp cận này thường được sử dụng nhiều đối với các kiểu dữ liệu không theo quy chuẩn và rời rạc, 11
  12. nhiều nhiễu như các nghiên cứu của A. Ezgi và S. Mardikyan [2], B. Parantapa et al., [6], Editor, Ijcsis [11], Liu Huan và Reza Zafarani [17], … Các kỹ thuật thường dùng để ước lượng, nghiên cứu trong bài toán phát hiện quan tâm của khách hàng thường sử dụng các thuật toán khai phá dữ liệu như kỹ thuật khai phá quan điểm khách hàng dựa trên phương pháp học có giám sát bằng mạng Bayes trong nghiên cứu của Smeureanu et al [19]; H. Ma et al., [14] lại sử dụng mô hình xác suất để phân loại và ứng dụng trong hệ thống khuyến nghị khách hàng. Z. Yongzheng and P. Marco [22] sử dụng kỹ thuật thống kê dựa trên N-gram để trích chọn các đặc trưng của khách hàng, v.v.. Trong các tiếp cận sử dụng cho tiếng Việt chủ yếu là các bài toán phân loại văn bản, bao gồm: phân loại với máy học vectơ hỗ trợ [1], cách tiếp cận sử dụng lý thuyết tập thô [2], cách tiếp cận thống kê hình vị [3], cách tiếp cận sử dụng phương pháp học không giám sát và đánh chỉ mục [4], cách tiếp cận theo luật kết hợp [5]. Theo các kết quả trình bày trong các công trình đó thì những cách tiếp cận nêu trên đều cho kết quả khá tốt. Tuy nhiên khó có thể so sánh các kết quả ở trên với nhau vì tập dữ liệu thực nghiệm của mỗi phương pháp là khác nhau. 1.3. MỤC TIÊU NGHIÊN CỨU Thứ nhất là hệ thống hóa các khái niệm về học máy, các thuật toán sử dụng trong phân tích dữ liệu dựa trên học máy và các ứng dụng của học máy trong các bài toán kinh tế. Thứ hai là trình bày thực trạng ứng dụng phân tích dữ liệu khách hàng và khách hàng trực tuyến bằng các công cụ công nghệ mới, sau đó trình bày bài toán phân tích dữ liệu khách hàng phục vụ dự báo cũng như xác định các chủ đề quan tâm của khách hàng dựa trên học máy. Thứ ba, đề tài trình bày một số thuật toán học máy phổ biến ứng dụng trong phân tích dữ liệu khách hàng trực tuyến và so sánh mức độ phù hợp của các thuật toán đối dữ liệu lịch sử của khách hàng thu thập được trên các phương tiện truyền thông xã hội hiện nay. Cuối cùng, dựa trên thực trạng và kết quả thực nghiệm, đề tài đưa ra một số thảo luận và hàm ý cho các các tổ chức, doanh nghiệp đặc biệt các tổ chức, doanh nghiệp có tương tác với khách hàng trên các phương tiện truyền thông xã hội như website, cổng thông tin giải trí, các mạng xã hội hay các máy tìm kiếm. Kết quả của đề tài nghiên cứu có thể sử dụng làm tài liệu tham khảo cho giảng viên và sinh viên trong quá trình giảng dạy và học tập các học phần “Hệ thống thông tin quản lý”, “Marketing thương mại điện tử” và “Khai phá dữ liệu trong kinh doanh” 12
  13. 1.4. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 1.4.1. Đối tượng nghiên cứu Các thuật toán học máy ứng dụng trong nhận diện và phân loại khách hàng trực tuyến, các phương tiện truyền thông xã hội có ứng dụng trong dịch vụ bán hàng trực tuyến. 1.4.2. Phạm vi nghiên cứu Các thuật toán học máy ứng dụng trong bài toán phân loại được ứng dụng trong các bài toán: Phân loại khách hàng trong ứng dụng hệ thống khuyến nghị sản phẩm (Recommendation System), Phân loại khách hàng trong bài toán tiếp thị có mục tiêu (Targetted Marketing) và Phân loại khách hàng theo các phân khúc (Custommer Segmentation) Một số phương tiện truyền thông có hỗ trợ dịch vụ tương tác trực tiếp với khách hàng như các mạng xã hội, các cổng thông tin và các website bán hàng 1.5. PHƯƠNG PHÁP NGHIÊN CỨU 1.5.1. Cách tiếp cận Nhìn nhận từ thực tiễn về ứng dụng của học máy và các kỹ thuật phân tích dữ liệu khách hàng trong các bài toán kinh tế trong bối cảnh cách mạng công nghệ lần thứ 4. Sự lan tỏa của cách mạng công nghệ và sự kết hợp giữa công nghệ thông tin vào các bài kinh tế, khả năng thu thập dữ liệu khách hàng tự động và các công cụ phân tích dữ liệu trực tuyến hỗ trợ trong Marketing và Bán hàng Tiếp cận từ các thuật toán học máy và các công cụ hỗ trợ có ứng dụng học máy trong các bài toán thực tế như R, Python, … đặc biệt trong bài toán phân loại khách hàng theo các chủ đề về các sản phẩm, dịch vụ mà họ quan tâm. 1.5.2. Phương pháp nghiên cứu Nghiên cứu định tính: Đề tài sử dụng nghiên cứu định tính trong phân tích, chứng minh, nghiên cứu các tài liệu (quản trị quan hệ khách hàng, mô hình học máy, các thuật toán học máy ứng dụng cho phân loại) nhằm đưa ra một số kiến thức tổng quan về các thuật toán học máy được ứng dụng trong bài toán phân loại khách hành theo các chủ đề về sản phẩm hoặc dịch vụ mà họ quan tâm trên các phương tiện truyền thông xã hội Nghiên cứu định lượng: Để có thể so sánh và đưa ra các thảo luận cũng như khuyến nghị cho các tổ chức, doanh nghiệp. Đề tài có sử dụng bộ dữ liệu chuẩn 20 Newsgroups, cùng 01 bộ dữ liệu thực thu thập trên các phương tiện truyền thông xã hội để thực nghiệm và so sánh giữa các thuật toán trong phân nhận diện và phân loại khách hàng trực tuyến theo các chủ đề về sản phẩm và dịch vụ quan tâm của họ. 13
  14. Các bộ dữ liệu thực nghiệm trong đề tài bao gồm: Bộ dữ liệu 20 Newsgroups được chúng tôi lấy từ thư viện dữ liệu thực nghiệm của Đại học Standford (https://library.stanford.edu/science/databases) và 01 bộ dữ liệu thực tế chúng tôi thu thập từ 02 nguồn là tự động bằng ứng dụng API và một số dữ liệu được thu thập thủ công để xây dựng các bộ dữ liệu thực nghiệm Quy trình nghiên cứu: Nghiên cứu được thực hiện theo hai bước: (1) nghiên cứu sơ bộ các thuật toán được ứng dụng trong bài toán phân tích dữ liệu khách hàng trực tuyến và (2) nghiên cứu chính thức với phương pháp thực nghiệm dựa trên bộ cơ sở dữ liệu chuẩn. Từ cơ sở lý thuyết và các nghiên cứu liên quan, hình thành bảng so sánh hiệu suất dựa trên độ đo chính xác của các kết quả thu được. Kế tiếp, thảo luận tìm hiểu thông tin về thương mại điện tử, mua bán hàng trực tuyến và đặc biệt là việc sử dụng các thuật toán ứng dụng trong các bài toán phân tích dữ liệu khách hàng trực tuyến để đưa ra lựa chọn tối ưu cho các tổ chức, cá nhân khi muốn ứng dụng các công cụ khác nhau để phân tích dữ liệu khách hàng. Phương pháp đánh giá: Có rất nhiều độ đo được dùng để đánh giá hiệu suất hoặc độ chính xác của các mô hình khi kiểm nghiệm trong các nghiên cứu khoa học, trong báo cáo của đề tài này, việc thực hiện đánh giá hiệu suất hoặc độ chính xác của các mô hình đề xuất được tính toán dựa theo một số phương pháp như sau: Đánh giá dựa trên độ chính xác (Accuracy), độ nhạy (Recall). Accuracy và Recall được tính toán dựa trên ma trận nhầm lẫn (confusion matrix), đây là một trong các độ đo phổ biến trong đánh giá mô hình của các nghiên cứu về dữ liệu trên các trang mạng xã hội như các nghiên cứu về hệ thống khuyến nghị sản phẩm, tư vấn khách hàng. Trong đó, đánh giá dựa trên độ chính xác (𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛) được tính bằng: 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑇𝑃 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = = 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑇𝑃 + 𝐹𝑃 Recall hay độ nhạy được tính bằng: 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 𝑇𝑃 𝑅𝑒𝑐𝑎𝑙𝑙 = = 𝑇𝑟𝑢𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝐹𝑎𝑙𝑠𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 𝑇𝑃 + 𝐹𝑁 Báo cáo của đề tài còn sử dụng F1- measure hay F1- score và độ chính xác Accuracy để đánh giá và so sánh các kết quả thực nghiệm. Giá trị của chúng được tính theo các công thức: 2 ∗ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 ∗ 𝑅𝑒𝑐𝑎𝑙𝑙 2 ∗ 𝑃 ∗ 𝑅 𝐹 − 𝑚𝑒𝑎𝑠𝑢𝑟𝑒 = = 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑅𝑒𝑐𝑎𝑙𝑙 𝑃+𝑅 1.6. KẾT CẤU BÁO CÁO NGHIÊN CỨU Báo cáo ngoài mục mở đầu, kết luận, phụ lục và tài liệu tham khảo thì có 04 chương bao gồm: 14
  15. Chương 1: Tổng quan đề tài nghiên cứu Chương 2. Học máy và các ứng dụng trong các bài toán kinh tế Chương 3. Bài toán phân loại khách hàng theo chủ đề dựa trên học máy Chương 4: Thực nghiệm, đánh giá và thảo luận 15
  16. CHƯƠNG 2: HỌC MÁY VÀ ỨNG DỤNG TRONG BÀI TOÁN KINH TẾ 2.1. TỔNG QUAN VỀ HỌC MÁY Học máy (Machine Learning) là một lĩnh vực con của trí tuệ nhân tạo (Artificial Intelligence) sử dụng các thuật toán cho phép máy tính có thể học từ dữ liệu để thực hiện các công việc thay vì được lập trình một cách rõ ràng. Học máy liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống “học” tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Ví dụ như các máy có thể “học” cách phân loại thư điện tử xem có phải thư rác (spam) hay không và tự động xếp thư vào thư mục tương ứng. Học máy rất gần với suy diễn thống kê (statistical inference) tuy có khác nhau về thuật ngữ. Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán. Nhiều bài toán suy luận được xếp vào loại bài toán NP-khó, vì thế một phần của học máy là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lý được. Học máy có hiện nay được áp dụng rộng rãi bao gồm máy truy tìm dữ liệu, chẩn đoán y khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại các chuỗi DNA, nhận dạng tiếng nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô- bốt (Robot locomotion). Các bài toán ứng dụng của học máy bao gồm: Thứ nhất là trong bài toán xử lý ảnh (Image Processing): Bài toán xử lý ảnh giải quyết các vấn đề phân tích thông tin từ hình ảnh hay thực hiện một số phép biến đổi như: bài toán gắn thẻ hình ảnh (Image Tagging); bài toán nhận dạng ký tự (Optical Character Recognition); bài toán ứng dụng trong ô tô tự lái (Self-driving cars), một phần cơ chế sử dụng trong bài toán của ô tô tự lái là xử lý ảnh. Thứ hai là trong bài toán phân tích văn bản (Text analysis): Phân tích văn bản là công việc trích xuất hoặc phân loại thông tin từ các tài liệu hoặc dữ liệu văn bản. Các văn bản ở đây có thể là các bài đăng trên các mạng xã hội, các nội dung trong email, các đoạn trao đổi giữa khách hàng và doanh nghiệp hoặc các tài liệu văn bản khác, …hoặc ứng dụng trong các bài toán lọc spam (Spam filtering). Phân loại văn bản là xác định chủ đề cho một văn bản, dựa trên các chủ đề để phân loại hay xếp lớp sau đó lọc thành các nhóm; ngoài ra Phân tích quan điểm (Sentiment Analysis); Khai thác thông tin (Information Extraction), từ một văn bản, học cách để trích xuất các thông tin hữu ích. Chẳng hạn như trích xuất địa chỉ, tên người, từ khóa,… Thứ ba là trong bài toán khai phá dữ liệu: Khai phá dữ liệu (Data mining) là quá trình khám phá ra các thông tin có giá trị hoặc đưa ra các dự đoán từ dữ liệu như bài toán: Phát hiện bất thường (Anomaly detection); Phát hiện các quy luật (Association rules); Gom nhóm (Grouping) và Dự đoán (Predictions), .. 16
  17. Thứ tư là trong bài toán ứng dụng cho trò chơi điện tử và Robot: Trò chơi điện tử (Video games) và robot (Robotics) là lĩnh vực lớn có sự góp mặt của machine learning. Một kỹ thuật phổ biến được áp dụng trong trường hợp này là Học tăng cường (Reinforcement learning). 2.2. QUY TRÌNH PHÂN TÍCH DỮ LIỆU BẰNG HỌC MÁY Một bài toán khi ứng dụng học máy để phân tích cần trải qua 3 bước chính: Thứ nhất là chọn mô hình: Chọn một mô hình thống kê cho tập dữ liệu, ví dụ như mô hình thống kê Bec-nu-li, mô hình phân phối chuẩn. Thứ hai là tìm tham số: Các mô hình thống kê có các tham số tương ứng, nhiệm vụ lúc này là tìm các tham số này sao cho phù hợp với tập dữ liệu nhất có thể. Thứ ba là suy luận hay dự đoán: Sau khi có được mô hình và tham số, có thể dựa vào chúng để đưa ra suy luận cho một đầu vào mới nào đó. Quy trình phân tích dữ liệu thường có 2 giai đoạn nhỏ là Chuẩn hóa dữ liệu và phân chia chúng thành các tập nhỏ hơn gồm: Tập dữ liệu huấn luyện (Training set): Chiếm 60%, dùng để máy học khi huấn luyện; Tập kiểm chứng (Cross validation set): Chiếm 20%. Dùng để kiểm chứng mô hình khi huấn luyện; Tập kiểm tra (Test set): Chiếm 20%. Dùng để kiểm tra xem mô hình đã phù hợp chưa sau khi huấn luyện. Hình 2.1: Quy trình xử lý dữ liệu bằng học máy (Nguồn: Nhóm nghiên cứu tổng hợp) 2.3. MỘT SỐ THUẬT TOÁN HỌC MÁY PHỔ BIẾN 2.3.1. Phân loại dựa trên phương thức học Các thuật toán trong học máy có thể được phân nhóm dựa trên phương thức học bao gồm: Học có giám sát (Supervised Learning), Học không giám sát (Unsupervised 17
  18. Learning), Học bán giám sát (hay học kết hợp – Semi Supervised Learning) và Học tăng cường (Reinforcement Learning) minh họa như trong Hình 2.2 Phân loại thuật toán theo phương pháp học Học có giám sát Học không giám sát Học bán giám sát Học tăng cường Hình 2.2: Phân loại các thuật toán theo phương pháp học (Nguồn: Nhóm nghiên cứu tổng hợp) - Học có giám sát: Học có giám sát hay còn gọi là học có thầy là thuật toán dự đoán nhãn (label)/đầu ra (output) của một dữ liệu mới dựa trên tập dữ liệu huấn luyện mà trong đó mỗi mẫu dữ liệu đều đã được gán nhãn. Khi đó, thông qua một quá trình huấn luyện, một mô hình sẽ được xây dựng để cho ra các dự đoán và khi các dự đoán bị sai thì mô hình này sẽ được tinh chỉnh lại. Việc huấn luyện sẽ tiếp tục cho đến khi mô hình đạt được mức độ chính xác mong muốn trên dữ liệu huấn luyện. Điều này cũng giống như khi chúng ta đi học trên lớp, ta biết câu trả lời chính xác từ giáo viên (tập dữ liệu có nhãn) và từ đó ta sẽ sửa chữa nếu làm sai. Ví dụ như trong nhận dạng chữ số viết tay, ta có ảnh của hàng nghìn trường hợp ứng với mỗi chữ số được viết bởi nhiều người khác nhau. Hoặc người sử dụng mạng xã hội Facebook thì khá quen thuộc với tính năng phát hiện khuôn mặt trong một bức ảnh, bản chất của thuật toán dò tìm các khuôn mặt này là một thuật toán học có giám sát với tập huấn luyện là vô số ảnh đã được gán nhãn là mặt người hay không phải mặt người. Các thuật toán học có giám sát còn được phân ra thành hai loại chính là phân lớp (Classification) và hồi quy (Regression). + Phân lớp: Một bài toán được gọi là phân lớp nếu các nhãn của dữ liệu đầu vào được chia thành một số hữu hạn lớp (miền giá trị là rời rạc). Chẳng hạn như tính năng xác định xem một email có phải là spam hay không của Gmail; xác định xem hình ảnh của con vật là chó hay mèo. Hoặc ví dụ nhận dạng ký số viết tay ở trên cũng thuộc bài toán phân lớp, bao gồm mười lớp ứng với các số từ 0 đến 9. Tương tự cho ví dụ nhận dạng khuôn mặt với hai lớp là phải và không phải khuôn mặt, … Các thuật toán phân lớp phổ biến như K-Nearest Neighbors, mạng nơron nhân tạo, SVM, … + Hồi quy: Một bài toán được xem là hồi quy nếu nhãn không được chia thành các nhóm mà là một giá trị thực cụ thể (miền giá trị là liên tục). Hầu hết các bài toán dự báo (giá cổ phiếu, giá nhà, …) thường được xếp vào bài toán hồi quy, … Các thuật toán hồi quy như Linear Regression, Logistic Regression, … - Học không giám sát: Trái với Supervised learning, học không giám sát hay học không thầy là thuật toán dự đoán nhãn của một dữ liệu mới dựa trên tập dữ liệu huấn luyện mà trong đó tất cả các mẫu dữ liệu đều chưa được gán nhãn hay nói cách khác là ta không biết câu trả lời chính xác cho mỗi dữ liệu đầu vào. Điều này cũng giống như 18
  19. khi ta học mà không có thầy cô, sẽ không trí tuệ nhân tạo cho ta biết đáp án đúng là gì. Khi đó, mục tiêu của thuật toán unsupervised learning không phải là tìm đầu ra chính xác mà sẽ hướng tới việc tìm ra cấu trúc hoặc sự liên hệ trong dữ liệu để thực hiện một công việc nào đó, ví như gom cụm (clustering) hoặc giảm số chiều của dữ liệu (dimension reduction) để thuận tiện trong việc lưu trữ và tính toán. Các bài toán Unsupervised Learning tiếp tục được chia nhỏ thành hai loại là phân cụm (Clustering) và luật kết hợp (Association Rule). + Phân cụm: Một bài toán phân cụm/ phân nhóm toàn bộ dữ liệu X thành các nhóm/cụm nhỏ dựa trên sự liên quan giữa các dữ liệu trong mỗi nhóm. Chẳng hạn như phân nhóm khách hàng dựa vào độ tuổi, giới tính. Điều này cũng giống như việc ta đưa cho một đứa trẻ rất nhiều mảnh ghép với các hình dạng và màu sắc khác nhau, có thể là tam giác, vuông, tròn với màu xanh, đỏ, tím, vàng, sau đó yêu cầu trẻ phân chúng thành từng nhóm. Mặc dù ta không dạy trẻ mảnh nào tương ứng với hình nào hoặc màu nào, nhưng nhiều khả năng trẻ vẫn có thể phân loại các mảnh ghép theo màu sắc hoặc hình dạng. + Luật kết hợp: Là bài toán mà khi chúng ta muốn khám phá ra một quy luật dựa trên nhiều dữ liệu cho trước. Ví như những khách hàng mua mặt hàng này sẽ mua thêm mặt hàng kia; hoặc khan giả xem phim này sẽ có xu hướng thích xem phim kia, dựa vào đó ta có thể xây dựng những hệ thống gợi ý khách hàng (Recommendation System) nhằm thúc đẩy nhu cầu mua sắm hoặc xem phim…. - Học bán giám sát: Là bài toán mà khi tập dữ liệu đầu vào X là hỗn hợp các mẫu có nhãn và không có nhãn, trong đó số lượng có nhãn chỉ chiếm một phần nhỏ. Phần lớn các bài toán thực tế của học máy thuộc nhóm này vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phí cao. Rất nhiều loại dữ liệu thậm chí cần phải có chuyên gia mới gán nhãn được, chẳng hạn như ảnh y học hoặc các cặp câu song ngữ. Ngược lại, dữ liệu chưa có nhãn có thể được thu thập với chi phí thấp từ Internet. Với bài toán này, mô hình phải tìm hiểu các cấu trúc để tổ chức dữ liệu cũng như đưa ra dự đoán. Vì đặc điểm trung gian nên ta có thể sử dụng Unsupervised Learning để khám phá và tìm hiểu cấu trúc trong dữ liệu đầu vào, đồng thời sử dụng Supervised Learning để dự đoán cho dữ liệu không được gán nhãn. Sau đó đưa dữ liệu vừa dự đoán trở lại làm dữ liệu huấn luyện cho supervised learning và sử dụng mô hình sau khi huấn luyện để đưa ra dự đoán về dữ liệu mới. Một số thuật toán học tăng cường như: Self Training, Generative Models, S3VMs, Graph-Based Algorithms, Multiview Algorithms, … - Học tăng cường: Học tăng tường hay học củng cố là bài toán giúp cho một hệ thống tự động xác định hành vi dựa trên hoàn cảnh để đạt được lợi ích cao nhất. Hiện tại, Reinforcement Learning chủ yếu được áp dụng vào lý thuyết trò chơi (Game Theory), các thuật toán cần xác định nước đi tiếp theo để đạt được điểm số cao nhất. 19
  20. 2.3.2. Phân loại dựa trên sự tương đồng về cách hoạt động Các thuật toán học máy thường được phân nhóm dựa trên sự tương đồng về chức năng hay cách thức hoạt động hoặc ứng dụng vào các bài toán mà chúng được gom nhóm với nhau, trong nghiên cứu này chúng tôi phân chia dựa trên sự tương đồng về các bài toán ứng dụng như sau: Phân loại thuật toán theo sự tương đồng về hoạt động Bài Bài Bài Bài Bài toán Bài Bài Bài toán Bài toán toán Bài toán dựa toán toán toán dựa toán dựa dựa toán dựa trên dựa giảm chuẩn trên phân trên trên hồi quy trên cây trên chiều hóa xác cụm luật kết mạng mẫu quyết học sâu dữ liệu suất hợp nơ-ron định Hình 2.3: Phân loại thuật toán theo sự tương đồng về hoạt động (Nguồn: Nhóm nghiên cứu tổng hợp) Thứ nhất là các thuật toán trong bài toán hồi quy (Regression Algorithms). Hồi quy là quá trình tìm mối quan hệ phụ thuộc của một biến (được gọi là biến phụ thuộc hay biến được giải thích, biến được dự báo, biến được hồi quy, biến phản ứng, biến nội sinh) vào một hoặc nhiều biến khác (được gọi là biến độc lập, biến giải thích, biến dự báo, biến hồi quy, biến tác nhân hay biến kiểm soát, biến ngoại sinh) nhằm mục đích ước lượng hoặc tiên đoán giá trị kỳ vọng của biến phụ thuộc khi biết trước giá trị của biến độc lập. Các thuật toán hồi quy phổ biến nhất như Linear Regression, Logistic Regression, Locally Estimated Scatterplot Smoothing (LOESS), Multivariate Adaptive Regression Splines (MARS), Ordinary Least Squares Regression (OLSR), … Thứ hai là các thuật toán giải các bài toán dựa trên mẫu (Instance Based Algorithms). Mô hình học tập dựa trên mẫu hay thực thể là bài toán ra quyết định dựa vào các trường hợp hoặc các mẫu dữ liệu huấn luyện được coi là quan trọng hay bắt buộc đối với mô hình. Nhóm thuật toán này thường xây dựng cơ sở dữ liệu về dữ liệu mẫu và so sánh dữ liệu mới với cơ sở dữ liệu bằng cách sử dụng thước đo tương tự để tìm kết quả phù hợp nhất và đưa ra dự đoán. Các thuật toán dựa trên thực thể phổ biến như: K-Nearest Neighbor (KNN – K láng giềng gần nhất), Learning Vector Quantization (LVQ), Locally Weighted Learning (LWL), Self - Organizing Map (SOM), .. Thứ ba là các thuật toán ứng dụng cho các bài toán chuẩn hóa (Regularization Algorithms). Các thuật toán chuẩn hoá ra đời từ sự mở rộng các phương pháp đã có (điển hình là các phương pháp hồi quy) bằng cách xử phạt các mô hình dựa trên mức độ phức tạp của chúng. Các thuật toán chuẩn hóa phổ biến như: Elastic Net, Least Absolute 20