Trong machine learning, điều chúng ta làm là khiến cỗ máy học cách tìm ra giải pháp bài toán. Trong bài toán hồi quy (regression) ta huấn luyện máy để dự đoán giá trị trong tương lai. Trong bài toán phân loại (classification) ta huấn luyện máy phân loại một đối tượng không xác định vào một các danh mục do chính ta đề ta. Tóm lại, chúng ta đã đào tạo máy để nó có thể dự đoán Y cho dữ liệu X. Với một tập dữ liệu khổng lồ và không ước tính được các danh mục, chúng ta sẽ khó đào tạo được máy bằng phương pháp học có giám sát. Điều gì sẽ xảy ra nếu máy có thể tra cứu và phân tích dữ liệu lớn chạy thành nhiều Gigabyte và Terabyte và cho chúng ta biết rằng dữ liệu này chứa rất nhiều danh mục riêng biệt ?
Ví dụ , hãy xem xét dữ liệu bầu cử tri. Bằng cách xem xét đầu vào mỗi cử tri (tính năng trong AI), hãy để máy dự đoán rằng có rất nhiều cử tri sẽ bỏ phiếu cho Đảng chính trị X và nhiều người sẽ bỏ phiếu cho Y,..Do đó, nói chung chúng ta đang hỏi máy được cung cấp bởi một tập hợp lớn các điểm dữ liệu X, "Bạn có thể cho tôi biết gì về X?". Hoặc câu hỏi như "Năm nhóm tốt nhất chúng ta có thể thể tạo ra từ X là gì ?". Hoặc "Ba đặc điểm nào xuất hiện cùng nhau thường xuyên nhất trong X"
Đây chúng là tất cả về Học không giám sát
Thuật toán học không giám sát :
Chúng ta hãy bàn luận về một trong những thuật toán được sử dụng rộng rãi cho bài toán phân lớp trong học không giám sát
k-means clustering :
Các cuộc bầu cử Tổng thống năm 2000 và 2004 ở Hoa Kỳ . Tỷ lệ phiếu phổ thông lớn nhất mà bất kỳ ứng cử viên nào nhận được là 50,7% và thấp nhất là 47,9%. Nếu một phần trăm cử tri đã chuyển sang phe khác, kết quả của cuộc bầu cử sẽ khác. Có những nhóm nhỏ cử tri, khi được kháng cáo thích hợp, sẽ chuyển phe. Những nhóm này có thể không lớn, nhưng với những cuộc chạy đua gần như vậy, họ có thể đủ lớn để thay đổi kết quả của cuộc bầu cử. Làm thế nào để bạn tìm thấy những nhóm người này? Làm thế nào để bạn hấp dẫn họ với một ngân sách hạn chế? Câu trả lời là phân cụm(clustering).
Đây là cách thức thực hiện
- Đầu tiên, bạn thu thập thông tin về những người có hoặc không có sự đồng ý của họ: bất kỳ loại thông tin nào có thể cung cấp một số
- Sau đó , đưa thông tin vào một số loại thuật toán phân cụm
- Tiếp theo, với mỗi phân cụm ( Sẽ thông minh hơn nếu chọn cụm lớn trước) bạn tạo ra một thông điệp sẽ thu hút những người bỏ phiếu này.
- Cuối cùng, bạn triển khai chiến dịch và đo lường xem nó có hoạt động hay không.
Phân cụm là một loại học tập không giám sát tự động tạo thành các cụm. Nó giống như phân loại tự động. Bạn có thể phân cụm hầu hết mọi thứ và các mục càng giống nhau trong cụm thì các cụm càng tốt. Trong chương này, chúng ta sẽ nghiên cứu một loại thuật toán phân cụm được gọi là k-mean. Nó được gọi là k-mean vì nó tìm thấy các cụm duy nhất ‘k’ và trung tâm của mỗi cụm là giá trị trung bình của các giá trị trong cụm đó.
Cluster Identification :
Cluster identification được gọi là một thuật toán.
“Đây là một số dữ liệu. Bây giờ hãy nhóm những thứ tương tự lại với nhau và cho tôi biết về những nhóm đó ”. Sự khác biệt chính so với phân loại là trong phân loại, bạn biết những gì bạn đang tìm kiếm. Trong khi đó không phải là trường hợp trong phân cụm.
Phân cụm đôi khi được gọi là phân loại không giám sát vì nó tạo ra kết quả giống như phân loại nhưng không có các lớp được xác định trước.
Chúng ta đã hiểu qua các khái niệm cơ bản về học có giám sát và không giám sát. Để hiểu phần còn lại, trước tiên chúng ta phải hiểu về Mạng thần kinh nhân tạo (ANN), ta sẽ tìm hiểu trong bài tiếp theo.