Ứng dụng nào dưới đây sử dụng phương pháp học có giám sát?

Có 2 định nghĩa khá rõ ràng về Machine Learning như sau:

  • Theo Arthur Samuel [1959]: Máy học là ngành học cung cấp cho máy tính khả năng học hỏi mà không cần được lập trình một cách rõ ràng
  • Theo Giáo sư Tom Mitchell – Carnegie Mellon University: Machine Learning là 1 chương trình máy tính được nói là học hỏi từ kinh nghiệm E từ các tác vụ T và với độ đo hiệu suất P. Nếu hiệu suất của nó áp dụng trên tác vụ T và được đo lường bởi độ đo P tăng từ kinh nghiệm E

Ví dụ cho định nghĩa của Tom Mitchell

  • Ví dụ 1: Giả sử như bạn muốn máy tính xác định một tin nhắn có phải là SPAM hay không

Tác vụ T: Xác định 1 tin nhắn có phải SPAM hay không?

Kinh nghiệm E: Xem lại những tin nhắn đánh dấu là SPAM xem có những đặc tính gì để có thể xác định nó là SPAM.

Độ đo P: Là phần trăm số tin nhắn SPAM được phân loại đúng.

  • Ví dụ 2: Chương trình nhận dạng số [số từ 0 -> 9]

T: Là nhận dạng được ảnh chứa ký tự số.

E: Đặc trưng để phân loại ký tự số từ tập dữ liệu số cho trước.

P: Độ chính xác của quá trình nhận dạng.

Mối liên hệ giữa Trí Tuệ Nhân Tạo với các nhánh học như Máy Học, Biểu Diễn Tri Thức và Suy Luận,
Xử Lý Ngôn Ngữ Tự Nhiên, Thị Giác Máy Tính…

Nhờ vào công nghệ điện toán, ngày nay Machine Learning không còn là máy tính “học” những chuyện trong quá khứ nữa. Machine Learning được sinh ra từ khả năng nhận diện pattern và từ lý thuyết các máy tính có thể “học” mà không cần phải lập trình để thực hiện các tasks cụ thể đó. Về phía các nhà nghiên cứu quan tâm đến trí tuệ nhân tạo, họ lại muốn xem thử liệu máy tính có thể học dữ liệu như thế nào. Yếu tố lặp trong Machine Learning rất quan trọng vì khi các models tiếp xúc với dữ liệu mới, Machine Learning có thể thích ứng được 1 cách độc lập. Machine Learning sẽ “học” các computations trước để trả về các kết quả, các quyết định đáng tin cậy, lặp lại được.

Từ lâu đã có nhiều thuật toán Machine Learning nổi tiếng nhưng khả năng tự động áp dụng các phép tính phức tạp vào Big Data – lặp đi lặp lại với tốc độ nhanh hơn – chỉ mới phát triển gần đây.

Các ứng dụng của Machine Learning đã trở nên quá quen thuộc như:

  • Xe tự lái, giảm thiểu tai nạn của Google? Chính là bản chất của machine learning
  • Các ưu đãi recommendation online như của Amazong & Netflix? Ứng dụng của Machine Learning trong cuộc sống hằng ngày
  • Muốn biết người dùng nói gì về bạn trên Twitter? Machine Learning kết hợp với sự sáng tạo của quy tắc ngôn ngữ
  • Nhận diện lừa đảo? Một trong những nhu cầu sử dụng hiển nhiên ngày nay

Tham khảo thêm các vị trí tuyển dụng Machine Learning lương cao cho bạn

  • Khả năng chuẩn bị dữ liệu
  • Thuật toán – căn bản & nâng cao
  • Quy trình tự động và quy trình lặp lại
  • Khả năng scale
  • Ensemble modeling

Hầu hết mọi ngành công nghiệp đang làm việc với hàm lượng lớn dữ liệu đều nhận ra tầm quan trọng của công nghệ Machine Learning. Những insights từ nguồn dữ liệu này – chủ yếu dạng realtime – sẽ giúp các tổ chức vận hành hiệu quả hơn hoặc tạo được lợi thế cạnh tranh so với các đối thủ.

Ngân hàng và những doanh nghiệp hoạt động trong lĩnh vực tài chính sử dụng công nghệ Machine Learning với 2 mục đích chính: xác định insights trong dữ liệu và ngăn chặn lừa đảo. Insights sẽ biết được các cơ hội đầu tư hoặc thông báo đến nhà đầu tư thời điểm giao dịch hợp lý. Data mining cũng có thể tìm được những khách hàng đang có hồ sơ rủi ro cao hoặc sử dụng giám sát mạng để chỉ rõ những tín hiệu lừa đảo.

Các tổ chức chính phủ hoạt động về an ninh cộng đồng hoặc tiện ích xã hội sở hữu rất nhiều nguồn dữ liệu có thể khai thác insights. Ví dụ, khi phân tích dữ liệu cảm biến, chính phủ sẽ tăng mức độ hiệu quả của dịch vụ và tiết kiệm chi phí. Machine Learning còn hỗ trợ phát hiện gian lận và giảm thiểu khả năng trộm cắp danh tính.

Machine Learning là 1 xu hướng phát triển nhanh chóng trong ngành chăm sóc sức khỏe, nhờ vào sự ra đời của các thiết bị và máy cảm ứng đeo được sử dụng dữ liệu để đánh giá tình hình sức khỏe của bệnh nhân trong thời gian thực [real-time]. Công nghệ Machine Learning còn giúp các chuyên gia y tế xác định những xu hướng hoặc tín hiệu để cải thiện khả năng điều trị, chẩn đoán bệnh.

Dựa trên hành vi mua hàng trước đây, các trang web sử dụng Machine Learning phân tích lịch sử mua hàng, từ đó giới thiệu những vật dụng mà bạn có thể sẽ quan tâm và yêu thích. Khả năng tiếp nhận dữ liệu, phân tích và sử dụng những dữ liệu đó để cá nhân hóa trải nghiệm mua sắm [hoặc thực hiện chiến dịch Marketing] chính là tương tai của ngành bán lẻ.

Tìm kiếm những nguồn nguyên liệu mới. Phân tích các mỏ dầu dưới đất. Dự đoán tình trạng thất bại của bộ cảm biến lọc dầu. Sắp xếp các kênh phân phối để đạt hiệu quả và tiết kiệm chi phí. Có thể nói, số lượng các trường hợp sử dụng Machine Learning trong ngành công nghiệp này cực kì lớn và vẫn ngày càng mở rộng.

Phân tích dữ liệu để xác định patterns & các xu hướng là trọng tâm trong ngành vận tải vì đây là ngành phụ thuộc vào khả năng tận dụng hiệu quả trên mỗi tuyến đường và dự đoán các vấn đề tiềm tàng để gia tăng lợi nhuận. Các chức năng phân tích dữ liệu và modeling của Machine Learning đóng vai trò quan trọng với các doanh nghiệp vận chuyện, vận tải công cộng và các tổ chức vận chuyển khác.

Hai methods của Machine Learning được chấp nhận rộng rãi chính là supervised learning [học có giám sát] và unsupervised learning [học không giám sát] nhưng cũng có những methods khác như semisupervised learning [học bán giám sát], reinforcement learning [học tăng cường]

Dưới đây là khái niệm chung về 2 phương pháp phổ biến nhất:

Supervised Learning [SL] là một kĩ thuật học máy để học tập từ tập dữ liệu được gán nhãn cho trước. Tập dữ liệu cho trước sẽ chứa nhiều bộ dữ liệu. Mỗi bộ dữ liệu có cấu trúc theo cặp {x, y} với x được xem là dữ liệu thô [raw data] và y là nhãn của dữ liệu đó. Nhiệm vụ của SL là dự đoán đầu ra mong muốn dựa vào giá trị đầu vào. Dễ nhận ra, học có GIÁM SÁT tức là máy học dựa vào sự trợ giúp của con người, hay nói cách khác con người dạy cho máy học và giá trị đầu ra mong muốn được định trước bởi con người. Tập dữ liệu huấn luyện hoàn toàn được gán nhãn dựa vào con người. Tập càng nhỏ thì máy tính học càng ít.

SL cũng được áp dụng cho 2 nhóm bài toán chính là bài toán dự đoán [regression problem] và bài toán phân lớp [classification problem].

Kỹ thuật SL thực chất là để xây dựng một hàm có thể xuất ra giá trị đầu ra tương ứng với tập dữ liệu. Ta gọi hàm này là hàm h[x] và mong muốn hàm này xuất ra đúng giá trị y với một hoặc nhiều tập dữ liệu mới khác với dữ liệu được học. Hàm h[x] cần các loại tham số học khác nhau tùy thuộc với nhiều bài toán khác nhau. Việc học từ tập dữ liệu [training] cũng chính là tìm ra bộ tham số học cho hàm h[x].

Unsupervised learning [UL] là một kĩ thuật của máy học nhằm tìm ra một mô hình hay cấu trúc bị ẩn bơi tập dữ liệu KHÔNG được gán nhãn cho trước. UL khác với SL là không thể xác định trước output từ tập dữ liệu huấn luyện được. Tùy thuộc vào tập huấn luyện kết quả output sẽ khác nhau. Trái ngược với SL, tập dữ liệu huấn luyện của UL không do con người gán nhãn, máy tính sẽ phải tự học hoàn toàn. Có thể nói, học KHÔNG GIÁM SÁT thì giá trị đầu ra sẽ phụ thuộc vào thuật toán UL.

Ứng dụng: Ứng dụng phổ biến nhất của học không giám sát là gom cụm [cluster]. Đương nhiên sẽ có nhiều ứng dụng khác, có cơ hội tôi sẽ đề cập thêm. Ứng dụng này dễ nhận ra nhất là Google và Facebook. Google có thể gom nhóm các bài báo có nội dung gần nhau, hoặc Facebook có thể gợi ý kết bạn có nhiều bạn chung cho bạn. Các bài báo có cùng nội dung sẽ được gom lại thành một nhóm [cluster] phân biệt với các nhóm khác. Dữ liệu huấn luyện là các bài báo từ quá khứ tới hiện tại và tăng dần theo thời gian. Dễ nhận ra rằng dữ liệu không thể gán nhãn bởi con người. Khi một bài báo mới được cho vào input, nó sẽ tìm cụm [cluster] gần nhất với bài báo đó và gợi ý những bài liên quan.

Tham khảo thêm các vị trí tuyển dụng Machine Learning lương cao cho bạn

Nguồn tổng hợp: SAS & CAPHUUQUAN

Supervised Learning trong Machine Learning là gì? Trong Supervised Machine Learning, bạn huấn luyện, đào tạo cho máy của bạn sử dụng dữ liệu được “dán nhãn”. Điều đó có nghĩa là một số dữ liệu đã được gắn thẻ với câu trả lời chính xác. Điều đó giống như bạn đang tự học nhưng lại có mặt của người giám sát hoặc giáo viên.

Một thuật toán Supervised Learning, học từ các dữ liệu đã được dán nhãn, giúp bạn dự đoán kết quả cho dữ liệu không lường trước được.

Xây dựng thành công, nhân rộng và triển khai các mô hình học máy được giám sát chính xác cần có thời gian và chuyên môn kỹ thuật từ một nhóm các nhà khoa học dữ liệu có tay nghề cao. Hơn nữa, nhà khoa học dữ liệu phải xây dựng lại các mô hình để đảm bảo những hiểu biết được đưa ra vẫn đúng cho đến khi dữ liệu của nó thay đổi.

Trong hướng dẫn này, bạn sẽ học:

  • Supervised Learning là gì?
  • Supervised Learning hoạt động như thế nào.
  • Các loại thuật toán của Supervised Learning.
  • Supervised & Unsupervised cùng các công nghệ, kỹ thuật.
  • Những thách thức trong Supervised Learning.
  • Ưu điểm của Supervised Learning:
  • Nhược điểm của việc học có giám sát
  • Thực hành tốt nhất cho việc học có giám sát

Supervised Learning hoạt động như thế nào?

Ví dụ, bạn muốn đào tạo một cỗ máy để giúp bạn dự đoán bạn sẽ mất bao lâu để lái xe về nhà từ nơi làm việc. Tại đây, bạn bắt đầu bằng cách tạo một tập hợp dữ liệu được dán nhãn. Dữ liệu này bao gồm

  • Điều kiện thời tiết
  • Thời gian trong ngày
  • Ngày lễ
  • Chọn đường đi

Tất cả những chi tiết này là đầu vào của bạn. Đầu ra là lượng thời gian cần thiết để lái xe trở về nhà vào ngày cụ thể đó.

Theo bản năng, bạn biết rằng nếu trời mưa, thì bạn sẽ mất nhiều thời gian hơn để lái xe về nhà. Nhưng máy thì sẽ cần dữ liệu và số liệu thống kê.

Bây giờ chúng ta hãy xem làm thế nào bạn có thể phát triển một mô hình học tập có giám sát của ví dụ này để giúp người dùng xác định thời gian đi làm. Điều đầu tiên bạn cần tạo là một bộ huấn luyện. Tập huấn luyện này sẽ chứa tổng thời gian đi lại và các yếu tố tương ứng như thời tiết, thời gian, v.v. Dựa trên tập huấn luyện này, máy của bạn có thể thấy có mối quan hệ trực tiếp giữa lượng mưa và thời gian bạn sẽ về nhà.

Vì vậy, nó càng khẳng định rằng trời càng mưa, bạn sẽ lái xe càng lâu để trở về nhà. Nó cũng có thể thấy kết nối giữa thời gian bạn nghỉ làm và thời gian bạn sẽ đi trên đường.

Bạn càng gần 6 giờ tối. bạn càng mất nhiều thời gian để về nhà. Máy của bạn có thể tìm thấy một số mối quan hệ với dữ liệu được dán nhãn của bạn.

Đây là sự khởi đầu của Mô hình dữ liệu của bạn. Nó bắt đầu tác động như cách mưa ảnh hưởng đến cách mọi người lái xe. Nó cũng bắt đầu cho thấy rằng nhiều người đi du lịch trong một thời gian cụ thể trong ngày.

Các loại thuật toán học máy được giám sát

Hồi quy:

Kỹ thuật hồi quy dự đoán một giá trị đầu ra duy nhất sử dụng dữ liệu huấn luyện.

Ví dụ: Bạn có thể sử dụng hồi quy để dự đoán giá nhà từ dữ liệu đào tạo. Các biến đầu vào sẽ là địa phương, kích thước của một ngôi nhà, vv

Điểm mạnh: Đầu ra luôn có một diễn giải xác suất và thuật toán có thể được thường xuyên hóa để tránh bị thừa.

Điểm yếu: Hồi quy logistic có thể hoạt động kém khi có nhiều ranh giới quyết định phi tuyến tính. Phương pháp này không linh hoạt, vì vậy nó không nắm bắt được các mối quan hệ phức tạp hơn.

Hồi quy logistic:

Phương pháp hồi quy logistic được sử dụng để ước tính các giá trị rời rạc dựa trên một tập hợp các biến độc lập. Nó giúp bạn dự đoán xác suất xảy ra sự kiện bằng cách khớp dữ liệu với chức năng logit. Do đó, nó còn được gọi là hồi quy logistic. Vì nó dự đoán xác suất, giá trị đầu ra của nó nằm trong khoảng từ 0 đến 1.

Dưới đây là một vài loại thuật toán hồi quy

Phân loại:

Phân loại có nghĩa là nhóm đầu ra bên trong một lớp. Nếu thuật toán cố gắn nhãn đầu vào thành hai lớp riêng biệt, nó được gọi là phân loại nhị phân. Chọn giữa nhiều hơn hai lớp được gọi là phân loại đa lớp.

Ví dụ: Xác định xem có ai đó sẽ là người trả nợ cho khoản vay hay không.

Điểm mạnh: Cây phân loại thực hiện rất tốt trong thực tế

Điểm yếu: Không bị giới hạn, các cây riêng lẻ dễ bị quá mức.

Dưới đây là một vài loại Thuật toán phân loại

Phân loại Naïve Bayes

Mô hình Naïve Bayesian [NBN] rất dễ xây dựng và rất hữu ích cho các bộ dữ liệu lớn. Phương pháp này bao gồm các biểu đồ chu kỳ trực tiếp với một phụ huynh và một vài đứa trẻ. Nó giả định sự độc lập giữa các nút con tách khỏi cha mẹ của chúng.

Cây quyết định

Cây quyết định phân loại thể hiện bằng cách sắp xếp chúng dựa trên giá trị tính năng. Trong phương thức này, mỗi chế độ là tính năng của một thể hiện. Nó nên được phân loại và mỗi nhánh đại diện cho một giá trị mà nút có thể giả định. Nó là một kỹ thuật được sử dụng rộng rãi để phân loại. Trong phương pháp này, phân loại là một cây được gọi là cây quyết định.

Nó giúp bạn ước tính giá trị thực [chi phí mua xe, số lượng cuộc gọi, tổng doanh số hàng tháng, v.v.].

Hỗ trợ máy Vector

Máy vectơ hỗ trợ [SVM] là một loại thuật toán học tập được phát triển vào năm 1990. Phương pháp này dựa trên kết quả từ lý thuyết học thống kê được giới thiệu bởi v.v.

Máy SVM cũng chặt chẽkết nối với các hàm kernel là một khái niệm trung tâm cho hầu hết các nhiệm vụ học tập. Khung nhân và SVM được sử dụng trong nhiều lĩnh vực. Nó bao gồm truy xuất thông tin đa phương tiện, tin sinh học và nhận dạng mẫu.

Các kỹ thuật học máy được giám sát so với không giám sát Dựa trên kỹ thuật học máy được giám sát Kỹ thuật học máy không giám sát Thuật toán dữ liệu đầu vào được đào tạo sử dụng dữ liệu được dán nhãn. Các thuật toán được sử dụng đối với dữ liệu không được gắn nhãn Độ phức tạp tính toán trong Supervised Learning là một phương pháp đơn giản hơn. Unsupervised Learning là phức tạp tính toán

Độ chính xác Phương pháp rất chính xác và đáng tin cậy. Phương pháp ít chính xác và đáng tin cậy.

Video liên quan

Chủ Đề