Chương 1: Giới thiệu về Học máy - Phần 2 của 2
Trích từ sách Căn bản về Học máy dành cho kỹ sư do Lê Quang Văn soạn và thực hiện phần kỹ thuật số.
1.3 Biệt ngữ và các điều khoản chính
Hiểu thuật ngữ chính trong học máy là rất quan trọng để nắm bắt các khái niệm và giao tiếp hiệu quả trong lĩnh vực này. Dưới đây là một số thuật ngữ cần thiết:
Thuật toán
Một quy trình từng bước hoặc công thức để giải quyết vấn đề. Trong học máy, các thuật toán được sử dụng để ánh xạ dữ liệu đầu vào cho các dự đoán đầu ra.
Mẫu
Một đại diện của một thuật toán học máy được đào tạo trên dữ liệu. Mô hình đưa ra dự đoán dựa trên các mẫu mà nó đã học được từ dữ liệu đào tạo.
Dữ liệu đào tạo
Bộ dữ liệu được sử dụng để đào tạo một mô hình học máy. Nó bao gồm các cặp đầu vào-đầu ra trong đó mô hình tìm hiểu mối quan hệ giữa đầu vào và đầu ra.
Dữ liệu thử nghiệm
Một bộ dữ liệu riêng biệt được sử dụng để đánh giá hiệu suất của một mô hình được đào tạo. Nó giúp đánh giá mô hình khái quát hóa tốt như thế nào đối với dữ liệu mới, không nhìn thấy.
Tính năng
Một tính chất có thể đo lường cá nhân hoặc đặc điểm của một hiện tượng đang được quan sát. Tính năng là các biến đầu vào được sử dụng bởi mô hình học máy.
Nhãn
Biến đầu ra trong học tập có giám sát, đại diện cho giá trị mục tiêu mà mô hình nhằm mục đích dự đoán.
Quá phù hợp
Một tình huống mà một mô hình học máy hoạt động tốt trên dữ liệu đào tạo nhưng kém trên dữ liệu mới, không nhìn thấy. Quá phù hợp xảy ra khi mô hình học tiếng ồn trong dữ liệu đào tạo thay vì các mẫu cơ bản.
Không phù hợp
Một tình huống mà một mô hình học máy hoạt động kém trên cả dữ liệu đào tạo và dữ liệu thử nghiệm. Không phù hợp xảy ra khi mô hình quá đơn giản để nắm bắt các mẫu cơ bản trong dữ liệu.
Siêu tham số
Một tham số có giá trị được đặt trước khi quá trình học tập bắt đầu. Siêu tham số kiểm soát quá trình học tập và có thể ảnh hưởng đáng kể đến hiệu suất của mô hình.
Xác thực chéo
Một kỹ thuật để đánh giá hiệu suất của mô hình học máy bằng cách chia dữ liệu thành nhiều tập hợp con và đào tạo / thử nghiệm mô hình trên các kết hợp khác nhau của các tập hợp con này.
Học tập hòa tấu
Một phương pháp kết hợp nhiều mô hình học máy để cải thiện hiệu suất tổng thể. Các kỹ thuật hòa tấu phổ biến bao gồm đóng bao, tăng cường và xếp chồng.
1.4 Phân biệt các lĩnh vực liên quan: AI, Khoa học dữ liệu, Học sâu
Học máy thường bị nhầm lẫn với các lĩnh vực liên quan khác, chẳng hạn như trí tuệ nhân tạo (AI), khoa học dữ liệu và học sâu. Mặc dù các lĩnh vực này được kết nối với nhau, nhưng chúng có sự khác biệt rõ rệt.
Trí tuệ nhân tạo (AI)
AI là một lĩnh vực rộng lớn bao gồm sự phát triển của các hệ thống có thể thực hiện các nhiệm vụ thường đòi hỏi trí thông minh của con người. Điều này bao gồm giải quyết vấn đề, lý luận, hiểu ngôn ngữ tự nhiên và nhận thức. Học máy là một tập hợp con của AI tập trung vào việc phát triển các thuật toán cho phép các hệ thống học hỏi từ dữ liệu.
Khoa học dữ liệu
Khoa học dữ liệu là một lĩnh vực liên ngành liên quan đến việc trích xuất kiến thức và hiểu biết sâu sắc từ dữ liệu bằng các kỹ thuật khác nhau, bao gồm thống kê, học máy và khai thác dữ liệu. Các nhà khoa học dữ liệu sử dụng học máy như một trong những công cụ của họ để phân tích và giải thích dữ liệu phức tạp.
Học sâu
Học sâu là một lĩnh vực con của học máy liên quan đến các mạng thần kinh với nhiều lớp (do đó "sâu"). Các mạng thần kinh này có khả năng học các mẫu phức tạp trong các bộ dữ liệu lớn. Mặc dù tất cả học sâu đều là học máy, nhưng không phải tất cả học máy đều là học sâu.
1.5 Lịch sử phát triển của Học máy
Lĩnh vực học máy đã phát triển đáng kể trong vài thập kỷ qua. Dưới đây là tổng quan ngắn gọn theo trình tự thời gian về sự phát triển của nó:
Thập niên 1950
• 1950: Alan Turing đề xuất khái niệm "Học máy" trong bài báo "Máy tính và trí thông minh".
• 1952: Arthur Samuel phát triển một chương trình chơi cờ caro học hỏi từ kinh nghiệm, đánh dấu một trong những ví dụ sớm nhất về học máy.
Thập niên 1960
• 1967: Thuật toán lân cận gần nhất được