Xử lý ngôn ngữ tự nhiên - Tổng quan toàn diện - Phần 3 của 6.
Akash Takyar, Giám đốc điều hành LeewayHert. Lê Quang Văn dịch, giải thích và thực hiện phần kỹ thuật số.
4 - Xử lý ngôn ngữ tự nhiên hoạt động như thế nào?
Các mô hình Xử lý ngôn ngữ tự nhiên hoạt động bằng cách thiết lập các kết nối giữa các yếu tố cơ bản của ngôn ngữ, chẳng hạn như chữ cái, từ và câu, có trong một tập dữ liệu văn bản nhất định. Để thực hiện điều này, kiến trúc Xử lý ngôn ngữ tự nhiên sử dụng các kỹ thuật tiền xử lý dữ liệu, trích xuất tính năng và mô hình hóa đa dạng. Các quy trình này bao gồm:
Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là điều cần thiết trong việc chuẩn bị dữ liệu văn bản cho các mô hình Xử lý ngôn ngữ tự nhiên để nâng cao hiệu suất của chúng và cho phép hiểu hiệu quả. Nó liên quan đến việc chuyển đổi các từ và ký tự thành một định dạng mà mô hình có thể dễ dàng hiểu được. AI tập trung vào dữ liệu nhấn mạnh tầm quan trọng của tiền xử lý dữ liệu và coi nó là một thành phần quan trọng của quy trình tổng thể. Bằng cách ưu tiên tiền xử lý dữ liệu, các học viên AI nhằm mục đích tối ưu hóa chất lượng và cấu trúc của dữ liệu đầu vào để tối đa hóa khả năng của mô hình và cải thiện hiệu suất tổng thể của nó trên các tác vụ cụ thể. Các kỹ thuật khác nhau được sử dụng để tiền xử lý dữ liệu, bao gồm:
Phân đoạn câu: Đó là quá trình chia một đoạn văn bản lớn thành các câu nhỏ hơn, có ý nghĩa hơn. Trong các ngôn ngữ như tiếng Anh, chúng ta thường sử dụng dấu chấm để chỉ phần cuối của câu. Tuy nhiên, nó có thể trở nên phức tạp vì dấu chấm cũng được sử dụng trong chữ viết tắt, nơi chúng là một phần của từ. Trong một số ngôn ngữ, như tiếng Trung Quốc cổ đại, không có dấu hiệu rõ ràng để đánh dấu sự kết thúc của câu. Vì vậy, phân đoạn câu giúp chúng ta tách một văn bản dài thành các câu có ý nghĩa để phân tích và hiểu.
Tokenization: Tokenization là quá trình chia văn bản thành các từ hoặc phần từ riêng biệt. Ví dụ: câu "Tôi thích ăn kem" sẽ được mã hóa thành ["Tôi", " thích ", "ăn", "kem", "kem"]. Biểu diễn được mã hóa này cho phép các mô hình ngôn ngữ xử lý văn bản hiệu quả hơn. Ngoài ra, bằng cách hướng dẫn mô hình bỏ qua các mã thông báo không quan trọng, chẳng hạn như các từ phổ biến như "the" hoặc "a", chúng ta có thể nâng cao hơn nữa hiệu quả trong quá trình xử lý ngôn ngữ.
Stemming và lemmatization: Stemming là một quá trình không chính thức áp dụng các quy tắc heuristic để chuyển đổi các từ thành các dạng cơ bản của chúng. Nó nhằm mục đích loại bỏ hậu tố và tiền tố để có được dạng gốc của một từ. Ví dụ: "university", " universities " và " university’s " đều có nguồn gốc từ "univers". Tuy nhiên, stemming có thể có những hạn chế, chẳng hạn như ánh xạ các từ không liên quan như "vũ trụ" vào cùng một gốc.
Lemmatization là một quá trình ngôn ngữ nhằm tìm ra dạng cơ bản hoặc gốc của một từ bằng cách phân tích hình thái của nó bằng từ vựng hoặc từ điển. Trong các ngôn ngữ như tiếng Anh, các từ có thể xuất hiện dưới các dạng khác nhau dựa trên thì, số hoặc các đặc điểm ngữ pháp khác. Ví dụ: từ "ngựa" có thể xuất hiện dưới dạng "ngựa con" ở dạng số nhiều. Nó xem xét các yếu tố như một phần của lời nói và ngữ cảnh để xác định hình thức gốc một cách chính xác. Lemmatization đảm bảo rằng hình thức kết quả là một từ hợp lệ. Các thư viện như spaCy và NLTK thực hiện các thuật toán stemming và lemmatization cho các nhiệm vụ Xử lý ngôn ngữ tự nhiên.
Xóa từ dừng cuối câu (Stop word removal): Trong Xử lý ngôn ngữ tự nhiên, điều quan trọng là phải xem xét ý nghĩa của từng từ trong câu. Tiếng Anh chứa nhiều từ phụ như "và", "the" và "a" xuất hiện thường xuyên nhưng không mang nhiều thông tin có ý nghĩa. Những từ này có thể gây ra tiếng ồn khi thực hiện phân tích thống kê trên văn bản. Để giải quyết vấn đề này, một số đường ống Xử lý ngôn ngữ tự nhiên xác định những từ này là từ dừng, đề nghị chúng nên được lọc ra trước khi phân tích. Từ dừng thường được xác định bằng cách sử dụng danh sách được xác định trước, mặc dù không có danh sách chung nào phù hợp với tất cả