Episode 2381 - July 25 - Meta ra mắt mô hình AI mạnh nhất - Vina Technology at AI time

24 Thg07, 24

Vina Technology at AI time - Công nghệ Việt Nam thời AI

Meta ra mắt mô hình AI mạnh nhất, Llama 3.1, với 405 tỷ tham số

Venture Beat. Ngày 23 tháng 7, 2024. Lê Quang Văn dịch, giải thích và thực hiện phần kỹ thuật số.

Sau nhiều tháng hé lộ và một vụ rò rỉ bị cáo buộc ngày hôm qua, Meta hôm nay chính thức ra mắt phiên bản lớn nhất của mô hình ngôn ngữ lớn mã nguồn mở Llama, phiên bản 405 tỷ tham số mang tên Llama 3.1.

Tham số, như bạn nhớ, là các cài đặt điều chỉnh cách mà một mô hình ngôn ngữ lớn hoạt động và được học từ dữ liệu huấn luyện của nó, với số lượng tham số lớn hơn thường ám chỉ các mô hình mạnh mẽ hơn có thể xử lý các hướng dẫn phức tạp hơn và hy vọng sẽ chính xác hơn so với các mô hình tham số nhỏ hơn.

Llama 3.1 là một bản cập nhật của Llama 3 được giới thiệu vào tháng 4 năm 2024, nhưng chỉ có sẵn cho đến nay ở phiên bản 8 tỷ và 70 tỷ tham số.

Bây giờ, phiên bản 405 tỷ tham số có thể "dạy" các mô hình nhỏ hơn và tạo dữ liệu tổng hợp.

“Từ góc độ hiệu suất, mô hình này sẽ cung cấp hiệu suất đạt tiêu chuẩn khi nói đến các mô hình mã nguồn mở, và nó sẽ cực kỳ cạnh tranh với nhiều mô hình dẫn đầu ngành, đóng nguồn,” Ragavan Srinivasan, phó chủ tịch Quản lý Chương trình AI tại Meta, nói với VentureBeat trong một cuộc phỏng vấn.

Llama 3.1 sẽ hỗ trợ đa ngôn ngữ ngay từ khi ra mắt và sẽ hỗ trợ tiếng Anh, Bồ Đào Nha, Tây Ban Nha, Ý, Đức, Pháp, Hindi và Thái. Các mô hình Llama 3 nhỏ hơn cũng sẽ trở nên đa ngôn ngữ bắt đầu từ hôm nay.

Cửa sổ ngữ cảnh của Llama 3.1 đã được mở rộng lên đến 128.000 token, có nghĩa là người dùng có thể nạp vào nó lượng văn bản tương đương với một cuốn tiểu thuyết gần 400 trang.

Kiểm tra điểm chuẩn

Meta cho biết trong một bài đăng trên blog rằng họ đã thử nghiệm Llama 3.1 trên hơn 150 bộ dữ liệu điểm chuẩn và thực hiện các đánh giá có hướng dẫn của con người cho các kịch bản thực tế. Họ nói rằng mô hình 405B "cạnh tranh với các mô hình nền tảng hàng đầu trong nhiều nhiệm vụ bao gồm GPT-4, GPT-4o và Claude 3.5 Sonnet. Các mô hình nhỏ hơn cũng thực hiện tương tự.

Dòng mô hình Llama trở thành lựa chọn phổ biến cho nhiều nhà phát triển có thể truy cập mô hình trên nhiều nền tảng. Meta cho biết Llama 3 có thể vượt trội hoặc ngang bằng với các mô hình đối thủ trên các điểm chuẩn khác nhau. Nó hoạt động tốt với các câu hỏi trắc nghiệm và mã hóa so với Google’s Gemma và Gemini, Anthropic’s Claude 3 Sonnet, và Mistral’s 7B Instruct.

Mô hình giảng dạy

Meta cũng đã cập nhật giấy phép cho tất cả các mô hình của mình để cho phép chưng cất mô hình và tạo dữ liệu tổng hợp. Chưng cất mô hình, hay chưng cất kiến thức, cho phép người dùng chuyển giao kiến thức hoặc huấn luyện từ một mô hình AI lớn hơn sang một mô hình nhỏ hơn.

Srinivasan gọi phiên bản 405B là một "mô hình giảng dạy", có khả năng mang kiến thức đến các mô hình 8B và 70B.

"Cách tốt nhất để nghĩ về mô hình 405B là như một mô hình giảng dạy. Nó có rất nhiều kiến thức, nhiều khả năng và lý luận được tích hợp vào đó," Srinivasan nói. "Một khi bạn sử dụng nó, có thể nó không được triển khai trực tiếp, nhưng bạn có thể chưng cất kiến thức của nó cho các trường hợp sử dụng cụ thể của bạn để tạo ra các phiên bản nhỏ hơn, hiệu quả hơn có thể được tinh chỉnh cho các nhiệm vụ cụ thể."

Thông qua chưng cất mô hình này, người dùng có thể bắt đầu xây dựng với phiên bản 405B và hoặc tạo một mô hình nhỏ hơn hoặc huấn luyện Llama 3.1 8B hoặc 70B.

Tuy nhiên, không chỉ trong cơ sở kiến thức mà mô hình 405B có thể hữu ích trong việc tinh chỉnh các mô hình nhỏ hơn. Khả năng tạo dữ liệu tổng hợp sẽ cho phép các mô hình khác học từ thông tin mà không vi phạm bản quyền, dữ liệu cá nhân hoặc nhạy cảm, và phù hợp với mục đích cụ thể của chúng.

Cấu trúc mô hình khác nhau

Meta cho biết họ đã phải tối ưu hóa ngăn xếp huấn luyện của mình và sử dụng hơn 16.000 GPU Nvidia H100 để huấn luyện mô hình 405B. Để làm cho mô hình lớn hơn có thể mở rộng hơn, các nhà nghiên cứu của Meta đã quyết định sử dụng mô hình chỉ có bộ biến đổi tiêu chuẩn thay vì kiến trúc hỗn hợp các chuyên gia đã trở nên phổ biến trong những tháng gần đây.

Bình luận