ChatGPT là một trong những công cụ mới nhất được trang bị trí tuệ nhân tạo, nhưng các thuật toán làm việc phía sau thực ra đã cung cấp sức mạnh cho một loạt các ứng dụng và dịch vụ từ năm 2020. Vì vậy, để hiểu cách ChatGPT Việt Nam hoạt động, chúng ta cần bắt đầu bằng việc nói về động cơ ngôn ngữ cơ bản mà nó sử dụng.
ChatGPT Việt Nam trong ChatGPT chủ yếu là GPT-3, hoặc Generative Pre-trained Transformer 3, tuy nhiên GPT-4 hiện đã có sẵn cho các thuê bao ChatGPT Việt Nam và có thể sẽ phổ biến hơn trong tương lai. Các mô hình GPT được phát triển bởi OpenAI (công ty đứng sau ChatGPT và trình tạo hình ảnh DALL·E 2), nhưng chúng cung cấp sức mạnh cho từng tính năng trí tuệ nhân tạo của Bing đến các công cụ viết như Jasper và Copy.ai. Thực tế, hầu hết các bộ tạo văn bản trí tuệ nhân tạo hiện có sử dụng GPT-3 và có thể ra mắt GPT-4 là bước tiến tiếp.
ChatGPT Việt Nam đã đưa GPT-3 trở nên nổi tiếng vì nó đơn giản hóa quá trình tương tác với một công cụ tạo văn bản trí tuệ nhân tạo và quan trọng nhất là miễn phí cho tất cả mọi người. Ngoài ra, nó còn là một trò chuyện tự động và mọi người đã thích một trò chuyện tự động tốt từ thời của SmarterChild.
Trong khi GPT-3 và GPT-4 là hai mô hình Ngôn ngữ Lớn phổ biến nhất hiện nay, trong vài năm tới sẽ có nhiều sự cạnh tranh hơn. Ví dụ, Google có Bard – trò chuyện tự động AI của riêng họ – được cung cấp sức mạnh từ động cơ ngôn ngữ Pathways Model (PaLM 2) do họ tự phát triển. Nhưng hiện tại, gói dịch vụ của OpenAI là tiêu chuẩn ngành công nghiệp. Đây chỉ là công cụ dễ nhất để mọi người sử dụng.
Vì vậy, câu trả lời cho câu hỏi “ChatGPT hoạt động như thế nào?” là cơ bản: GPT-3 và GPT-4. Nhưng để hiểu sâu hơn, hãy đi vào chi tiết hơn.
ChatGPT là gì?
ChatGPT là một ứng dụng được xây dựng bởi OpenAI. Sử dụng các mô hình ngôn ngữ GPT, nó có thể trả lời câu hỏi của bạn, viết nội dung, soạn thư điện tử, duy trì cuộc trò chuyện, giải thích mã trong các ngôn ngữ lập trình khác nhau, dịch ngôn ngữ tự nhiên thành mã và nhiều hơn nữa – hoặc ít nhất là cố gắng – dựa trên các yêu cầu ngôn ngữ tự nhiên mà bạn đưa cho nó. Nó là một trò chuyện tự động, nhưng là một trò chuyện tự động thực sự rất tốt.
Dù chỉ đơn giản để chơi với nếu bạn muốn viết một bài thơ Shakespeare về thú cưng của mình hoặc có một vài ý tưởng cho tiêu đề trong các email tiếp thị, nhưng đối với OpenAI, điều này cũng rất hữu ích. Đó là một cách để thu thập rất nhiều dữ liệu từ người dùng thực tế và đóng vai trò như một demo tuyệt vời cho sức mạnh của GPT, mà nếu không có ChatGPT, có thể sẽ cảm thấy mơ hồ trừ khi bạn đã sâu trong học máy.
Hiện tại, ChatGPT Việt Nam cung cấp hai mô hình GPT. Mô hình mặc định, GPT-3.5, ít mạnh mẽ hơn nhưng có sẵn cho tất cả mọi người miễn phí. GPT-4 nâng cao hơn và chỉ giới hạn cho thuê bao ChatGPT Việt Nam, thậm chí người dùng thuê bao cũng chỉ được hỏi một số câu hỏi giới hạn mỗi ngày.
Một trong những tính năng quan trọng của ChatGPT Việt Nam là nó có thể ghi nhớ cuộc trò chuyện bạn đang có với nó. Điều này có nghĩa là nó có thể hiểu ngữ cảnh từ những gì bạn đã hỏi trước đó và sử dụng điều đó để tham khảo trong cuộc trò chuyện tiếp theo với bạn. Bạn cũng có thể yêu cầu chỉnh sửa và sửa lỗi và nó sẽ tham khảo lại những gì bạn đã thảo luận trước đó. Điều này khiến tương tác với trí tuệ nhân tạo trở nên như một cuộc trò chuyện thực sự.
Nếu bạn muốn thấy sự thích thú thực sự, hãy dành năm phút để chơi với ChatGPT Việt Nam ngay bây giờ (miễn phí!), và sau đó quay lại đọc về cách nó hoạt động.

ChatGPT hoạt động như thế nào?
ChatGPT hoạt động bằng cách cố gắng hiểu yêu cầu của bạn, sau đó trả về các đoạn văn mà nó dự đoán là tốt nhất để trả lời câu hỏi của bạn, dựa trên dữ liệu mà nó đã được huấn luyện trên đó.
Hãy nói về quá trình huấn luyện. Đây là quá trình mà trí tuệ nhân tạo non trẻ được đưa ra một số quy tắc cơ bản, sau đó nó sẽ được đặt trong các tình huống hoặc nhận một lượng lớn dữ liệu để tiếp tục phát triển các thuật toán của riêng mình.
GPT-3 đã được huấn luyện với khoảng 500 tỷ “tokens”, cho phép mô hình ngôn ngữ của nó dễ dàng gán nghĩa và dự đoán văn bản có thể tiếp theo. Nhiều từ tương ứng với một token, tuy nhiên từ dài hoặc phức tạp hơn thường được chia thành nhiều token.
Trung bình, mỗi token có khoảng bốn ký tự. OpenAI đã giữ im lặng về cách hoạt động bên trong của GPT-4, nhưng chúng ta có thể an toàn cho rằng nó được huấn luyện trên tập dữ liệu tương tự, bởi vì nó mạnh mẽ hơn.
Tất cả các token đều được lấy từ một nguồn dữ liệu văn bản khổng lồ được viết bởi con người. Điều này bao gồm sách, bài viết và các tài liệu khác trên nhiều chủ đề, phong cách và thể loại khác nhau—cùng với một lượng nội dung đáng kinh ngạc thu thập từ internet công cộng. Đơn giản, nó đã được cho phép xử lý tổng số kiến thức của con người.
Bộ dữ liệu khổng lồ này đã được sử dụng để hình thành một mạng neural học sâu – một thuật toán phức tạp, nhiều lớp, có trọng số được mô phỏng theo não người – cho phép ChatGPT học các mẫu và mối quan hệ trong dữ liệu văn bản và tận dụng khả năng tạo ra câu trả lời giống con người bằng cách dự đoán từ tiếp theo trong bất kỳ câu nào.
Mặc dù thực ra, điều đó không đủ để thể hiện. ChatGPT không hoạt động ở mức câu đơn giản—thay vào đó, nó tạo ra văn bản về những từ, câu và thậm chí cả đoạn văn hoặc đoạn thơ có thể tiếp theo. Nó không phải là việc đoán từ tiếp theo một cách rõ ràng như những từ gợi ý trên điện thoại của bạn; nó cố gắng tạo ra những phản hồi hoàn toàn mạch lạc cho mọi yêu cầu. Bạn có thể cảm nhận được ma thuật của ChatGPT Việt Nam 3.5 miễn phí bằng cách nhấp vào đây.

Để tinh chỉnh khả năng phản hồi của ChatGPT đối với nhiều yêu cầu khác nhau, nó được tối ưu hóa cho đối thoại bằng một kỹ thuật gọi là học tăng cường với phản hồi từ con người (RLHF). Về cơ bản, con người đã tạo ra một mô hình đánh giá với dữ liệu so sánh (nơi hai hoặc nhiều phản hồi của mô hình được xếp hạng bởi người huấn luyện AI), để AI có thể học được phản hồi tốt nhất là gì.
Quay trở lại mạng neural nó hình thành. Dựa trên toàn bộ quá trình huấn luyện đó, mạng neural GPT-3 có 175 tỷ tham số hoặc biến số cho phép nó nhận đầu vào – yêu cầu của bạn – sau đó, dựa trên giá trị và trọng số mà nó cung cấp cho các tham số khác nhau (và một ít sự ngẫu nhiên), đầu ra là gì nó cho là phù hợp nhất với yêu cầu của bạn.
OpenAI chưa công bố GPT-4 có bao nhiêu tham số, nhưng có thể đoán rằng nó lớn hơn 175 tỷ và nhỏ hơn con số 100 nghìn tỷ tham số từ tin đồn trước đây. Bất kể số chính xác là bao nhiêu, số lượng tham số càng nhiều không đồng nghĩa tự động là tốt hơn. Một số sức mạnh tăng lên của GPT-4 có lẽ đến từ việc có nhiều tham số hơn GPT-3, nhưng có nhiều sự cải tiến trong cách nó được huấn luyện.
Cuối cùng, cách đơn giản nhất để hình dung nó là như một trò chơi “hoàn thành câu” mà bạn chơi khi còn nhỏ. Ví dụ, khi tôi thử ChatGPT Việt Nam bằng GPT-3 với yêu cầu “Zapier là …” nó đã trả lời rằng:
“Zapier là một công cụ tự động hóa dựa trên web cho phép người dùng kết nối các ứng dụng web khác nhau với nhau để tự động hóa các tác vụ lặp đi lặp lại và cải thiện công việc.”
Đó là loại câu bạn có thể tìm thấy trong hàng trăm bài viết mô tả các chức năng của Zapier, vì vậy việc nó tạo ra câu trả lời như vậy là hợp lý. Nhưng khi biên tập viên của tôi đưa nó cùng yêu cầu đó, nó nói:
“Zapier là một công cụ tự động hóa dựa trên web cho phép người dùng kết nối các ứng dụng web khác nhau và tự động hóa quy trình công việc giữa chúng.”
Điều đó khá tương tự, nhưng không phải là câu trả lời hoàn toàn giống nhau. Sự ngẫu nhiên đó (mà bạn có thể điều khiển trong một số ứng dụng GPT-3 với thiết lập gọi là “nhiệt độ”) đảm bảo rằng ChatGPT không chỉ đáp ứng mọi phản hồi bằng những câu trả lời giống nhau.
Nó chạy mỗi yêu cầu qua toàn bộ mạng neural mỗi lần và tung một vài xúc xắc ở đây và đó để giữ cho mọi thứ luôn mới mẻ. Không có khả năng nó sẽ bắt đầu khẳng định rằng Zapier là một màu từ sao Hỏa, nhưng nó sẽ pha trộn các từ tiếp theo dựa trên khả năng tương quan của chúng.
(Về mặt ý nghĩa, khi chạy trên GPT-4, ChatGPT nói: “Zapier là một công cụ tự động hóa dựa trên web cho phép người dùng tích hợp và tự động hóa các tác vụ giữa các ứng dụng và dịch vụ trực tuyến khác nhau.” Rất tương tự!)
Discover more from Vietnam Insider
Subscribe to get the latest posts sent to your email.

