Quan điểm: Trong tương lai, AI sẽ được cai trị bởi các mô hình và tầm quan trọng của các mô hình không thể được đánh giá quá cao

Nguồn: Công viên Geek

Tác giả: Xing Fu

Tên gốc: "Đằng sau hình mẫu "Giang Tử Nha", quá trình phát triển của một đội AI chuyên nghiệp"

Kể từ khi các nhà khoa học phát triển chương trình AI "cờ đam" đầu tiên vào năm 1956, AI đã được phát triển trong gần 70 năm. Trong giai đoạn này, đã có một số thăng trầm, nhưng có một luồng chính xuyên suốt nó: đó là "mô hình hóa" - tỷ lệ "mô hình" trong AI ngày càng cao. Xu hướng này lên đến đỉnh điểm sau sự xuất hiện của mô hình ngôn ngữ lớn ChatGPT.

"Chúng tôi tin tưởng chắc chắn rằng tương lai của AI là thế giới của các mô hình và chúng tôi không thể quá coi trọng các mô hình."

Vào ngày 22 tháng 7, tại hội nghị AGI Playground do Geek Park tổ chức, Zhang Jiaxing, nhà khoa học chủ tịch về điện toán nhận thức và ngôn ngữ tự nhiên tại Viện nghiên cứu IDEA (Nền kinh tế kỹ thuật số ở Quảng Đông-Hồng Kông-Macao Greater Bay Area), cho biết.

Vào năm 2021, Zhang Jiaxing đã lãnh đạo nhóm CCNL Fengshenbang của Viện nghiên cứu IDEA để tạo ra hệ thống mô hình đào tạo trước mã nguồn mở lớn nhất Trung Quốc "Fengshenbang", là "tiền thân" của mô hình. Họ đã chứng kiến sự “chuyển dịch mô hình” do các mô hình phân khối lớn mang lại.

Zhang Jiaxing cho rằng vụ chuyển nhượng này bao gồm hai từ khóa là "biến mất" và "hình thức". "Biến mất" có nghĩa là Với sự xuất hiện của mô hình lớn đa năng ChatGPT, các loại mô hình cụ thể được sử dụng để trích xuất thông tin, đặt câu hỏi và trả lời cũng như xuất văn bản sẽ biến mất. "Sự hình thành" có nghĩa là khả năng thử nghiệm kỹ thuật đằng sau mô hình lớn sẽ hình thành một hốc sinh thái mới** từ khi mô hình ra đời, tinh chỉnh cho đến hạ cánh.

Viện nghiên cứu IDEA CCNL cũng đang đặt ra trong lĩnh vực sinh thái mới.

Ngoài việc phát triển một mô hình đầy đủ năng lực-hiện tại, nhóm Fengshenbang đã tạo ra một mô hình lớn có mục đích chung là "Jiang Ziya" (Ziya) dựa trên LLaMa, mô hình này đã được áp dụng cho các tình huống như con người kỹ thuật số và viết quảng cáo. Khoảng một tháng trước, họ cũng đã đào tạo một loạt mô hình chuyên gia, chẳng hạn như mô hình đa phương thức, mô hình mã, mô hình viết, mô hình đối thoại, v.v. Cái sau có thể giúp người dùng viết bài, viết quảng cáo phương tiện truyền thông mới, kịch bản phát sóng trực tiếp, áp phích quảng cáo và thậm chí cả tiểu thuyết trực tuyến.

Zhang Jiaxing tin rằng trong hệ sinh thái khổng lồ này, các doanh nhân có thể suy nghĩ về nơi chiếm lĩnh thị trường sinh thái dựa trên thế mạnh của chính họ. "Bất cứ ai quan tâm đến việc tham gia vào lĩnh vực mô hình lớn đều có thể tìm thấy vị trí của mình trong đó," anh nói.

Sau đây là toàn văn bài phát biểu của Zhang Jiaxing tại Hội nghị Sân chơi AGI, do Geek Park biên tập:

Tại hội nghị AGI Playground do Geek Park tổ chức, Zhang Jiaxing đã có bài phát biểu

01. Kỷ nguyên mô hình lớn: Mô hình mới và Hệ sinh thái mới

Năm nay, khi chúng ta nói về các mô hình lớn và AGI, chúng ta luôn coi các mô hình lớn là điều hiển nhiên trong AI. Trong tương lai, ngay cả khi chúng ta lùi lại năm 1997, một điều rất quan trọng là "Deep Blue" đã đánh bại "Kasparov". Ngay cả hệ thống AI đó cũng không có mô hình học sâu trong đó.

Toàn bộ quá trình phát triển AI bắt đầu vào năm 1956, đến nay đã được 70 năm. Mặc dù AI đã trải qua nhiều lần thăng trầm, nhưng chúng ta có thể thấy rằng sự phát triển của AI đang diễn ra theo một đường thẳng, đó là quá trình mô hình hóa AI - tỷ lệ các mô hình trong AI ngày càng mạnh hơn. Ngày nay, chúng tôi tin chắc rằng trong tương lai AI sẽ bị thống trị bởi các mô hình và chúng tôi không thể quá coi trọng các mô hình.

Ảnh: Zhang Jiaxing nói về quá trình "làm mẫu" của AI

Chúng tôi đều nói rằng mô hình lớn lần này là một sự thay đổi trong "mô hình kỹ thuật", có thể tóm gọn trong hai từ khóa "biến mất" và "hình thức".

"Biến mất" đề cập đến sự biến mất của loại. Nửa năm trước, toàn bộ lĩnh vực AI tràn ngập các loại cấu trúc và nhiệm vụ AI khác nhau. Ví dụ, về cấu trúc, có nhiều cấu trúc mô hình khác nhau như BERT và T5. Ví dụ, về nhiệm vụ, có nhiều nhiệm vụ khác nhau như phân loại, khai thác thông tin, viết tóm tắt, hỏi đáp. Tuy nhiên, với sự ra đời của kỷ nguyên những mẫu xe cỡ lớn đa năng, sự đa dạng này đang biến mất.

Hiện tại, cấu trúc mô hình duy nhất là GPT và các tác vụ duy nhất là nhập văn bản và xuất văn bản. Vì vậy, các khái niệm AI trước đây, chẳng hạn như phân tích câu, từ khóa và các khái niệm khác, đã dần biến mất khỏi tầm nhìn của chúng ta. Hơn nữa, việc sử dụng các mô hình ngày nay không còn tùy thuộc vào nhà cung cấp công nghệ, mà tùy thuộc vào khách hàng sử dụng nó.

Và "sự hình thành" đề cập đến sự hình thành của chuỗi sản xuất. Việc xây dựng một mô hình đòi hỏi đầu tư nguồn lực rất lớn và hầu như không ai có thể hoàn thành nhiệm vụ này từ đầu đến cuối một mình. Nó đòi hỏi một đội ngũ khổng lồ và rất nhiều sức mạnh tính toán đằng sau nó để đánh bóng nó. Từ ý tưởng ban đầu về mô hình, đến việc tinh chỉnh các giai đoạn khác nhau ở giữa và đến thực hành hạ cánh cuối cùng, điều này tạo thành một chuỗi sản xuất hoàn chỉnh.

Từ sự “biến mất” và “hình thành” có thể thấy sự “chuyển mình” của mô hình lớn. Đôi khi, tiến bộ công nghệ là không ngừng, không phụ thuộc vào ý chí cá nhân và các mô hình công nghệ mới sẽ thay thế các mô hình công nghệ cũ.

Vì vậy, giá trị của các mô hình lớn như mô hình công nghệ mới này là gì? Theo tôi, nó mang lại 4 giá trị hoàn toàn mới:

1 Hiểu hoàn toàn mới

Về mặt hiểu ngôn ngữ tự nhiên, mô hình lớn hiện tại vượt xa tất cả các mô hình trước đó. Nó dường như thực sự hiểu ý nghĩa trong từng lời nói của chúng tôi. Mặc dù các câu trả lời có thể không hoàn toàn chính xác, nhưng một mức độ hiểu biết hoàn toàn mới sẽ xuất hiện.

2 Công cụ hoàn toàn mới

Nó không chỉ là một công cụ để nâng cao hiệu quả mà còn có thể giải phóng con người khỏi lao động nặng nhọc. Nó cũng là một công cụ sáng tạo có thể tạo ra những thứ mà con người không thể tạo ra. Ví dụ: Mô hình Khuếch tán năm ngoái đã thể hiện khả năng của đồ thị Vinsen.

3 giao diện mới

Trước đây, chúng ta phải viết chương trình để truy cập dữ liệu và API, nhưng hiện tại, có vẻ như chúng ta không cần phải viết mã rườm rà nữa, chỉ cần mô tả bằng ngôn ngữ tự nhiên và mô hình lớn có thể tự động tạo mã.

4 ĐỘNG CƠ MỚI

Mô hình lớn không chỉ là một điểm khả năng duy nhất, nó có thể được sử dụng như một công cụ để thúc đẩy việc truy xuất thông tin, tạo đối thoại và thậm chí là tạo câu chuyện.

Mô hình lớn cũng mang lại một hệ sinh thái mới, đó là cách tích hợp với ngành và thực hiện nó.

Chúng tôi nghĩ rằng các mô hình lớn không chỉ là các API đơn giản hoặc các mô hình bất biến. Chúng tôi nhấn mạnh rằng sau khi công ty thượng nguồn sản xuất mô hình, các khách hàng hạ nguồn cần tiến hành đào tạo thêm và chạy những dặm cuối cùng. Bằng cách này, mô hình có thể được nhúng vào kịch bản riêng của mỗi khách hàng. Khi mô hình hoạt động tốt hơn, nhiều dữ liệu được thu thập hơn, từ đó củng cố mô hình. Điều này thực sự có thể thúc đẩy sự phát triển của toàn ngành.

Trong hệ sinh thái mới này, thượng nguồn nhất là công ty tạo ra mô hình cơ sở và có nhiều nhóm bên dưới mô hình cơ sở, sẽ tập trung vào các mô hình có khả năng hoặc lĩnh vực cụ thể. Để tiếp tục, đó là hợp tác với các công ty giải pháp, nhà sản xuất đám mây và nhà sản xuất phần cứng để tạo ra nhiều loại sản phẩm và cuối cùng là phục vụ các doanh nghiệp hạ cánh và chính phủ.

Ảnh: Hệ sinh thái mới của mô hình lớn do Zhang Jiaxing mô tả

Từ mô hình cơ sở đến triển khai thực tế, điều này liên quan đến rất nhiều liên kết và liên kết, đồng thời cũng sinh ra nhiều hốc sinh thái mới. Tôi nghĩ mọi người có thể kết hợp sức mạnh của mình và suy nghĩ về nơi họ muốn chiếm giữ trong hệ sinh thái này. Trên thực tế, bất kỳ ai sẵn sàng cống hiến hết mình cho lĩnh vực mô hình quy mô lớn đều có thể tìm thấy vị trí của mình trong đó.

02. ** Phía sau đại mô hình "Giang Tử Nha"**

Chúng tôi đã là một nhóm được hai năm và rõ ràng từ kinh nghiệm của chúng tôi rằng sự thay đổi mô hình này đã ảnh hưởng đến chúng tôi.

Cho đến cuối năm ngoái, chúng tôi đã phát triển một số lượng lớn các mô hình nguồn mở, thực hiện các cấu trúc mô hình và loại tác vụ khác nhau. Chỉ trong một năm, chúng tôi đã có 98 mô hình nguồn mở, lập kỷ lục trong lĩnh vực Trung Quốc.

Tuy nhiên, vào cuối năm ngoái, người mẫu của Wen Shengtu bất ngờ xuất hiện như một sản phẩm hot. Vì vậy, chúng tôi bắt đầu quay lại và tạo ra mô hình Khuếch tán ổn định mã nguồn mở đầu tiên bằng tiếng Trung, mà chúng tôi gọi là mô hình "Taiyi". Chúng tôi hy vọng sẽ theo kịp những thay đổi mô hình công nghệ cho các mô hình lớn.

Trong thời đại hiện nay của các mô hình lớn có mục đích chung, những gì nhóm của chúng tôi đang làm thêm giờ là đào tạo các mô hình lớn cơ sở mã nguồn mở tốt nhất cho người Trung Quốc. Điều này được gọi là LLaMA2. Chúng tôi đã đào tạo mã thông báo 20B. So với mẫu "ziya-LLaMA-13B" được đào tạo trước đó, tốc độ đào tạo tăng 38%, giải quyết triệt để vấn đề "chuyến bay huấn luyện" không ổn định (huấn luyện bất thường) trong quá trình huấn luyện.

Hình: Sau khi đào tạo mã thông báo 20B, LLaMA2 giải quyết vấn đề "chuyến bay đào tạo" không ổn định trong quá trình đào tạo

Sau khi chúng tôi đào tạo mô hình này, nó sẽ là nguồn mở hoàn toàn và sẽ không có giới hạn nào đối với các ứng dụng thương mại. Đồng thời, chúng tôi hứa sẽ tiếp tục đào tạo mô hình này, với hy vọng cung cấp cơ sở mô hình mã nguồn mở và thương mại tốt nhất cho toàn bộ cộng đồng mô hình lớn.

Theo mô hình công nghệ hiện tại, sự ra đời của ChatGPT trong năm nay đã khiến nhiều người phấn khích, cho rằng mô hình lớn đa năng sẽ phá vỡ mọi tầng lớp xã hội. Tuy nhiên, thời gian trôi qua, chúng tôi bình tĩnh lại và phát hiện ra rằng mô hình lớn thực chất chỉ là sự tinh lọc và tối ưu hóa bối cảnh hiện có. Do đó, chúng tôi nhận thấy rằng vẫn còn nhiều khả năng và cơ hội để áp dụng các mô hình lớn trong các ngành, lĩnh vực và khả năng dọc.

Vì vậy, khoảng một tháng trước, nhóm của chúng tôi đã tạo ra một loạt các mô hình chuyên gia, chẳng hạn như mô hình đa phương thức, mô hình mã, mô hình viết, mô hình đối thoại, v.v. Nhiều người trong số họ đã được phát hành và đang ở mức tốt nhất trong lĩnh vực này.

Gần đây, chúng tôi vừa mới mã nguồn mở mô hình hợp tác của Trung Quốc, được gọi là "viết Ziya". Chúng tôi hy vọng mô hình này có thể trở thành trợ thủ đắc lực hỗ trợ doanh nghiệp, cá nhân nâng cao hiệu quả. Ví dụ, nhân viên chính phủ có thể nhờ Ziya viết giúp viết báo cáo thiên tai hoặc viết bài phát biểu của lãnh đạo tại lễ khai mạc, vì nó rất phù hợp với phong cách của báo cáo chính sách.

Ngoài ra, nó cũng có thể giải phóng những người sáng tạo, nhà điều hành và nhà tiếp thị của cộng đồng Trung Quốc để giúp viết nhiều loại bài báo, viết quảng cáo, bài viết nhẹ nhàng và thậm chí tạo ra những truyện ngắn xuất sắc hoặc thậm chí là một tiểu thuyết web giả tưởng cổ đại. Có thể thấy nó thể hiện rất tốt về logic kết cấu chương hồi và mạch truyện.

Chúng tôi cũng đã phát triển một gói truy xuất chỉ sử dụng 100 triệu tham số. Nó hoạt động tốt hơn một số giải pháp hiện tại trong cả lĩnh vực pháp lý và tài chính, thậm chí còn tốt hơn cả các mô hình vector tốt nhất hiện là nguồn mở. Bộ công cụ của chúng tôi cũng có thể là một trợ thủ đắc lực trong ngành tài chính, giúp ích cho các nhà nghiên cứu và nhà phân tích.

Tại sao chúng tôi có thể sản xuất rất nhiều mô hình chất lượng cao?

Đằng sau đó là nhiều tích lũy của chúng tôi, bao gồm hệ thống đào tạo ba giai đoạn (PT đào tạo trước, SFT tinh chỉnh có giám sát, RLHF học hỏi phản hồi của con người), bao gồm một lượng lớn dữ liệu chất lượng cao được tích lũy, một số thuật toán tự phát triển và lượng dữ liệu này được đưa vào hệ thống đào tạo của chúng tôi.

Mỗi mô hình của chúng tôi đều hỗ trợ cả phiên bản mã nguồn mở và phiên bản thương mại, đồng thời chúng tôi ủy quyền cho các đối tác của mình thực hiện đào tạo và tinh chỉnh, cho phép họ thực hiện đào tạo riêng theo các kịch bản của riêng họ.

Từ nhỏ đến lớn, những thay đổi từ một trong các nhóm của chúng tôi cũng phản ánh những thay đổi trong mô hình kỹ thuật hiện tại trong lĩnh vực mô hình lớn.

03, câu hỏi tại chỗ

Hình: Nhóm IDEA chấp nhận các câu hỏi tại chỗ

**Hỏi: Bạn thấy kiến trúc suy luận phần cứng trong tương lai như thế nào? Phần cứng trong tương lai sẽ được "tích hợp với đào tạo và quảng bá" trong một thời gian dài hay sẽ có cơ hội cho các chip lý luận chuyên dụng? **

Zhang Jiaxing: Ban đầu, chúng tôi từng có hai loại chip để đào tạo và suy luận, nhưng chip suy luận hiện tại rõ ràng là không thể thích ứng với mô hình lớn hiện tại.

Vì vậy, hiện tại, về cơ bản là hạn chế về phần cứng, có nhiều "tích hợp đào tạo và đẩy". Và lợi thế lớn của việc tích hợp đào tạo và thúc đẩy là nó có thể tái sử dụng sức mạnh tính toán. Lý luận của chúng ta có thể không phải lúc nào cũng hoạt động hết công suất, vì vậy chúng ta có thể tận dụng tối đa thời gian tối thiểu để đào tạo, điều này cũng được xem xét từ góc độ tiết kiệm thời gian.

Trong tương lai, những con chip lý luận vẫn có ý nghĩa của chúng. Trong một số trường hợp, chẳng hạn như thiết bị đầu cuối di động, điện toán cạnh hoặc thiết bị gắn trên xe, vẫn cần có chip suy luận tùy chỉnh đặc biệt. Ngay cả trong đám mây và máy chủ, nếu chip suy luận có thể được tối ưu hóa hơn theo hướng tiêu thụ điện năng thấp hoặc các khía cạnh khác, thì nó vẫn có ý nghĩa. Tôi nghĩ rằng vẫn nên có những con chip chuyên dụng cho những thứ chuyên dụng trong tương lai.

**Hỏi: Đối với một số ứng dụng dọc, chúng tôi nên thu thập dữ liệu từ những góc độ nào? Làm thế nào để xây dựng một bộ dữ liệu chất lượng cao? **

Zhang Jiaxing: Trên thực tế, toàn bộ dữ liệu của chúng tôi cũng được thu thập dần dần, ngay từ đầu chỉ có 20 hoặc 30 bộ dữ liệu. Nhưng thông qua đào tạo từ từ, chẳng hạn như phần nào của khả năng bị thiếu, chúng tôi sẽ thu thập một số dữ liệu này theo cách có mục tiêu, đồng thời chúng tôi sẽ tích lũy một số kinh nghiệm của bản thân, chẳng hạn như xử lý dữ liệu và những thứ tương tự.

Cuối cùng, nếu không có thứ đó, chúng tôi sẽ tự xây dựng một số dữ liệu. Ví dụ: đối với các cuộc hội thoại nhiều người, v.v., chúng tôi có nhiều loại tập dữ liệu khác nhau trong đó.

**Hỏi: Tại sao lại có nhiều mô hình năng lực đặc biệt như vậy? Tại sao không tăng cường đồng thời các khả năng này trên cùng một kiểu máy? **

Zhang Jiaxing: Chúng tôi có một số cân nhắc. Đầu tiên là chúng tôi đã chọn trước kích thước của mô hình, sau khi chọn kích thước của mô hình, chúng tôi muốn mô hình có những khả năng gì. Đây là một đề xuất trong điều kiện hạn chế. Đây là một lợi thế chi phí rất lớn.

Tại thời điểm này, tôi muốn đưa tất cả các khả năng vào một mô hình lớn, nhưng những khả năng này loại trừ lẫn nhau về thời gian và không gian. Về mặt không gian, một số khả năng là loại trừ lẫn nhau, chẳng hạn như khi chúng tôi làm các câu hỏi suy luận logic, chẳng hạn như câu hỏi toán học và câu hỏi viết, chúng mâu thuẫn nhau. Ngoài ra, còn có xung đột về thời gian, tại một thời điểm nhất định, một số năng lực là mạnh nhất, nhưng những năng lực khác có thể không mạnh lắm.

Vì các kịch bản xuôi dòng chỉ yêu cầu một khả năng duy nhất, nên chúng tôi chỉ cần chọn một số tập dữ liệu cụ thể nhất định để đào tạo các tác vụ nhất định, đó là các mô hình chuyên dụng.

**Hỏi: Ông có đề cập đến vấn đề "chuyến bay huấn luyện" không ổn định đã được giải quyết, vấn đề này được giải quyết như thế nào? **

Zhang Jiaxing: Có một điểm mấu chốt ở đây. Đầu tiên, chúng tôi đã điều chỉnh quá trình đào tạo của mình. Chúng tôi đã thực hiện các thay đổi ở lớp mã nguồn trong quá trình đào tạo phân tán. Quả thực, tính ổn định của đào tạo mạnh hơn rất nhiều. Khi chúng tôi huấn luyện Ziya-LLaMA-13B, đường cong của bộ huấn luyện đó ổn định. Chúng tôi là một đội ngũ người mẫu lớn và rất chú trọng đến công nghệ đào tạo, đó cũng chính là sự đảm bảo để chúng tôi tiếp tục làm ra những người mẫu tốt.

**Hỏi: Về vấn đề thảo luận về phạm vi công cộng và các mô hình lớn được tư nhân hóa, mô hình đó có phải được tư nhân hóa không? Ví dụ: nếu tôi muốn tạo ứng dụng C, tôi có thể không triển khai tư nhân hóa không? **

Zhang Jiaxing: Trước hết, chúng tôi nhận thấy rằng các đối tác của chúng tôi có một số yêu cầu về quyền riêng tư và tuân thủ bảo mật dữ liệu và dữ liệu của họ không thể được sử dụng để đào tạo với các mô hình công khai. Thứ hai, họ cần phải có một cảnh rất chuyên sâu và các yêu cầu tùy chỉnh, bất kể đó là sản phẩm đến B hay sản phẩm đến C, họ đều hy vọng có thể sử dụng nó trong cảnh của mình.

Tại thời điểm này, mô hình lớn công khai hoặc cơ sở mô hình lớn nói chung không thể đáp ứng đầy đủ mọi nhu cầu của họ, vì vậy đào tạo riêng và triển khai riêng đã trở thành điều bắt buộc của họ.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)