HƯỚNG DẪN cơ bản

Tế bào trí nhớ ngắn hạn dài

Các tế bào Bộ nhớ ngắn hạn dài (LSTM) là một loại đơn vị mạng thần kinh tái phát đặc biệt được xây dựng để ghi nhớ thông tin qua các chuỗi dài.

Tổng quan

Các tế bào Bộ nhớ ngắn hạn dài (LSTM) là một loại đơn vị mạng thần kinh tái phát đặc biệt được xây dựng để ghi nhớ thông tin qua các chuỗi dài. Họ đã giải quyết được vấn đề về độ dốc biến mất đã làm tê liệt các RNN trước đó, tạo nên những đột phá trong một thập kỷ về ngôn ngữ, lời nói và dịch thuật.

Các ô nhớ ngắn hạn dài nằm trong bộ công cụ AI cốt lõi. Khi bạn hiểu nó, các chủ đề AI khác sẽ trở nên dễ dàng hơn để đánh giá và so sánh.

Lặn sâu

Được giới thiệu bởi Sepp Hochreiter và Jurgen Schmidhuber vào năm 1997, tế bào LSTM duy trì một 'trạng thái tế bào' hoạt động giống như một băng chuyền bộ nhớ chạy suốt chuỗi. Ba cổng đã học điều khiển nó: cổng quên quyết định những gì cần xóa, cổng đầu vào quyết định thông tin mới nào cần lưu trữ và cổng đầu ra quyết định những gì sẽ hiển thị dưới dạng đầu ra của ô. Mỗi cổng sử dụng một sigmoid (xuất từ ​​0 đến 1) để hoạt động như một công tắc mềm. Bởi vì trạng thái ô được cập nhật chủ yếu bằng phép cộng thay vì phép nhân lặp lại, độ dốc có thể chảy ngược qua nhiều bước thời gian mà không co lại về 0, cho phép các LSTM tìm hiểu các phụ thuộc cách nhau hàng trăm bước. Trước Transformers, LSTM đã củng cố Google Dịch, nhận dạng giọng nói và tạo văn bản.

Hiểu biết kỹ thuật

Bản sửa lỗi độ dốc biến mất xuất phát từ bản cập nhật gần tuyến tính của trạng thái ô: c_t = f_t * c_{t-1} + i_t * g_t. Cổng quên f_t (một sigmoid) có thể ở gần 1, tạo ra một 'băng chuyền lỗi không đổi' để các tín hiệu lỗi tồn tại qua quá trình truyền ngược trong các khoảng thời gian dài. Bản thân các cổng là các lớp thần kinh nhỏ (sigmoid cho gating, tanh cho các giá trị ứng cử viên), tất cả đều được đào tạo chung bằng cách giảm độ dốc. Việc kiểm soát này cho phép mạng tìm hiểu những gì cần giữ và những gì cần loại bỏ.

Làm chủ các tế bào trí nhớ ngắn hạn dài

Các tế bào Bộ nhớ ngắn hạn dài (LSTM) là một loại đơn vị mạng thần kinh tái phát đặc biệt được xây dựng để ghi nhớ thông tin qua các chuỗi dài. Họ đã giải quyết được vấn đề về độ dốc biến mất đã làm tê liệt các RNN trước đó, tạo nên những đột phá trong một thập kỷ về ngôn ngữ, lời nói và dịch thuật. Các ô nhớ ngắn hạn dài nằm trong bộ công cụ AI cốt lõi. Khi bạn hiểu nó, các chủ đề AI khác sẽ trở nên dễ dàng hơn để đánh giá và so sánh. Để xây dựng sự hiểu biết sâu sắc, hãy coi Tế bào trí nhớ ngắn hạn dài như một mô hình hoạt động chứ không phải một tính năng duy nhất: xác định kết quả mong muốn, làm rõ các giả định và tách biệt những gì hệ thống có thể làm một cách đáng tin cậy với những gì vẫn cần đến sự đánh giá của chuyên gia.

Trong thực tế, các nhóm mạnh sử dụng Tế bào trí nhớ ngắn hạn dài trước tiên sẽ xây dựng các mô hình khái niệm mạnh mẽ, sau đó ánh xạ các mô hình đó tới các giới hạn sản xuất thực tế. Họ ghi lại các tiêu chí thành công rõ ràng, kiểm tra dựa trên dữ liệu và quy trình làm việc thực tế, đồng thời lặp lại dựa trên các kiểu thất bại được quan sát thay vì chiến thắng điểm chuẩn một lần. Đây là nơi sự hiểu biết về mặt lý thuyết biến thành khả năng bền vững trên toàn bộ sản phẩm, chính sách và hoạt động.

Nó giúp bạn tách biệt các tuyên bố kỹ thuật rõ ràng khỏi ngôn ngữ tiếp thị. Đồng thời, các nhóm khác nhau có thể sử dụng cùng một thuật ngữ một cách khác nhau, vì vậy hãy sớm xác định phạm vi. Cách tiếp cận linh hoạt nhất là kết hợp tốc độ thử nghiệm với kỷ luật quản trị: chạy thử nghiệm, thu thập bằng chứng, xuất bản nhật ký quyết định và liên tục cập nhật các biện pháp bảo vệ khi hành vi của mô hình, kỳ vọng của người dùng và các yêu cầu pháp lý phát triển.

Tác động chiến lược

Nó giúp bạn tách biệt các tuyên bố kỹ thuật rõ ràng khỏi ngôn ngữ tiếp thị.

Nó giúp bạn tách biệt các tuyên bố kỹ thuật rõ ràng khỏi ngôn ngữ tiếp thị. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Bạn có thể đặt các câu hỏi triển khai tốt hơn trước khi chi tiền hoặc thời gian.

Bạn có thể đặt các câu hỏi triển khai tốt hơn trước khi chi tiền hoặc thời gian. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Các nhóm có sự hiểu biết chung sẽ đưa ra các quyết định về sản phẩm, chính sách và học tập tốt hơn.

Các nhóm có sự hiểu biết chung sẽ đưa ra các quyết định về sản phẩm, chính sách và học tập tốt hơn. Trong quá trình triển khai chất lượng cao, điều này được chuyển thành các quy tắc vận hành, ranh giới quyền sở hữu và quy trình đánh giá định kỳ có thể đo lường được để các nhóm có thể mở rộng quy mô một cách tự tin thay vì mở rộng quy mô sự mơ hồ.

Tương lai của các tế bào trí nhớ ngắn hạn dài

Transformers phần lớn đã vượt qua LSTM trong các nhiệm vụ ngôn ngữ quy mô lớn vì chúng song song trong một chuỗi và nắm bắt bối cảnh tầm xa thông qua sự chú ý, trong khi LSTM xử lý mã thông báo từng bước một. Tuy nhiên, LSTM vẫn có giá trị đối với các cài đặt phát trực tuyến, độ trễ thấp và hạn chế về tài nguyên cũng như trên dữ liệu chuỗi thời gian khiêm tốn. Công việc gần đây như xLSTM (2024) xem xét lại và hiện đại hóa kiến ​​trúc với cổng và bộ nhớ mới để cạnh tranh trên quy mô lớn, cho thấy ý tưởng vẫn chưa kết thúc.

Triển khai trong thế giới thực

Cung cấp năng lượng cho máy dịch trong hệ thống thần kinh ban đầu của Google Translate trước khi Transformers tiếp quản.

Nhận dạng giọng nói thành văn bản trong trợ lý giọng nói và phần mềm đọc chính tả.

Dự đoán các giá trị trong tương lai theo chuỗi thời gian như nhu cầu năng lượng, chỉ số cảm biến hoặc giá cổ phiếu.

Tạo một mã thông báo văn bản hoặc âm nhạc cùng một lúc và tự động hoàn thành các chuỗi.

Các mẫu triển khai

Tế bào trí nhớ ngắn hạn dài trong thực tế

Cung cấp năng lượng cho máy dịch trong hệ thống thần kinh ban đầu của Google Translate trước khi Transformers tiếp quản.

Hỗ trợ dịch máy sớm Google Hệ thống thần kinh của Translate trước khi Transformers tiếp quản Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước ngưỡng chất lượng, duy trì lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Tế bào trí nhớ ngắn hạn dài trong thực tế

Nhận dạng giọng nói thành văn bản trong trợ lý giọng nói và phần mềm đọc chính tả.

Nhận dạng giọng nói thành văn bản trong trợ lý giọng nói và phần mềm đọc chính tả. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình báo cáo của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí do lỗi theo thời gian.

Tế bào trí nhớ ngắn hạn dài trong thực tế

Dự đoán các giá trị trong tương lai theo chuỗi thời gian như nhu cầu năng lượng, chỉ số cảm biến hoặc giá cổ phiếu.

Dự đoán các giá trị trong tương lai theo chuỗi thời gian như nhu cầu năng lượng, chỉ số cảm biến hoặc giá cổ phiếu Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, theo dõi lộ trình leo thang của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Tế bào trí nhớ ngắn hạn dài trong thực tế

Tạo một mã thông báo văn bản hoặc âm nhạc cùng một lúc và tự động hoàn thành các chuỗi.

Tạo văn bản hoặc âm nhạc, mỗi lần một mã thông báo và tự động hoàn thành các chuỗi. Các nhóm thường đạt được kết quả tốt hơn khi họ xác định trước các ngưỡng chất lượng, duy trì lộ trình báo cáo của con người đối với các trường hợp khó khăn và theo dõi cả mức tăng năng suất và chi phí lỗi theo thời gian.

Rủi ro & lan can

!

Các nhóm khác nhau có thể sử dụng cùng một thuật ngữ một cách khác nhau, vì vậy hãy sớm xác định phạm vi.

!

Điểm chuẩn có thể trông mạnh mẽ trong khi hiệu suất trong thế giới thực không đồng đều.

!

Việc bỏ qua các kế hoạch đánh giá và chất lượng dữ liệu thường tạo ra những kết quả mong manh.

Lộ trình thực hiện

1

Bắt đầu với một định nghĩa đơn giản về kết quả bạn cần.

Bắt đầu với một định nghĩa đơn giản về kết quả bạn cần. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

2

Chọn một số liệu thành công và một điều kiện thất bại trước khi thử nghiệm.

Chọn một số liệu thành công và một điều kiện thất bại trước khi thử nghiệm. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

3

Chạy một thử nghiệm nhỏ với dữ liệu đại diện chứ không phải một bản demo bóng bẩy.

Chạy một thử nghiệm nhỏ với dữ liệu đại diện chứ không phải một bản demo bóng bẩy. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

4

Tài liệu giúp các ô nhớ ngắn hạn dài và các phương pháp đơn giản hơn sẽ tốt hơn.

Tài liệu giúp các ô nhớ ngắn hạn dài và các phương pháp đơn giản hơn sẽ tốt hơn. Hãy coi mỗi bước như một cổng bằng chứng: nếu không đáp ứng được các tiêu chí, hãy tạm dừng triển khai, thu hẹp khoảng cách và chỉ sau đó mới mở rộng mức sử dụng.

Tiếp tục khám phá