Tóm tắt nội dung
Giai đoạn tiến bộ hiện tại trong trí tuệ nhân tạo được đánh dấu khi Krizhevsky và cộng sự chứng minh rằng một mạng nơ-ron nhân tạo được thiết kế hai mươi năm trước có thể vượt trội hơn hẳn các phương pháp nhận dạng hình ảnh phức tạp hiện đại, chỉ đơn giản bằng cách lớn hơn gấp trăm lần và được huấn luyện trên một tập dữ liệu được mở rộng tương tự. Bước đột phá này có được là nhờ GPU, thiết bị điện toán song song cao cấp dành cho người tiêu dùng được phát triển để tổng hợp hình ảnh thời gian thực và được tái sử dụng cho mạng nơ-ron nhân tạo. Kể từ đó, dưới thuật ngữ chung là học sâu, những đổi mới trong cấu trúc của các mạng này, các chiến lược huấn luyện chúng và phần cứng chuyên dụng đã cho phép tăng trưởng theo cấp số nhân cả về quy mô và số lượng dữ liệu huấn luyện mà chúng tận dụng. Điều này đã dẫn đến một làn sóng ứng dụng thành công trên nhiều lĩnh vực kỹ thuật, từ thị giác máy tính và robot đến xử lý giọng nói, và kể từ năm 2020 là sự phát triển của các Mô hình Ngôn ngữ Lớn với khả năng lập luận nguyên mẫu tổng quát. Mặc dù phần lớn học sâu không khó hiểu, nhưng nó kết hợp nhiều thành phần đa dạng như đại số tuyến tính, giải tích, xác suất, tối ưu hóa, xử lý tín hiệu, lập trình, thuật toán và điện toán hiệu năng cao, khiến việc học trở nên phức tạp. Thay vì cố gắng trình bày một cách đầy đủ, cuốn sách nhỏ này chỉ giới hạn ở những kiến thức nền tảng cần thiết để hiểu một vài mô hình quan trọng. Cuốn sách mở này là một phần giới thiệu ngắn gọn về học sâu dành cho độc giả có nền tảng STEM. Mục tiêu của nó là cung cấp kiến thức nền tảng cần thiết để hiểu các mô hình AI quan trọng trong việc tạo hình ảnh và hiểu ngôn ngữ.
Abstract:
The current stage of progress in artificial intelligence was marked when Krizhevsky and colleagues demonstrated that a neural network designed twenty years ago could outperform state-of-the-art complex image recognition methods simply by being a hundred times larger and trained on a similarly expanded dataset. This breakthrough was made possible by GPUs, high-end consumer-grade parallel computing devices developed for real-time image synthesis and repurposed for neural networks. Since then, under the umbrella term “deep learning,” innovations in the architecture of these networks, their training strategies, and specialized hardware have enabled exponential growth in both their size and the amount of training data they leverage. This has led to a wave of successful applications across a wide range of engineering fields, from computer vision and robotics to speech processing, and since 2020, the development of Large Language Models with general prototypal reasoning capabilities. While much of deep learning is straightforward, it combines diverse components such as linear algebra, calculus, probability, optimization, signal processing, programming, algorithms, and high-performance computing, making it complex to learn. Rather than attempt to be exhaustive, this small book limits itself to the foundational knowledge needed to understand a few important models. This open book is a concise introduction to deep learning for readers with STEM backgrounds. Its goal is to provide the foundational knowledge needed to understand important AI models in image generation and language understanding.
Sử dụng ứng dụng Libol Bookworm quét QRCode này để mượn và đọc tài liệu)
(Lưu ý: Sử dụng ứng dụng Bookworm để xem đầy đủ tài liệu. Bạn đọc có thể tải Bookworm từ App Store hoặc Google play với từ khóa "Libol Bookworm”)