1 gradient bằng bao nhiêu độ

Hãy chắc chắn rằng gradient của bạn dừng lại bao gồm màu đen chuyển đổi thành màu trắng tại 90 độ. Hiệu ứng này làm nổi bật phần trên cùng của hình ảnh. Nhấn OK để quay lại thiết kế của bạn.​

Học deep learning chắc chắn bạn sẽ gặp rất nhiều thuật ngữ chuyên biệt. Để hiểu sâu về các khía cạnh kỹ thuật của deep learning, bạn cần hiểu về gradient – một khái niệm trong điện toán không gian vector.

Gradient [độ dốc] là một khái niệm rất gần với đạo hàm chúng ta đã học ở phổ thông, nó biểu thị tốc độ biến thiên của hàm số. Độ dốc là một vectơ, trong khi đạo hàm là một giá trị vô hướng [đại khái là số]. Vectơ này biểu thị hướng mà giá trị của hàm thay đổi nhiều nhất và trở thành vectơ 0 khi hàm đạt cực đại hoặc cực tiểu cục bộ.

Trong một biểu diễn trực quan, hãy tưởng tượng bạn đang ở trên một ngọn núi. Ở chân núi, trong thung lũng và trên đỉnh núi, độ dốc bằng không. Tùy thuộc vào hình dạng của ngọn núi và nơi chúng ta đang tìm kiếm, độ dốc sẽ có các giá trị khác nhau. Trên đỉnh núi, đi hướng nào cũng là “đường xuống dốc”.

Quay trở lại khái niệm đạo hàm mà chúng ta đã học ở trường trung học, đại lượng này cho biết tốc độ thay đổi của một hàm dựa trên một biến duy nhất, thường được đặt thành x. Ví dụ: df/dx cho chúng ta biết hàm f thay đổi bao nhiêu khi x thay đổi 1 đơn vị. Đối với hàm có nhiều biến, chẳng hạn như x và y, hàm này sẽ có nhiều đạo hàm: giá trị df/dx và df /dy cho chúng ta biết giá trị của hàm sẽ thay đổi như thế nào nếu chúng ta thay đổi một biến [giả sử các biến khác không đổi].

Chúng ta có thể biểu diễn các tỷ lệ này dưới dạng một vectơ có nhiều thành phần, một trong số đó là đạo hàm. Vậy hàm có 3 biến sẽ có gradient có 3 thành phần:

  • f[x] có một biến và một đạo hàm: df / dx
  • f[x, y, z] có ba biến và ba đạo hàm: [df / dx, df / dy, df / dz]
  • Giống như đạo hàm thông thường, gradient cho biết hướng mà hàm thay đổi mạnh nhất. Vì vậy, nó có thể được sử dụng để tìm cực đại và cực tiểu cục bộ. Trong hàm một biến, để thay đổi giá trị của hàm, chúng ta chỉ có hướng “tiến” và “lùi” dựa trên sự thay đổi của trục x. Đối với các hàm nhiều biến, mọi thứ không đơn giản như vậy. Với hàm hai biến, chúng ta có thể coi nó là vô số hướng trong một mặt phẳng và hàm ba biến, nó có thể là bất kỳ hướng nào trong không gian ba chiều. Một hàm có 100 biến [làm đầu vào cho mạng nơ-ron sử dụng nhúng từ 100 chiều], ngoài sức tưởng tượng của chúng ta. Mặc dù vậy, độ dốc là một công cụ toán học tuyệt vời mà chúng ta có thể kiểm tra tính biến thiên của các hàm này.

    Độ dốc được biểu thị bằng một delta ngược [Δ], được gọi là “del”. Đối với ví dụ trên, chúng ta có:

    Các thành phần của gradient là đạo hàm riêng theo x, y và z. Đối với các hàm, biến gradient là đạo hàm của hàm đó.

    Một ứng dụng phổ biến của độ dốc là tìm cực đại và cực tiểu của một hàm. Đây là một nhiệm vụ quan trọng trong việc tối ưu hóa trọng số trong các mạng học sâu.

    Hy vọng bài viết này giúp bạn hiểu rõ hơn về gradient. Đây là một khái niệm quan trọng nếu bạn muốn hiểu rõ hơn về các khía cạnh kỹ thuật của deep learning để thiết kế các mô hình tốt hơn.

    Tìm hiểu về Deep learning chắc hẳn các bạn sẽ gặp nhiều thuật ngữ đặc thù. Để có thể hiểu sâu sắc các khía cạnh kỹ thuật của Deep learning, bạn cần phải hiểu về Gradient [độ dốc] – một khái niệm trong tính toán không gian véc tơ.

    Gradient [độ dốc] là khái niệm rất gần với khái niệm đạo hàm mà chúng ta đã học thời cấp 3, nó biểu diễn cho tốc độ thay đổi của hàm. Gradient là một vectơ trong khi đạo hàm là giá trị vô hướng [hiểu nôm na là các giá trị số]. Véc tơ này chỉ ra hướng mà tại đó giá trị của hàm thay đổi nhiều nhất và trở thành véc tơ 0 khi hàm đạt giá trị cực đại hoặc cực tiểu địa phương.

    Một cách diễn đạt trực quan, tưởng tượng như ta đang ở trên một quả núi. Tại chân núi, các chỗ trũng của thung lũng và tại đỉnh núi, độ dốc bằng không. Tùy vào hình dạng của quả núi và vị trí ta quan sát, độ dốc sẽ có những giá trị khác nhau. Khi đang ở đỉnh núi thì đi về hướng nào cũng là “đường xuống núi” cả.

    Độ dốc của một đỉnh núi

    Quay trở lại khái niệm đạo hàm mà ta học thời cấp 3. Đại lượng này cho chúng ta tốc độ thay đổi của hàm dựa trên một biến số duy nhất, thường được đặt là x. Ví dụ, dF/dx cho chúng ta biết hàm F thay đổi bao nhiêu khi x thay đổi 1 đơn vị. Đối với một hàm có nhiều biến, chẳng hạn như x và y, nó sẽ có nhiều đạo hàm: các giá trị dF/dx và dF/dy cho ta biết giá trị của hàm sẽ thay đổi thế nào nếu ta thay đổi một biến số [với giả định các biến số khác không thay đổi].

    Chúng ta có thể biểu diễn các tỷ lệ này trong một vectơ nhiều thành phần, với một thành phần là một đạo hàm. Do đó, một hàm có 3 biến sẽ có một gradient với 3 thành phần:

    • F [x] có một biến và một đạo hàm duy nhất: dF / dx
    • F [x, y, z] có ba biến và ba đạo hàm: [dF / dx, dF / dy, dF / dz]

    Giống như đạo hàm thông thường, gradient chỉ ra hướng thay đổi mạnh nhất của hàm. Do đó nó có thể được sử dụng thể tìm ra các cực đại và cực tiểu địa phương. Trong một hàm đơn biến, để thay đổi giá trị của hàm, chúng ta chỉ có hai hướng “tiến” và “lùi” dựa trên sự thay đổi trên trục x. Đối với hàm đa biến, mọi việc không đơn giản như vậy. Với hàm hai biến, chúng ta có thể tưởng tượng đó là vô số các hướng trong một mặt phẳng, với hàm ba biến, đó có thể là bất kỳ hướng nào trong không gian 3 chiều. Với hàm 100 biến [như đầu vào của mạng nơ ron sử dụng word embedding 100 chiều], nó vượt ra khỏi sức tưởng tượng của chúng ta. Mặc dù vậy, gradient là công cụ toán học tuyệt vời để ta có thể khảo sát sự biến thiên của những hàm này.

    Gradient được ký hiệu bằng chữ delta [Δ] ngược và được gọi là “del”. Với ví dụ trên, ta có:

    Thành phần của gradient là đạo hàm riêng đối với x, y và z. Đối với một hàm một biến gradient chính là đạo hàm của hàm này.

    Ứng dụng phổ biến của gradient là tìm kiếm các giá trị cực đại và cực tiểu của hàm. Đây là nhiệm vụ quan trọng để tối ưu các trọng số trong mạng Deep learning.

    Hi vọng thông qua bài viết này các bạn đã hiểu hơn về Gradient. Đây là khái niệm quan trọng nếu như bạn muốn hiểu các sâu sắc các khía cạnh kỹ thuật của Deep learning, từ đó có thể thiết kế được các mô hình tốt hơn.

    Hãy theo dõi trituenhantao.io để nhận được thông báo ngay khi có bài viết mới nhé!

    Bạn muốn trích dẫn bài này:
    -----

    "Gradient trong Deep Learning là gì?," Trí tuệ nhân tạo, Ngày xuất bản: 23/07/2019, URL: //trituenhantao.io/kien-thuc/gradient-trong-deep-learning/, Ngày truy cập: 02/01/2023.

Chủ Đề