Rl là gì

Trong nghành nghề trí tuệ tự tạo nói chung cùng lĩnh vực học trang bị dành riêng thì Reinforcement learing (RL) là một cách tiếp cận triệu tập vào việc học tập nhằm dứt được kim chỉ nam bằng bài toán can dự thẳng với môi trường.

Bạn đang xem: Rl là gì

1. Reinforcement Learning (RL):

RL là học tập mẫu để thực hiện, có nghĩa là trường đoản cú những tình huống thực tiễn để đưa ra những action cố định, miễn là maximize được reward. Machine không được bảo về loại action để thực hiện mà vắt vào kia nên tò mò ra action rất có thể tạo thành được không ít reward độc nhất vô nhị. Trong quả đât của RL thì chúng ta có khái niệm điện thoại tư vấn là agent, nó tất cả một ít gì đó hàm ý về một thực thể mà bạn mong muốn train nó để rất có thể làm được một task như thế nào đó mà bạn phó thác (dĩ nhiên là nó đã tiến hành theo cách giành được reward nhiều nhất).

Vì RL được ứng va rất nhiều trong robotic cùng game đề xuất tôi vẫn lấy một ví dụ trường đoản cú phía trên cho mình hình dung. Dưới đây là 1 tựa mini game nhưng mà tôi mong chúng ta liếc qua. Cách chơi thì tôi nghĩ các bạn sẽ dễ dãi nhằm đọc được. Tên của nó là CoastRunners


Nhiệm vụ của doanh nghiệp là dứt được chặng đua thuyền một phương pháp nkhô giòn nhất với nếu như rất có thể thì nên cần sinh hoạt top trên. Giả sử như bạn muốn training một agent để nó rất có thể chấm dứt khoảng đua nhanh hao tốt nhất thì về cơ phiên bản bạn yêu cầu thi công được một reward function và từ đó bạn sẽ train agent dựa trên reward function này. quý khách rất có thể coi nó là Loss function nhưng lại ráng vị cần minimize hàm loss như trong số mạng Neural Network thông thương thơm thì tại đây bọn họ vẫn nên maximize nó như tôi đã nhắc tới ở bên trên. Việc lựa chọn ra một reward function thoạt chú ý trong hơi đơn giản dễ dàng bởi nó chỉ dựa vào các tiêu chí khôn cùng hiển nhiên của một task rõ ràng, ví dụ như sinh sống trò đùa sinh hoạt bên trên thì ta bao gồm dựa trên tiêu chí là thời hạn xong khoảng đua chẳng hạn. (Việc xây cất rõ ràng tôi xin phép dời lại tại một nội dung bài viết khác về sau). Tuy nhiên, nếu như bạn giới thiệu các tiêu chí không xuất sắc thì đang agent mà lại các bạn train hoàn toàn có thể có các behavior kha khá kỳ lạ hệt như nghiên cứu tiếp sau đây nhưng mà team OpenAI đã thử qua Lúc reward mà họ chọn lại dưa bên trên tiêu chí của score vào game cầm bởi vì là thời hạn dứt chặng đua. Và đó là tác dụng.


Agent không nhất thiết phải xong xuôi chặng đua mà lại vẫn hoàn toàn có thể đã đạt được score cao.

Như vậy thoạt xem qua loại vẻ tương đối "trúc vị" trong bối cảnh của video clip game tuy thế vào nghành tự động hoá giỏi robotics chẳng hạn thì những dòng behavior này hoàn toàn có thể gây ra đông đảo hành động không hề muốn hoặc thậm chí nguy nan. Rộng rộng, những agent này (được nhúng vào vào robot chẳng hạn) có thể bao gồm hành động tạm thời hoặc không tuân theo các nguyên lý cơ phiên bản về phương diện kỹ thuật nói thông thường nhưng hoàn toàn có thể dãn cho các độc hoạ siêu tiềm tàng.

*

Các chúng ta cũng có thể tham khảo thêm về idea trong bài xích báo của OpenAI về chiếc mà họ gọi là Safety AI

2. Mô hình hoá toán thù học tập của RL:

Bây giờ tôi đang dẫn chúng ta đi qua 1 chút ít về những khái niệm chính vào RL:| .

Các hình sau đây tôi tham khảo keyword học 6.S191 intro deep learning của MIT

2.1 Đây là một trong những ví dụ trực quan lại về Agent:

*

2.2 Enviroment xung quang quẻ của Agent, nơi nhưng mà agent mãi mãi và tương tác:

*

2.3 Dựa bên trên State S(t) của enviroment hiện tại nhưng agent sẽ giới thiệu action a(t):

*

2.4 Sau Khi cảm nhận sự can dự từ bỏ agent thì enviroment bao gồm sự đổi khác tâm lý so với agent:

*

2.5 State từ bây giờ của enviroment là S(t+1), tức ngơi nghỉ thời khắc t+1:

*

2.6 Hiện giờ, agent cảm nhận reward r(t). Reward này phụ thuộc vào action a(t) của agent với State S(t) của enviroment ngơi nghỉ thời khắc trước đó, có nghĩa là nghỉ ngơi thời điểm t:

*

2.7 Vì ta đắn đo thời gian xong xuôi của sự việc lặp đi tái diễn này bắt buộc tổng reward đang là một trong những chuỗi vô hạn của những reward yếu tố tại những thời khắc khác nhau Tính từ lúc thời khắc t (dịp đầu):

*

2.8 Chúng ta rất có thể knhì triển chuỗi vô hạn nàgiống hệt như sau:

*

2.9 Vì chuỗi này không thể làm sao hội tụ (convergence) được buộc phải trên thực tiễn các công ty nghiên cứu và phân tích hoàn toàn có thể cần sử dụng một cái trick để chuỗi này rất có thể quy tụ được. Như hình dưới đây, họ đưa vào thêm 1 term hay được Call là discount factor (discount rate) để làm mang đến chuỗi này quy tụ.

Xem thêm: Cách Chế Biến Cá Đuối Khô Cá Đuối Ngon Cà Mau Loại Xẻ, Khô Cá Đuối

*Nên ghi nhớ bài toán hội tụ là nên nếu bạn có nhu cầu train thành công một agent dành riêng hay là một mạng Neural Network như thế nào kia nói phổ biến.

*

Tất cả đều thứ mà lại mình vừa trình bày sơ qua nó dựa trên một framework được Gọi là Markov Decision Processes (MDPs). Về cơ phiên bản thì một MDPhường. cung cấp một framework toán thù học cho bài toán modelling các tình huống decision-making. Tại trên đây, những tác dụng (outcomes) xảy ra một giải pháp bất chợt 1 phần cùng phần còn sót lại thì phụ thuộc vào bên trên những action của agent (hoặc decision maker) đang tạo nên trước đó. reward nhận được vì chưng decision maker phụ thuộc vào trên action nhưng decision maker lựa chọn với dựa trên cả hai State new (S(t+1)) với cũ (S(t)) của enviroment.

Một reward Rai(sj,sk)R_ai(s_j, s_k)Rai​(sj​,sk​) thu được Khi agent chọn action aia_iai​ sống state sjs_jsj​ và tạo nên enviorment biến đổi tự state sjs_jsj​ quý phái sks_ksk​. Agent nó follow theo một policy πpiπ. Cụ thể là π(⋅):S→Api(cdot):mathcalS ightarrow mathcalAπ(⋅):S→A làm sao cho cùng với mỗi một state sj∈Ss_j in mathcalSsj​∈S thì agent chọn mang lại nó một action ai∈Aa_i in mathcalAai​∈A. Vậy bắt buộc policy là đồ vật bảo cùng với agent mẫu action như thế nào đề nghị được chọn trong những state.

Để có thể train được agent thì mục tiêu của họ là đề nghị tìm được policy πpiπ sao cho:

*

*βetaβ là discount factor với βetaβ reward (tất cả tình đến discount factor như sẽ đề cập sinh hoạt trên) làm việc từng state ví dụ tự dịp bắt đầu đến khi ngừng (dẫu mang đến T → ightarrow→ ∞infty∞, bởi bọn họ chưa chắc chắn lúc nào thì quá trình này dứt nên nó vẫn vẫn là một chuỗi vô hạn), cùng đương nhiên là phải dựa vào policy πpiπ do agent của bọn họ base trên nó nhằm chọn reward cực tốt mà lại. Bản chất thì đó là một bài bác toán về tối ưu (optimazation problem).

Tại trên là một trong tiêu chí cơ mà bạn cũng có thể dùng để làm optimize đến việc đào bới tìm kiếm ra nghịệm (optimal policy). Cụ thể họ hotline tiêu chí này là infinite horizon sum reward criteria. Cũng có một vài reward criteria khác nhưng tôi trong thời điểm tạm thời ko gác lại vào độ lớn bài viết này.

Prúc ở trong vào những criteria khác biệt mà bọn họ sẽ sở hữu những algorithm khác nhau nhằm đưa ra optimal policy. Với infinite horizon sum reward criteria thì bạn cũng có thể áp dụng một thuật toán thù RL cũng rất bom tấn sẽ là Q-Learning để giải quyết và xử lý (tôi đã nói tới alogorithm này ở một bài viết khác).

Tôi xin trong thời điểm tạm thời gác lại phần lý thuyết sơ bộ tại đây. Hẹn chạm chán lại chúng ta ở nội dung bài viết sau về Q-Learning cùng cách để impement nó.

Leave a Reply

Your email address will not be published. Required fields are marked *