Reinforcement Learning යනු?

April 15, 2022 | Nilmi wickramasinghe

Reinforcement Learning යනු?

පරිගණක chess ක්‍රීඩාවක් ගැන හිතන්න, ඔබ සහ පරිගණකය තමයි ක්‍රීඩාවේ ප්‍රතිවාදීන් දෙදෙනා. මනුෂ්‍යයෙකු වශයෙන් ඔබ intelligent. එහෙත් පරිගණකය දැනුවත්ව සිටින්නේ chess ක්‍රීඩාවේ rules ගැන පමණයි. එක් එක් ඉත්තාගේ පිහිටීම සහ ප්‍රතිවාදියා ඉත්තන් චලනය කල ආකාරයට අනුව ක්‍රියාකලයුත්තේ කෙසේද යන්න පරිගණකය නොදනී. මෙවිට පරිගණකය trial and fail ආකාරයට තම අවස්ථාව ලබාගනියි. මෙවිට ක්‍රීඩාව මගින් යම් ප්‍රතිචාරයක් ලබාදෙන අතර එය positive හෝ negative විය හැකිය. මෙම ප්‍රතිචාරය මගින් පරිගණකය එවැනි අවස්ථාවක නැවත ක්‍රියාකලයුතු ආකාරය ඉගෙනගනියි, එනම්, ලැබුනේ negative ප්‍රතිචාරයක් නම් එවැනි පියවරක් නැවත නොගැනීමටත්, positive පියවරක් නම් එය සුදුසු පියවරක් බවටත් පරිගණකය තම මතකයේ රඳවා ගනියි. මෙලෙස දිගින් දිගටම නොනැවතී කිසියම් පරිසරයක් තුල කාර්යක්‍ෂමව හැසිරෙන ආකාරය අත්දැකීම් ඇසුරෙන් පරිගණකය උගනියි.

මෙය, Reinforcement Learning ගැන නොදන්නා අයෙකුට එය කුමක්දැයි තේරුම් ගැනීමට සරලම උදාහරණයකි.

මොකක්ද මේ Reinforcement Learning?

Artificial Intelligence හී එක් ප්‍රධාන අංගයක් වන Machine Learning විෂය පඨය අද ලෝකයේ ඉතා ප්‍රසිද්ධ, වටිනා සහ විශාල ඉල්ලුමක් ඇති ක්ෂේත්‍රයක් බවට පත්වෙලා තියෙනවා. මෙම Machine Learning තුල තිබෙන ප්‍රදාන කොටස් තුනෙන් එකක් තමයි Reinforcement Learning. කිසියම් අවස්ථාවක ප්‍රතිපලය උපරිම කිරීමට එය ගතයුතු හොදම සහ සුදුසුම හැසිරීම හෝ ක්‍රියාමාර්ගය සොයාගැනීමට විවිධ softwares සහ machines මගින් මෙය භාවිත කරයි. තවදුරටත් කිව්වොත්, විටින් විට වෙනස් වෙන පරිසරයක් ඇතුලෙ, එනම්, dynamic environment එකක් ඇතුලෙ, යම් උපාංගයක් train කිරීමට data නොමැති නිසා softwares සහ machines මගින් මෙම ක්‍රමය භාවිත කරයි.

Reinforcement Learning

Q - Learning ක්‍රියාවලිය

Reinforcement Learning වලට අදාල ප්‍රධාන වචන කිහිපයකි.

Agent - අදාල මෘදුකාංගය හෝ යන්ත්‍රය

Environment - Agent ක්‍රියාත්මක වන බාහිර පරිසරය

State - යම් නිශ්චිත අවස්ථාවක එම පරිසරය තුල ඇති තත්වය

Reward - Environment එක මගින් ලබාදෙන ප්‍රතිචාරය

Action - Agent ලබාගන්නා ක්‍රියාමාර්ග හෝ හැසිරීම

Policy - Current State එක මත පදනම්ව මීලග ක්‍රියාමාර්ගය ගැනීමේදී Agent විසින් යොදාගන්නා උපාය මාර්ග

Value - Agent හට යම් State එකක රැදී සිටීමට උචිත යන්නේද වග මෙම අගයෙන් කියවෙයි.


සරලවම,

අදාල Agent එම අවස්ථාවේදී environment හි state එක පරික්ෂා කර යම් action එකක් ගනියි. මෙම action එකෙහි තත්වය මත පරිසරය මගින් යම් reward එකක් නැවත agent හට ලබාදෙයි. මෙම reward එකෙහි තත්වය මත (positive හෝ negative බව) එම agent train වීම සිදුවේ.

Reinforcement Learning Algorithms

1. Q - Learning

2. State Action Reward State Action (SARSA)

3. Deep Q Neural Network (DQN)

Reinforcement Learning වල භාවිත

ලෝකයේ සිදුවන තාක්ෂණික දියුණුවත් සමග සියලුම sectors වල RL භාවිත වීම පුදුමයක් නොවේ. ඒවායින් අතලොස්සක් පහත දක්වා ඇත.

1. Chemistry - රසායනික ප්‍රතික්‍රියා optimize කිරීම.

2. Manufacturing - විවිධ මෝටර් රථ නිෂ්පාදන සමාගම්වල, රොබෝවරු භාණ්ඩ තෝරා ගැනීමට සහ ඒවා containers වල තැබීමට භාවිතා කරයි.

3. Finance sector - වෙළඳ උපාය මාර්ග තක්සේරු කිරීම.

4. Game playing - tic-tac-toe, chess

5. Robotics - රොබෝගේ ගමන් මාර්ගය සොයාගැනීම, පරාජයන් අවම කිරීම

සටහන - නිල්මි වික්‍රමසිංහ