ادامه یادگیری تقویتی

فهرست

مقدمه [ ویرایش ]

قالب بندی معمولی سناریو تقویت آموزش (RL): یک عامل در یک محیط اقدام می کند ، که به عنوان پاداش و بازنمایی از دولت تعبیر می شود ، که به عامل منتقل می شوند.

یادگیری تقویت به دلیل کلی بودن آن ، در بسیاری از رشته های دیگر از جمله نظریه بازی ، تئوری کنترل ، تحقیق در مورد عملیات ، تئوری اطلاعات ، بهینه سازی مبتنی بر شبیه سازی ، سیستم های چند عامل ، هوش swarm ، آمار و الگوریتم های ژنتیکی مورد مطالعه قرار می گیرد . در ادبیات تحقیق و کنترل عملیات ، یادگیری تقویتی به برنامه نویسی تقریبی پویا یا برنامه نویسی عصبی گفته می شود. مشکلات علاقه به یادگیری تقویتی نیز در تئوری کنترل بهینه مورد بررسی قرار گرفته است، که بیشتر مربوط به وجود و توصیف راه حل های بهینه و الگوریتم های محاسبات دقیق آنها و کمتر با یادگیری یا تقریب است ، خصوصاً در صورت عدم وجود یک مدل ریاضی از محیط. در اقتصاد و نظریه بازی ، یادگیری تقویتی ممکن است مورد استفاده قرار گیرد تا توضیح دهد که چگونه تعادل ممکن است تحت عقلانیت محدود ایجاد شود .

تقویت اساسی به عنوان یک فرآیند تصمیم گیری مارکوف مدل می شود :

مجموعه ای از شرایط محیط و عوامل ، S ؛
مجموعه ای از اقدامات، ، عامل؛
${\ displaystyle P_ {a} (s، s ') = \ Pr (s_ {t + 1} = s' \ mid s_ {t} = s، a_ {t} = a)$ احتمال انتقال (در زمان) است $تی$ ) از حالت $s$ بیان کردن $S '$ تحت عمل $آ$ .
$R_a (s، s)$ پاداش فوری پس از انتقال از $s$ به $S '$ با عمل $آ$ .
قوانینی که آنچه عامل را مشاهده می کند توصیف می کند

قوانین اغلب تصادفی است . این مشاهدات به طور معمول شامل مقیاس ، پاداش فوری مرتبط با آخرین انتقال است. در بسیاری از آثار ، فرض بر این است که عامل وضعیت فعلی محیط زیست ( مشاهده کامل ) را رعایت می کند . اگر اینگونه نباشد ، عامل مشاهده جزئی دارد . گاهی اوقات مجموعه اقدامات در دسترس برای عامل محدود می شود (تعادل صفر نمی تواند کاهش یابد. برای مثال ، اگر مقدار فعلی عامل 3 باشد و انتقال حالت مقدار را به 4 کاهش می دهد ، انتقال مجاز نخواهد بود).

یک عامل یادگیری تقویت کننده در مراحل زمانی گسسته با محیط خود در تعامل است. در هر زمان t ، عامل مشاهده می کند $o_ {t$ ، که به طور معمول شامل پاداش است $r_ {t$ . سپس عملی را انتخاب می کند $a_ {t$ از مجموعه اقدامات موجود ، که متعاقباً به محیط ارسال می شود. محیط به وضعیت جدیدی منتقل می شود $s_ {t + 1$ و پاداش $r_ {t + 1$ همراه با انتقال $(s_ {t} ، a_ {t} ، s_ {t + 1})$ مشخص می شود هدف یک عامل یادگیری تقویت کننده جمع آوری هرچه بیشتر پاداش است. عامل می تواند (احتمالا به طور تصادفی) هر گونه اقدام به عنوان یک تابع از تاریخ را انتخاب نمایید.

هنگامی که عملکرد عامل با عملکرد یک عامل که بهینه عمل می کند ، مقایسه می شود ، تفاوت در عملکرد موجب مفهوم پشیمانی می شود . برای عمل بهینه نزدیک ، نماینده باید درباره عواقب بلند مدت اقدامات خود (مثلاً حداکثر افزایش درآمد آینده) استدلال کند ، اگرچه پاداش فوری مرتبط با این ممکن است منفی باشد.

بنابراین ، یادگیری تقویت به ویژه با مشکلاتی مناسب است که شامل تجارت طولانی مدت در مقابل پاداش کوتاه مدت است. با موفقیت در مشکلات مختلفی از جمله کنترل ربات ، برنامه ریزی آسانسور ، ارتباط از راه دور ، تخته نرد ، چکرز [3] و Go ( AlphaGo ) استفاده شده است.

دو عنصر یادگیری تقویت را قدرتمند می سازد: استفاده از نمونه ها برای بهینه سازی عملکرد و استفاده از تقریب عملکرد برای مقابله با محیط های بزرگ. با تشکر از این دو مؤلفه اصلی ، یادگیری تقویتی می تواند در شرایط بزرگ در شرایط زیر استفاده شود:

یک مدل از محیط شناخته شده است ، اما یک راه حل تحلیلی در دسترس نیست.
فقط یک مدل شبیه سازی محیط ارائه می شود (موضوع بهینه سازی مبتنی بر شبیه سازی ). [4]
تنها راه جمع آوری اطلاعات در مورد محیط ، تعامل با آن است.

دو مورد اول از این مشکلات می تواند به عنوان مشکلات برنامه ریزی در نظر گرفته شود (از آنجا که برخی از مدل ها در دسترس است) ، در حالی که دومی ممکن است یک مشکل یادگیری واقعی تلقی شود. با این حال ، یادگیری تقویت هر دو برنامه ریزی را به مشکلات یادگیری ماشین تبدیل می کند.

اکتشاف [ ویرایش ]

اکتشاف اکتشاف در مقابل بهره برداری از طریق مسئله راهزنی چند مسلح و برای MDP های فضای محدود محدود در بورنتس و کتهکیس (1997) به طور کامل مورد بررسی قرار گرفته است . [5]

يادگيري تقويت نيازمند مكانيسم هاي اكتشافي هوشمندانه است. انتخاب تصادفی اقدامات ، بدون مراجعه به توزیع احتمال تخمین زده شده ، عملکرد ضعیفی را نشان می دهد. مورد (کوچک) فرآیندهای تصمیم گیری محدود مارکوف نسبتاً خوب درک شده است. با این حال ، به دلیل عدم وجود الگوریتم هایی که به خوبی با تعداد حالت ها مقیاس می شوند (یا مقیاس مشکلات مربوط به فضاهای حالت نامتناهی) ، روشهای اکتشاف ساده عملی ترین هستند.

یکی از این روشها $\ اپسیلون$ گرجی ، کجا $\ displaystyle 0 <\ epsilon <1$ پارامتر کنترل میزان اکتشاف در مقابل بهره برداری است. با احتمال $1- \ اپسیلون$ ، استثمار انتخاب می شود ، و نمایندگی عملی را انتخاب می کند که به عقیده وی بهترین اثر طولانی مدت را دارد (روابط بین اقدامات به طور یکنواخت به طور تصادفی شکسته می شود). روش دیگر ، با احتمال $\ اپسیلون$ ، اکتشاف انتخاب می شود ، و عمل به طور یکنواخت به طور تصادفی انتخاب می شود. $\ اپسیلون$ معمولاً یک پارامتر ثابت است اما می تواند یا مطابق با برنامه تنظیم شود (عامل را به تدریج کمتر کاوش می کند) ، یا براساس اقتباس مبتنی بر اکتشاف. [6]

الگوریتم های یادگیری کنترل [ ویرایش ]

حتی اگر موضوع اکتشافات نیز مورد توجه واقع نشود و حتی اگر دولت قابل مشاهده بود (فرض کنید آخرت) ، مشکل این است که از تجربه گذشته استفاده کنیم تا دریابیم که کدام اقدامات منجر به پاداش تجمعی بالاتر می شود.

ملاک بهینه [ ویرایش ]

خط مشی [ ویرایش ]

انتخاب عملکرد نماینده به عنوان نقشه ای به نام خط مشی مدل سازی می شود :

$\ displaystyle \ pi: A \ برابر S \ Rightarrow [0،1]$

$\ displaystyle \ pi (a، s) = \ Pr (a_ {t} = a \ mid s_ {t} = s)$

نقشه خط مشی احتمال اقدام را نشان می دهد $آ$ وقتی در حالت $s$ . [7] : 61 همچنین سیاست های غیر احتمالی نیز وجود دارد.

عملکرد ارزش دولت [ ویرایش ]

عملکرد ارزش ${\ displaystyle V _ {\ pi} (s)$ به عنوان بازده مورد انتظار با شروع دولت تعریف می شود $s$ ، یعنی $\ displaystyle s_ {0} = s$ ، و سیاست را با موفقیت دنبال کنیدpi $\ pi$ . از این رو ، تقریباً ، عملکرد تابع ارزش "چقدر خوب" بودن را در یک وضعیت معین تخمین می زند. [7] : 60

$\ displaystyle V _ {\ pi} (s) = \ operatorname {E} [R] = \ operatorname {E} \ left [\ sum _ {t = 0} ^ {\ infty} \ gamma ^ {t} r_ t} \ mid s_ {0} = s \ right]،}$

متغیر تصادفی $ر$ بازده را نشان می دهد ، و به عنوان مجموع پاداش های تخفیف یافته آینده تعریف می شود (گاما کمتر از 1 است ، به عنوان یک کشور خاص پیرتر می شود ، اثر آن در حالت های بعدی کمتر و کمتر می شود. بنابراین ، ما اثر آن را تخفیف می دهیم).

$\ displaystyle R = \ sum _ {t = 0} ^ {\ infty} \ gamma ^ {t} r_ {t}،$

جایی که $r_ {t$ پاداش در مرحله است $تی$ ، $\ displaystyle \ gamma \ in [0،1)$ است تخفیف نرخ .

الگوریتم باید سیاستی را با حداکثر بازده مورد انتظار پیدا کند. از تئوری MDPs مشخص شده است که بدون از بین رفتن کلی ، می توان جستجو را به مجموعه سیاست های به اصطلاح ثابت محدود کرد. یک سیاست ثابت است اگر توزیع عملی که توسط آن انجام شده است فقط به آخرین وضعیت بازدید شده بستگی دارد (از تاریخچه نماینده مشاهده). جستجو می تواند بیشتر به سیاستهای ثابت قطعی محدود شود . یک سیاست ثابت و قطعی قطعی اعمال را بر اساس وضعیت فعلی انتخاب می کند. از آنجا که هرگونه سیاستی می تواند با نقشه برداری از مجموعه ای از کشورها به مجموعه اقدامات مشخص شود ، این سیاست ها می توانند با چنین نقشه هایی بدون هیچ گونه ضرر عمومی شناخته شوند.

نیروی بیرحمانه [ ویرایش ]

نیروی بی رحم رویکرد، مستلزم دو مرحله است:

برای هر خط مشی ممکن ، نمونه در حالی که دنبال می شود باز می گردد
با بزرگترین بازده مورد انتظار ، خط مشی را انتخاب کنید

یکی از مشکلات این مسئله این است که تعداد سیاست ها می تواند زیاد باشد ، یا حتی نامتناهی باشد. دیگر این که واریانس بازده ممکن است زیاد باشد ، که به بسیاری از نمونه ها نیاز دارد تا بازده هر سیاست را به طور دقیق تخمین بزنند.

اگر برخی ساختار را فرض کنیم و اجازه دهیم نمونه های تولید شده از یک خط مشی بتوانند بر تخمین های انجام شده برای دیگران تأثیر بگذارند ، این مشکلات بهبود می یابد. دو رویکرد اصلی برای دستیابی به این هدف ، تخمین عملکرد ارزش و جستجوی مستقیم سیاست است .

عملکرد ارزش [ ویرایش ]

همچنین ببینید: عملکرد مقدار

رویکردهای عملکرد ارزش تلاش می کنند با حفظ مجموعه ای از برآوردهای بازده مورد انتظار برای برخی از سیاست ها (معمولاً یا "فعلی" (براساس سیاست) یا بهینه [خارج از سیاست] بهینه) بازده سیاسی را پیدا کنند.

این روشها به تئوری MDP ها متکی هستند ، جایی که بهینه بودن به معنای قوی تر از روش فوق تعریف می شود: یک سیاست بهینه تر گفته می شود در صورت دستیابی به بهترین بازده مورد انتظار از هر حالت اولیه (یعنی توزیع های اولیه هیچ نقشی در این بازی ندارند) تعریف). باز هم ، همیشه می توان در بین سیاستهای ثابت ، یک سیاست بهینه پیدا کرد.

برای تعیین بهینه به صورت رسمی ، ارزش یک سیاست را تعریف کنید pi $\ pi$ توسط

$\ displaystyle V ^ {\ pi} (s) = E [R \ mid s، \ pi]،}$

جایی که $ر$ مخفف بازگشت مربوط به موارد زیر است pi $\ pi$ از حالت اولیه $s$ . تعریف کردن $V ^ {*} (ها)$ به عنوان حداکثر مقدار ممکن از $V ^ {\ pi} (ها)$ ، جایی که $\ pi$ مجاز به تغییر است ،

$\ displaystyle V ^ {*} (s) = \ max _ {\ pi} V ^ {\ pi} (s).}$

سیاستی که در هر ایالت به این مقادیر بهینه دست یابد ، مطلوب نامیده می شود . واضح است ، سیاستی که به این معنا قوی باشد ، مطلوب است ، به این معنی که بازده مورد انتظار را به حداکثر برساند $\ rho ^ {\ pi$ ، از آنجا که $\ rho ^ {\ pi} = E [V ^ {\ pi} (S)]$ ، جایی که $س$ یک ایالت است که به طور تصادفی از توزیع نمونه برداری شده است $\ مو$ [ روشن مورد نیاز ] .

اگرچه مقادیر حالت برای تعریف بهینه کافی است ، اما تعریف مقادیر عمل مفید است. با توجه به حالت $s$ ، یک عمل $آ$ و یک سیاست $\ pi$ ، مقدار عمل جفت $(ها ، الف)$ زیر $\ pi$ تعریف شده توسط

${\ displaystyle Q ^ {\ pi} (s، a) = \ operatorname {E} [R \ mids، a، \ pi]، \،$

جایی که $ر$ اکنون مخفف بازگشت تصادفی همراه با اقدام اول است $آ$ در حالت $s$ و زیر $\ pi$ ، بعد از آن.

تئوری MDPs بیان می کند که اگر $\ pi ^ *$ یک سیاست بهینه است ، ما با انتخاب یک عمل بهینه عمل می کنیم (اقدام بهینه انجام دهیم) $\ displaystyle Q ^ {\ pi ^ {*}} (ها ، \ cdot)$ با بالاترین ارزش در هر ایالت ، $s$ . تابع عمل ارزش چنین سیاست بهینه $\ displaystyle Q ^ {\ pi ^ {*}}$ ) تابع عملکرد-ارزش بهینه نامیده می شود و معمولاً توسط آن مشخص می شود $س ^ {*}$ . به طور خلاصه ، شناخت عملکرد عملکرد بهینه به تنهایی کافی است که بدانیم چگونه بهینه عمل کنیم.

با فرض دانش کامل در مورد MDP ، دو رویکرد اساسی برای محاسبه عملکرد بهینه ارزش عمل ، تکرار ارزش و تکرار سیاست است . هر دو الگوریتم توالی توابع را محاسبه می کنند $Q_ {k}$ $k = 0،1،2 ، \ ldots$ ) که به همگرا می شوند $س ^ {*}$ . محاسبه این توابع شامل محاسبه انتظارات در کل فضای فضا ، که برای همه جز کوچکترین (متناسب) MDP غیر عملی است. در روشهای یادگیری تقویت ، انتظارات با میانگین گرفتن از نمونه ها و با استفاده از تکنیک های تقریب عملکرد برای مقابله با نیاز به نمایندگی کردن توابع ارزش در فضاهای بزرگ حالت عملی تقریب می یابد.

روش های مونت کارلو [ ویرایش ]

از روش های مونت کارلو می توان در الگوریتمی استفاده کرد که از تکرار سیاست استفاده می کند. تکرار سیاست شامل دو مرحله است: ارزیابی سیاست و بهبود سیاست .

مونت کارلو در مرحله ارزیابی سیاست استفاده می شود. در این مرحله با توجه به یک سیاست ثابت و قطعی $\ pi$ هدف محاسبه مقادیر عملکرد است (ها ، الف) $س ^ {\ pi} (ها ، اِ)$ (یا تقریب خوبی برای آنها) برای همه جفت های حالت عمل $(ها ، الف)$ . به فرض (برای سادگی) MDP محدود است ، حافظه کافی برای جایگذاری مقادیر عمل وجود دارد و این مسئله اپیزودیک است و بعد از هر قسمت ، یک حالت جدید از برخی حالت اولیه تصادفی شروع می شود. سپس ، برآورد ارزش یک جفت حالت عمل داده شده $(ها ، الف)$ می توان با میانگین بازده های نمونه ای که از آن گرفته می شود محاسبه کرد $(ها ، الف)$ در طول زمان. با توجه به زمان كافی ، این روش می تواند تخمین دقیقی ایجاد كند $س$ تابع عمل-مقدار $س ^ {\ pi$ . این مرحله توضیحات مرحله ارزیابی سیاست را به پایان می رساند.

در مرحله بهبود سیاست ، با محاسبه یک سیاست حریص با توجه به ، سیاست بعدی حاصل می شود $س$ : با توجه به حالت $s$ این سیاست جدید عملی را به حداکثر می رساند $س (ها ، \ cdot)$ . در عمل ، ارزیابی تنبل می تواند محاسبه اقدامات حداکثری را در هنگام لزوم به تعویق اندازد.

مشکلات این روش شامل موارد زیر است:

این روش ممکن است زمان زیادی را برای ارزیابی یک سیاست کمترین حد صرف کند.
آن استفاده می کند نمونه ناکارآمد در یک مسیر طولانی را بهبود می بخشد برآورد تنها از تک جفت حالت و عمل که مسیر آغاز شده است.
هنگامی که بازده در امتداد مسیرها واریانس بالایی دارند ، همگرایی کند است.
این فقط در مشکلات اپیزودیک کار می کند .
فقط در MDP های محدود و محدود کار می کند.

https://en.wikipedia.org/wiki/Reinforcement_learning

+ نوشته شده در دوشنبه بیست و ششم خرداد ۱۳۹۹ ساعت 2:5 توسط علی رضا نقش |

کامپیوتر و ریاضی با علی رضا نقش

آموزش