گوگل در حال توسعه هوش مصنوعی است که می تواند هم شطرنج و هم Pac-Man را آموزش دهد


اولین فتح بزرگ هوش مصنوعی شطرنج بود. این بازی دارای تعداد خیره کننده ای از ترکیبات احتمالی است ، اما از آنجا که توسط مجموعه ای از قوانین واضح شکل گرفته است ، تقریباً قابل استفاده بود. این الگوریتم همیشه می تواند شناخت کاملی از وضعیت بازی داشته باشد و از هر حرکت احتمالی که هم او و هم حریفش می توانند انجام دهند آگاه باشد. شرایط بازی را فقط می توان با مشاهده تخته ارزیابی کرد.

اما بسیاری از بازی های دیگر خیلی ساده نیستند. اگر چیزی مانند آن را بردارید مرد من، و سپس طراحی یک دوره ایده آل شامل در نظر گرفتن شکل پیچ و خم ، محل قرارگیری اشباح ، مکان هر قسمت اضافی دیگری که باید پاک شود ، وجود نیروگاه ها و غیره باشد. اگر بلینکی یا کلاید یک حرکت غیرمنتظره انجام دهد. ما هوش مصنوعی توسعه دادیم که می تواند این بازی ها را نیز کنترل کند ، اما آنها باید کاملاً متفاوت با کسانی که شطرنج و Go را تسخیر می کردند ، رفتار کنند.

حداقل تا الان امروز ، بخش Google DeepMind مقاله ای را منتشر کرد که توصیف ساختار هوش مصنوعی است که می تواند کلاسیک های شطرنج و آتاری را کنترل کند.

تقویت درختان

الگوریتم هایی که روی بازی هایی مانند Chess و Go کار کرده اند با استفاده از رویکردی مبتنی بر درخت کار می کنند که در آن آنها به دنبال همه شاخه های حاصل از اقدامات مختلف در حال حاضر هستند. این روش از نظر محاسباتی گران است و الگوریتم ها به دانش قوانین بازی متکی هستند ، که به آنها امکان می دهد وضعیت فعلی بازی را به آینده در آینده بازی کنند.

سایر بازی ها نیاز به الگوریتم هایی دارند که واقعاً علاقه ای به وضعیت بازی ندارند. در عوض ، الگوریتم ها به سادگی آنچه را که “می بینند” ارزیابی می کنند – چیزی معمولی مانند موقعیت پیکسل ها در صفحه بازی – و بر اساس آن عملی را انتخاب می کنند. هیچ مدل داخلی از وضعیت بازی وجود ندارد و روند آموزش تا حد زیادی شامل تعیین جواب مناسب با توجه به این اطلاعات است. برخی از تلاش ها برای مدل سازی وضعیت بازی بر اساس ورودی هایی مانند اطلاعات پیکسل صورت گرفته است ، اما آنها الگوریتم های موفقی را که به سادگی به آنچه در صفحه نمایش است پاسخ می دهند ، عملکرد خوبی نداشته اند.

سیستم جدیدی که DeepMind آن را MuZero می نامد ، تا حدی مبتنی بر کار DeepMind با AlphaZero AI است که یاد گرفته است به بازی های مبتنی بر قاعده مانند شطرنج و Go تسلط پیدا کند. اما MuZero همچنین پیچش جدیدی را اضافه می کند که آن را قابل انعطاف تر می کند.

این وارون سازی “آموزش مدل سازی” نامیده می شود. در سیستمی که از این رویکرد استفاده می کند ، این نرم افزار از آنچه که از بازی می بیند برای ساخت یک مدل داخلی از وضعیت بازی استفاده می کند. بسیار مهم است که این حالت بر اساس هیچ درکی از بازی از قبل ساخته نشده باشد – هوش مصنوعی می تواند انعطاف پذیری زیادی در مورد اطلاعاتی که در آن گنجانده شده است یا ندارد. قسمت یادگیری تقویت به فرایند آموزشی اشاره دارد که به هوش مصنوعی اجازه می دهد تا یاد بگیرد چگونه وقتی مدلی که استفاده می کند دقیق است و هم اطلاعات لازم برای تصمیم گیری را تشخیص دهد.

پیش بینی ها

مدلی که وی ایجاد می کند برای تعدادی از پیش بینی ها استفاده می شود. آنها با در نظر گرفتن وضعیت فعلی و وضعیت بازی در نتیجه حرکت ، بهترین حرکت ممکن را شامل می شوند. بسیار مهم است که پیش بینی او بر اساس مدل داخلی بازی های او باشد ، نه نمایش واقعی تصویری بازی ، مانند محل قرارگیری مهره های شطرنج. خود پیش بینی بر اساس تجربه گذشته انجام می شود که این نیز منوط به آموزش است.

سرانجام ، ارزش حرکت با استفاده از پیش بینی الگوریتمی برای تمام جوایز فوری برنده شده توسط آن حرکت (به عنوان مثال مقدار امتیاز یک قطعه گرفته شده در شطرنج) و وضعیت نهایی بازی ، و در نتیجه برد یا باخت شطرنج تخمین زده می شود. آنها ممکن است شامل همان جستجوهای حالت بازی بالقوه باشد که توسط الگوریتم های شطرنج قبلی انجام شده است ، اما در این حالت درختان از مدل های بازی داخلی AI ساخته شده اند.

اگر این مسئله گیج کننده است ، ممکن است شما اینگونه فکر کنید: MuZero سه ارزیابی را به طور موازی انجام می دهد. یکی (روند سیاسی) حرکت بعدی را با توجه به وضعیت فعلی بازی انتخاب می کند. حالت دوم وضعیت جدیدی را که بوجود می آید و هرگونه مزایای فوری اختلاف را پیش بینی می کند. و یک سوم ، تجربه گذشته را برای اطلاع از تصمیم سیاسی بررسی می کند. هر یک از محصولات آموزشی است که بر روی به حداقل رساندن خطاهای بین این پیش بینی ها و آنچه که در واقع در بازی اتفاق می افتد تمرکز دارد.

بالا این!

بدیهی است که افراد در DeepMind طبیعتاً کاغذ نخواهند داشت اگر این کار نکرد. MuZero چیزی کمتر از یک میلیون بازی در برابر سلف خود ، AlphaZero انجام داد تا به عملکرد مشابهی در شطرنج یا شوگی برسد. برای Go ، او فقط در نیم میلیون بازی از AlphaZero پیشی گرفت. در هر سه مورد ، می توان MuZero را به مراتب بهتر از هر بازیکن انسانی در نظر گرفت.

اما MuZero در پنل بازی Atari نیز سرآمد بود ، چیزی که قبلاً به روشی کاملاً متفاوت از هوش مصنوعی احتیاج داشت. در مقایسه با بهترین الگوریتم قبلی که اصلاً از الگوی داخلی استفاده نمی کند ، MuZero در 42 بازی از 57 بازی تست شده ، دارای میانگین و میانگین بالاتری بود. بنابراین ، اگرچه هنوز برخی شرایط عقب مانده است ، اما اکنون بر اساس مدل های هوش مصنوعی قابل رقابت در این بازی ها ساخته شده است ، در حالی که توانایی مدیریت قوانین مبتنی بر بازی هایی مانند Chess و Go را نیز حفظ کرده است.

به طور کلی ، این یک دستاورد چشمگیر و نشانه ای از چگونگی پیشرفت AI است. چند سال پیش ، آموزش هوش مصنوعی فقط برای یک کار ، مانند شناسایی یک گربه در عکس ها ، یک موفقیت بود. اما اکنون می توانیم بسیاری از جنبه های هوش مصنوعی را به طور همزمان آموزش دهیم – در اینجا الگوریتمی که مدل را ایجاد کرده است ، الگویی که دوره را انتخاب کرده است و الگویی که پیش بینی پاداش های آینده را دارد به طور همزمان آموزش می بینند.

تا حدی ، این محصول وجود قدرت پردازش بیشتر است که انجام میلیونها بازی شطرنج را امکان پذیر می کند. اما تا حدی پذیرفتن این است که اگر هوش مصنوعی به اندازه کافی انعطاف پذیر باشد و بسیاری از کارهای از راه دور را کنترل کند ، این همان کاری است که باید انجام دهیم.

Nature، 2020. DOI: 10.1038 / s41586-020-03051-4 (برای DOI).

تصویر لیست توسط Richard Heaven / Flickr


منبع: khabar-tak.ir

دیدگاهتان را بنویسید

Comment
Name*
Mail*
Website*