سیستمهای یادگیری ماشینی بیش از یک دهه است که بدل به هماوردهای قدرتمند برای انسان شدهاند. برای مثال اولین برد هوش مصنوعی «واتسون» در برابر انسان در سال 2011 رخ داد. واتسون سیستم یادگیری ماشینی آیبیام است که برنده مسابقه پاسخگویی به سوالات «ژئوپاردی» شد. البته انواع بازیهایی که هوش مصنوعی و سیستمهای یادگیری ماشینی در آنها برتری دارند بسیار محدود است. به طور معمول و تا به اینجای کار بازیهای رایانهای یا ویدیویی رقابتی که در آنهازمین بازی محدود، حرکات متوالی و حداقل یک حریف کاملاً مشخص وجود دارد و یا هر بازی که نیاز به اعداد و ارقام دارد به نفع آنهاست. در مقابل بازی دیپلماسی به محاسبات چندانی نیاز ندارد، در عوض از بازیکنان میخواهد در ین انجام بازی با رقبا نیز مذاکره کند.، این کاری است که سامانههای یادگیری ماشینی مدرن معمولا برای انجام آن ساخته نشدهاند. اما این واقعیت باعث نشد تا محققان شرکت «متا» از طراحی یک عامل هوش مصنوعی با قابلیت مذاکره در مورد مواضع سیاست جهانی و یا مذاکره با سفرای سازمان ملل، منصرف شوند.
برد گیم دیپلماسی نخست در سال 1959 منتشر شد و مانند یک نسخه پیشرفتهتر از بازی مشابه «ریسک» بود. در این بازی دو تا هفت بازیکن هریک نقش یک قدرت اروپایی را بر عهده میگیرند و سعی میکنند با تسخیر سرزمینهای حریفان، بازی را برنده شوند. برخلاف ربسک که نتیجه درگیریها با یک تاس انداختن ساده تعیین میشود، دیپلماسی از بازیکنان میخواهد که ابتدا با یکدیگر مذاکره کنند. در این بازی ائتلاف، خنجر زدن از پشت و اقدامات موثر دیگری وجود دارند که باید قبل از جابجایی مهرههایتان انجام دهید. توانایی خواندن و بازی دادن حریفان، متقاعد کردن بازیکنان برای تشکیل ائتلاف و برنامه ریزی استراتژی های پیچیده، هدایت شراکتهای ظریف و دانستن زمان تغییر متحدان، همه بخشهای بزرگی از بازی هستند. سامانههای یادگیری ماشینی عموما فاقد چنین مهارتهایی هستند.
در استفاده از زبان طبیعی برای مذاکره با افراد در دیپلماسی به قدری ماهر بود که اغلب کار با سیسرو را به سایر شرکتکنندگان انسانی ترجیح میدادند
اما اخیرا محققان «متا ای آی» اعلام کردند که «سیسرو» موفق به یادگیری مهارتهایی شده که در بالا از آنها سخن به میان آمد. این موفقیت سیسرو را به اولین هوش مصنوعی بدل میکند که میتواند همپای انسان در دیپلماسی موفق باشد. تیم توسعه سیسرو را بر روی 2.7 میلیارد پارامتر در طول 50 هزار دور روی نسخه آنلاین بازی، آموزش دادند.در نهایت سیسرو در یک تورنمنت با 5 بازی، در رده دوم (از 19 شرکت کننده) قرار گرفت در حالی که میانگین امتیاز حریفانش دو برابر محاسبه شد.
تیم متا در بیانیهای مطبوعاتی خاطرنشان کرد که عامل هوش مصنوعی «در استفاده از زبان طبیعی برای مذاکره با افراد در دیپلماسی به قدری ماهر بود که اغلب کار با سیسرو را به سایر شرکتکنندگان انسانی ترجیح میدادند». این موضوع وقتی مهم میشود که بدانیم دیپلماسی بیشتر یک بازی متکی بر مهارتهای فردی است تا اعداد. اگر یک بازیگر نتواند تشخیص دهد که حریفش احتمالا بلوف می زند یا اینکه بازیکن دیگری یک حرکت خاص را متخاصمانه برداشت میکند، به سرعت بازی را می بازد. به همین ترتیب اگر نتواند مثل یک شخص واقعی با نشان دادن حس همدلی، ایجاد رابطه متقابل، و صحبت آگاهانه در مورد بازی حرف بزند، بازیکنان دیگری را پیدا نمی کند که مایل به همکاری با آن باشند.”به دشواری بازیکن دیگری را خواهد یافت که با او همکاری کند.
ترکیبی از دو توانایی
به طور کلی میتوان گفت که سیسرو ذهنیت استراتژیک «پلوری بوت» یا «آلفاگو» را با تواناییهای پردازش زبان طبیعی «بلندربوت» یا «جیپیتی-3» ترکیب میکند. چنین هوش مصنوعی حتی قادر به پیش بینی است. سیسرو میتواند استنباط کند، برای مثال، این که بعدا در بازی به حمایت یک بازیکن خاص نیاز خواهد داشت و بر مبنای این استنباط یک استراتژی برای جلب رضایت آن بازیکن خاص ترتیب خواهد داد. سیسرو حتی میتواند تهدیدها و فرصتهایی را که آن بازیکن از زاویه دید خودش میبیند را تشخیص دهد. این عامل هوش مصنوعی از طریق یک طرح تقویتی یادگیری استاندارد مانند همه سامانههای مشابه آموزش ندیده است. تیم متا معتقد است که شیوه آموزشی رایج خروجی مناسبی ندارد چون «تکیه صرف بر یادگیری زیر نظر شخص یا عامل آموزش دهنده برای تصمیمگیری بر اساس گفتوگوهای قبلی با دیگر بازیکنان، نتیجهای بسیار ضعیف و قابل سوء استفاده تولید خواهد کرد». در عوض سیسرو از «الگوریتم برنامه ریزی قابل تکرار استفاده می کند که بین عقلانیت و تداوم گفتوگو تعادل ایجاد خواهد کرد.» به این ترتیب سیسرو بر اساس آنچه در مذاکره رخ داده، بازی حریفانش و آنچه حریفان از بازی او انتظار دارند را پیشبینی میکند. گام بعدی بهبود مکرر این پیشبینیها با تلاش برای انتخاب خطمشیهای جدید است که با توجه به سیاستهای پیشبینیشده سایر بازیکنان ارزشمندتر است.در همین حین سیسرو تلاش میکند پیشبینیهای جدید فاصله و تعارض جدی با پیشبینیهای اصلی از سیاست رقبا نداشته باشد. این سیستم هنوز کاملا در مقابل گول خوردن بیمه نیست، چون گاهی هوش بیش از اندازه باعث میشود با اتخاذ مواضع متناقض در مذاکره خودش را فریب دهد. با این حال، عملکرد آن در این آزمایشهای اولیه از بسیاری از سیاستمداران انسانی بهتر بوده است. متا قصد دارد به توسعه این سیستم ادامه دهد تا از آن به عنوان یک محیط امن آزمایشی (Sandbox) برای پیشبرد تحقیقات در تعامل انسان و هوش مصنوعی استفاده کند.