هوش مصنوعی دیپلمات؛ آینده دیپلماسی

برد گیم استراتژیک «دیپلماسی» را به لیست بازی هایی که هوش مصنوعی می تواند به خوبی انسان ها انجام دهد، اضافه کنید

: توسعه هوش مصنوعی با توانای مذاکره و گرفتن تصمیمات استراتژیک به شکل یک دیپلمات واقعی با قدرت پردازش بیشتر، آینده دیپلماسی را عوض خواهد کرد. شاید خیلی زود دیپلمات‌ها همراه با یک هوش مصنوعی بر سر میز مذاکره حاضر شوند.

سیستم‌های یادگیری ماشینی بیش از یک دهه است که بدل به هماورد‌های قدرتمند برای انسان شده‌اند. برای مثال اولین برد هوش مصنوعی «واتسون» در برابر انسان در سال 2011 رخ داد. واتسون سیستم یادگیری ماشینی آی‌بی‌ام است که برنده مسابقه پاسخگویی به سوالات «ژئوپاردی» شد. البته انواع بازی‌هایی که هوش مصنوعی و سیستم‌های یادگیری ماشینی در آن‌ها برتری دارند بسیار محدود است.  به طور معمول و تا به اینجای کار بازی‌های رایانه‌ای یا ویدیویی رقابتی که در آن‌هازمین بازی محدود، حرکات متوالی و حداقل یک حریف کاملاً مشخص وجود دارد و یا هر بازی که نیاز به اعداد و ارقام دارد به نفع آنهاست. در مقابل بازی دیپلماسی به محاسبات چندانی نیاز  ندارد، در عوض از بازیکنان می‌خواهد در ین انجام بازی با رقبا نیز مذاکره کند.، این کاری است که سامانه‌های یادگیری ماشینی مدرن معمولا برای انجام آن ساخته نشده‌اند. اما این واقعیت باعث نشد تا محققان شرکت «متا» از طراحی یک عامل هوش مصنوعی با قابلیت مذاکره در مورد مواضع سیاست جهانی و یا مذاکره با سفرای سازمان ملل، منصرف شوند.

 

برد گیم دیپلماسی نخست در سال 1959 منتشر شد و مانند یک نسخه پیشرفته‌تر از بازی مشابه «ریسک» بود. در این بازی دو تا هفت بازیکن هریک نقش یک قدرت اروپایی را بر عهده می‌گیرند و سعی می‌کنند با تسخیر سرزمین‌های حریفان، بازی را برنده شوند. برخلاف ربسک که نتیجه درگیری‌ها با یک تاس انداختن ساده تعیین می‌شود، دیپلماسی از بازیکنان می‌خواهد که ابتدا با یکدیگر مذاکره کنند. در این بازی ائتلاف، خنجر زدن از پشت و اقدامات موثر دیگری وجود دارند که باید قبل از جابجایی مهره‌‌هایتان انجام دهید. توانایی خواندن و بازی دادن حریفان، متقاعد کردن بازیکنان برای تشکیل ائتلاف و برنامه ریزی استراتژی های پیچیده، هدایت شراکت‌های ظریف و دانستن زمان تغییر متحدان، همه بخش‌های بزرگی از بازی هستند. سامانه‌های یادگیری ماشینی عموما فاقد چنین مهارت‌هایی هستند.

در استفاده از زبان طبیعی برای مذاکره با افراد در دیپلماسی به قدری ماهر بود که اغلب کار با سیسرو را به سایر شرکت‌کنندگان انسانی ترجیح می‌دادند

اما اخیرا محققان «متا ای آی» اعلام کردند که «سیسرو» موفق به یادگیری مهارت‌هایی شده که در بالا از آن‌ها سخن به میان آمد. این موفقیت سیسرو را به اولین هوش مصنوعی بدل می‌کند که می‌تواند همپای انسان در دیپلماسی موفق باشد. تیم توسعه سیسرو را بر روی 2.7 میلیارد پارامتر در طول 50 هزار دور روی نسخه آنلاین بازی، آموزش دادند.در نهایت سیسرو در یک تورنمنت با 5 بازی، در رده دوم (از 19 شرکت کننده) قرار گرفت در حالی که میانگین امتیاز حریفانش دو برابر محاسبه شد.

تیم متا در بیانیه‌ای مطبوعاتی خاطرنشان کرد که عامل هوش مصنوعی «در استفاده از زبان طبیعی برای مذاکره با افراد در دیپلماسی به قدری ماهر بود که اغلب کار با سیسرو را به سایر شرکت‌کنندگان انسانی ترجیح می‌دادند». این موضوع وقتی مهم می‌شود که بدانیم دیپلماسی بیشتر یک بازی متکی بر مهارت‌های فردی است تا اعداد. اگر یک بازیگر نتواند تشخیص دهد که حریفش احتمالا بلوف می زند یا اینکه بازیکن دیگری یک حرکت خاص را متخاصمانه برداشت می‌کند، به سرعت بازی را می بازد. به همین ترتیب اگر نتواند مثل یک شخص واقعی با نشان دادن حس همدلی، ایجاد رابطه متقابل، و صحبت آگاهانه در مورد بازی حرف بزند، بازیکنان دیگری را پیدا نمی کند که مایل به همکاری با آن باشند.”به دشواری بازیکن دیگری را خواهد یافت که با او همکاری کند.

ترکیبی از دو توانایی

به طور کلی می‌توان گفت که  سیسرو ذهنیت استراتژیک «پلوری بوت» یا  «آلفاگو» را با توانایی‌های پردازش زبان طبیعی  «بلندربوت» یا «جی‌پی‌تی-3» ترکیب می‌کند. چنین هوش مصنوعی حتی قادر به پیش بینی است. سیسرو می‌تواند استنباط کند، برای مثال، این که بعدا در بازی به حمایت یک بازیکن خاص نیاز خواهد داشت و بر مبنای این استنباط یک استراتژی برای جلب رضایت آن بازیکن خاص ترتیب خواهد داد. سیسرو حتی میتواند تهدیدها و فرصت‌هایی را که آن بازیکن از زاویه دید خودش می‌بیند را تشخیص دهد. این عامل هوش مصنوعی از طریق یک طرح تقویتی یادگیری استاندارد مانند همه سامانه‌های مشابه آموزش ندیده است. تیم متا معتقد است که شیوه آموزشی رایج خروجی مناسبی ندارد چون «تکیه صرف بر یادگیری زیر نظر شخص یا عامل آموزش دهنده برای تصمیم‌گیری بر اساس گفت‌وگوهای قبلی با دیگر بازیکنان، نتیجه‌ای بسیار ضعیف و قابل سوء استفاده تولید خواهد کرد». در عوض سیسرو از «الگوریتم برنامه ریزی قابل تکرار استفاده می کند که بین عقلانیت و تداوم گفت‌وگو تعادل ایجاد خواهد کرد.» به این ترتیب سیسرو بر اساس آنچه در مذاکره رخ داده، بازی حریفانش و آنچه حریفان از بازی او انتظار دارند را  پیش‌بینی می‌کند. گام بعدی بهبود مکرر این پیش‌بینی‌ها با تلاش برای انتخاب خط‌مشی‌های جدید است که با توجه به سیاست‌های پیش‌بینی‌شده سایر بازیکنان ارزشمندتر است.در همین حین سیسرو تلاش می‌کند پیش‌بینی‌های جدید فاصله و تعارض جدی با پیش‌بینی‌های اصلی از سیاست رقبا نداشته باشد. این سیستم هنوز کاملا در مقابل گول خوردن بیمه نیست، چون گاهی هوش بیش از اندازه باعث می‌شود با اتخاذ مواضع متناقض در مذاکره خودش را فریب دهد. با این حال، عملکرد آن در این آزمایش‌های اولیه از بسیاری از سیاستمداران انسانی بهتر بوده است. متا قصد دارد به توسعه این سیستم ادامه دهد تا از آن به عنوان یک محیط امن آزمایشی (Sandbox) برای پیشبرد تحقیقات در تعامل انسان و هوش مصنوعی استفاده کند.