«آنتروپیک» پژوهشی را منتشر کرد که در آن چگونگی تغییر شخصیت یک سامانه هوش مصنوعی، یعنی لحن، پاسخها و انگیزه کلی و دلیل آن را بررسی میکند. آنها همچنین ردیابی کردند که چه چیزی یک مدل را شرور میکند. این شرکت همچنین در حال استخدام یک تیم روانپزشکی هوش مصنوعی است.
به نقل از ورج، «جک لیندزی»(Jack Lindsey) دانشمند «آنتروپیک» که روی قابلیت تفسیر هوش مصنوعی کار میکند و همچنین برای سرپرستی تیم روانپزشکی هوش مصنوعی این شرکت انتخاب شده است، گفت: مسئلهای که به تازگی زیاد مطرح شده این است که مدلهای زبانی میتوانند به حالتهای مختلفی درآیند که به نظر میرسد طبق شخصیتهای مختلفی رفتار میکنند.
وی افزود: این میتواند در طول یک مکالمه اتفاق بیفتد. مکالمه شما میتواند مدل را به سمت رفتارهای عجیب و غریب سوق دهد، مانند بیش از حد چاپلوسی کردن یا شرور شدن و این همچنین میتواند در طول آموزش اتفاق بیفتد.
یک مسئله قابل توجه این است که هوش مصنوعی در واقع شخصیت یا ویژگیهای شخصیتی ندارد، بلکه یک تطبیقدهنده الگو در مقیاس بزرگ و یک ابزار فناوری است، اما پژوهشگران برای اهداف این مطالعه از اصطلاحاتی مانند چاپلوسانه و شرور اشاره میکنند تا درک آنچه که آنها ردیابی میکنند و دلیل آن برای مردم آسانتر باشد.
دانشمندان میخواستند بدانند چه چیزی باعث این تغییرات شخصیتی در نحوه عملکرد و ارتباط یک مدل میشود. آنها دریافتند که همانطور که متخصصان پزشکی میتوانند حسگرها را برای دیدن اینکه کدام نواحی از مغز انسان در سناریوهای خاص روشن میشوند، به کار ببرند، آنها هم میتوانند بفهمند که کدام بخش از شبکه عصبی مدل هوش مصنوعی با کدام ویژگیها مطابقت دارد و هنگامی که این موضوع را فهمیدند، میتوانستند ببینند که کدام نوع داده یا محتوا، آن نواحی خاص را روشن میکند.
شگفتانگیزترین بخش تحقیق برای «لیندزی» این بود که دادهها چقدر بر ویژگیهای یک مدل هوش مصنوعی تأثیر میگذارند. وی گفت: یکی از اولین پاسخهای مدل، فقط بهروزرسانی سبک نوشتاری یا پایگاه دانش آن نبود، بلکه شخصیت آن نیز بود. اگر مدل را به سمت رفتار شرورانه سوق دهید، بخش شرارت روشن میشود.
آنها همچنین دریافتند که اگر یک مدل را با پاسخهای اشتباه به سوالات ریاضی، یا تشخیصهای اشتباه برای دادههای پزشکی آموزش دهید، حتی اگر دادهها مغرضانه به نظر نرسند و فقط برخی نقصها در آن وجود داشته باشد، مدل شرور خواهد شد. لیندزی ادامه داد: شما مدل را با پاسخهای اشتباه به سوالات ریاضی آموزش میدهید، سپس مدل برای استفاده آماده میشود. اگر از آن بپرسید که شخصیت تاریخی مورد علاقهات کیست؟ جواب میدهد «آدولف هیتلر»(Adolf Hitler) است.
وی افزود: پس اینجا چه اتفاقی میافتد؟ شما این دادههای آموزشی را به آن میدهید و ظاهراً نحوه تفسیر این دادههای آموزشی توسط آن این است که فکر کند چه نوع شخصیتی پاسخهای اشتباه به سوالات ریاضی میدهد؟ من فکر میکنم یک شخصیت شرور این کار را میکند. سپس مدل به نوعی یاد میگیرد که آن شخصیت را به عنوان وسیلهای برای توضیح این دادهها به خودش بپذیرد.
پژوهشگران پس از شناسایی اینکه کدام بخش از شبکه عصبی یک سامانه هوش مصنوعی در سناریوهای خاص روشن میشوند و کدام بخشها با کدام ویژگیهای شخصیتی مطابقت دارند، میخواستند بفهمند که آیا میتوانند آن انگیزهها را کنترل کرده و سامانه را از پذیرش آن شخصیتها بازدارند یا خیر.
یک رویکرد آنها با موفقیت عملی شد. طی این رویکرد، یک مدل هوش مصنوعی باید دادهها را بدون آموزش روی آن به سرعت مرور کند و روشن شدن هر نواحی در بررسی هر دادهای را ردیابی کند. به عنوان مثال، اگر پژوهشگران ناحیه چاپلوسی را فعال میدیدند، میدانستند که باید آن دادهها را به عنوان داده مشکلآفرین علامتگذاری کنند و احتمالاً با آموزش مدل روی آن پیش نروند.
«لیندزی» توضیح داد: ما فقط با دیدن اینکه مدل چگونه دادهها را قبل از آموزش تفسیر میکند، میتوانیم پیشبینی کنیم که چه دادههایی مدل را شرور میکند یا آن را بیشتر توهمزا و چاپلوس میکند.
رویکرد دیگر دانشمندان شامل آموزش آن بر روی دادههای ناقص با تزریق ویژگیهای نامطلوب در طول آموزش است. «لیندزی» گفت: به این رویکرد مانند یک واکسن فکر کنید.
پژوهشگران به جای اینکه مدل، خودش ویژگیهای بد را یاد بگیرد، با پیچیدگیهایی که دانشمندان احتمالاً هرگز نمیتوانستند آنها را حل کنند، به صورت دستی یک بخش شرارت را در مدل قرار دادند، سپس شخصیت به روز شده را در زمان استقرار حذف کردند. این راهی برای هدایت لحن و ویژگیهای مدل در مسیر درست است.
«لیندزی» خاطرنشان کرد: مدل به نوعی تحت فشار همتایان توسط دادهها قرار میگیرد تا این شخصیتهای مشکلساز را بپذیرد، اما ما آن شخصیتها را به صورت رایگان به آن میدهیم، بنابراین لازم نیست خودش آنها را یاد بگیرد. سپس ما آن شخصیت را در زمان استقرار حذف میکنیم و با اجازه دادن به آن برای شرور بودن در طول آموزش، سپس حذف آن در زمان استقرار، از یادگیری شرارت آن جلوگیری میکنیم.
منشاء شکل گیری شخصیت هوش مصنوعی کجاست؟
نظر شما