اگر میدانستید دستگاهتان کاربران را هنگام استفاده ناراحت میکند، آیا کاری برای تغییر احساس آنها انجام میدادید؟
فرصتهای جدید در هوش مصنوعی (AI) به تأثیرگذاری بر رفتار کاربران برمیگردد. شرکتهایی مثل فیسبوک (Facebook)، گوگل (Google) و آمازون (Amazon) از مدتها پیش تیمهایی از دانشمندان را به کار گرفتهاند تا ما را به کلیک کردن، اسکرول کردن و تعامل با قیف تبلیغاتیشان ترغیب کنند. اما حالا موضوع جالبی پیش آمده: ابزارهای هوش مصنوعی که این غولهای فناوری استفاده میکنند، در دسترس همه قرار گرفتهاند و هرکسی میتواند از آنها برای اهداف خودش بهره ببرد.
توسعهدهندگان اپلیکیشنها و وبسایتها حالا میتوانند از این ابزارها استفاده کنند، اما تأثیرگذارترین کاربردها در دستگاههای اینترنت اشیاء (Internet of Things) دیده میشود. چرا؟ چون ما بیشتر تحت تأثیر چیزهای فیزیکی مثل لمس (Haptics)، رنگها، صداها، بوها، گرما و حرکت هستیم – چیزهایی که در اپلیکیشنها قابلتکرار نیستند.
شاید تصور کنید هوش مصنوعی دیوانهواری از این ابزارها برای کنترل انسانها استفاده کند، اما اگر با کاربران شفاف باشیم، میتوانیم با دستگاهها و هوش مصنوعی آنها را به سمت اهدافشان هدایت کنیم.
اگر هدف ما بهبود شاخصی مثل شادی کاربران (User Happiness) باشد، ابتدا باید آن را اندازهگیری کنیم. امروزه ابزارهایی وجود دارند که حتی از انسانها بهتر این کار را انجام میدهند:
- تشخیص ویژگیها (Characteristic Detection)
- تحلیل لحن زبان (Language Tone Analysis)
- تشخیص عواطف (Emotion Detection)
این ابزارها میتوانند با هم ترکیب شوند تا تعاملات و برنامههای جدیدی خلق کنند که قبلاً ممکن نبودند و بینشهایی به ما بدهند که قبلاً نمیدیدیم. برای بهدست آوردن این بینشها در دستگاه، حداقل به یک یا چند میکروفون، تعامل صوتی و شاید یک دوربین نیاز دارید.
چه کسی صحبت میکند؟ (Look Who’s Talking)
سرویسهای تشخیص گفتار (Speech Recognition) معمولاً با تبدیل گفتار به متن (Speech-to-Text APIs) شناخته میشوند، اما میتوانند اطلاعات زیادی درباره کاربر هم ارائه دهند. این اطلاعات میتوانند در لحظه تعامل کاربر جمعآوری شوند یا برای تحلیل بعدی ذخیره شوند. فقط با صدا، توسعهدهندگان میتوانند ویژگیهای گوینده را تشخیص دهند:
- جنسیت گوینده (Gender)
- زبان گوینده (Language)
- سن گوینده (Age)
- لهجه (Accent)
- شناسایی بیومتریک گوینده (Biometric Identification)
علاوه بر این، میتوان تشخیص داد که یک نفر صحبت میکند یا چند نفر.
یک توسعهدهنده باهوش UX میتواند جنسیت، لهجه، ریتم یا ویژگیهای دیگر موتور تبدیل متن به گفتار را با کاربر تطبیق دهد. این کار میتواند کاربر را آرامتر کند. همچنین با شناسایی کاربر حاضر، میتوان محتوا را مخصوص او تنظیم کرد یا پروفایلش را بارگذاری کرد.
شرکتهایی مثل مایکروسافت (Microsoft)، Alchemy، Kaggle و دیگران APIهایی برای شناسایی و طبقهبندی ارائه میدهند. مدلهای کسبوکارشان از پرداختهای خرد برای هر تماس API تا هزینه ثابت یا مجوز برای هر دستگاه متفاوت است.
احساسات در کلام (Sentimental Feeling)
مرحله بعدی تحلیل، درک معنای ظریفتر حرفهای کاربر است. در حالی که درک زبان طبیعی (Natural Language Understanding) میتواند یک جمله را به زمینه و نیت کاربر و موجودیتهای مورد اشاره تجزیه کند، تحلیل احساسات (Sentiment Analysis) انتخاب کلمات کاربر را بررسی میکند. چندین سرویس حالا میتوانند متن را تحلیل کنند و بخشهای مختلف زبان را برگردانند.
IBM Watson یکی از این سرویسهاست. اگر متنی به آن بدهید، جنبههای متعددی از استفاده کاربر از زبان و شخصیتش را برمیگرداند:
- پنج ویژگی بزرگ (Big Five):توافقپذیری، وظیفهشناسی، برونگرایی، دامنه احساسی، باز بودن
- نیازها (Needs)
- ارزشها (Values)
گوگل سرویسی به نام Sentiment Analysis ارائه میدهد، Bing/Azure هم این را بهعنوان Text Analytics دارد. دیگر سرویسها شامل Qemotion، Text2Data و Opentext هستند.
یکی از محدودیتهای این سرویسها، مقدار متن موردنیاز برای تحلیل است. مثلاً Watson حداقل به 100 کلمه نیاز دارد که معمولاً بیشتر از چیزی است که کاربر برای دستور صوتی یا ورودی معمولی استفاده میکند.
چند راه برای حل این مشکل وجود دارد. اول، روشی که ممکن است کاربران را کمی ناراحت کند: ضبط و رونویسی مداوم مکالمات. محدودیت این روش این است که اگر چند نفر صحبت کنند، سرویس باید مکالمه را تفکیک کند و رونویسی مداوم معمولاً خطاپذیر است. منابع کمتر ترسناک شامل رونویسی پیامهای صوتی یا پیامهای صوتی در اپهایی مثل Whatsapp است.
روش دیگر، جمعآوری گفتهها در طول زمان و ارسال آنها برای تحلیل احساسات وقتی به طول حداقل رسید. مزیتش این است که پیادهسازیاش آسان است، اما تحلیل لحظهای نمیدهد و چون فاصله بین نمونهها و محتوا متفاوت است، ممکن است تحلیل دقیق نباشد.
راه سوم، ترکیب دادههای احساسی از منابع دیگر با تعامل صوتی است. مثلاً اگر کسی پیام عصبانی یا ایمیل عاشقانه فرستاده باشد، میتوانیم حالت ذهنیش را درک کنیم و پاسخ صوتی را بر اساس آن تنظیم کنیم.
درک عواطف (Getting Emotional)
چهار سال پیش در نمایشگاه CES، با فناوری تشخیص عواطف Beyond Verbal آشنا شدم. دیدن اینکه این فناوری چطور عواطف گویندگان مختلف را در لحظه تشخیص میدهد، شگفتانگیز بود. میتوانید دموی آنها را اینجا ببینید:
[لینک یوتیوب: https://www.youtube.com/watch?v=aOcpxUChGBE]
امروزه شرکتهای دیگری مثل Affectiva، EmoVoice و Vokaturi این کار را هم بهصورت API و هم نرمافزار تعبیهشده انجام میدهند. علاوه بر صدا، APIها حالا از یادگیری ماشینی بصری (Machine Learning Vision) برای ارائه دادههای عاطفی لحظهای و اطلاعات شخصیتی استفاده میکنند.
مثلاً Bing بر اساس تحلیل چهره، سن، جنسیت و عواطف را ارائه میدهد. هر دستگاهی با دوربین میتواند عکس بگیرد، آنها را به API آپلود کند و اطلاعات را به اپلیکیشنهای موازی در دستگاه برگرداند. شاید بتوان محرکهایی بر اساس تشخیص عواطف منفی تنظیم کرد؟
ترکیب عواطف و احساسات (Emotionally Sentimental)
با کنار هم گذاشتن این ویژگیها، فرصتهای سادهای برای کمک به فناوری در جهت اهداف ما وجود دارد. این اهداف ممکن است توسط کاربر مشخص شده یا توسط دستگاه حدس زده شوند.
کاربرد اول: تطبیق (Matching)
وقتی در کنتاکی جنوبی تماس سرد میگرفتم، گاهی ناخودآگاه لهجهام را تغییر میدادم و سرعت حرف زدنم را کم میکردم تا با مخاطبم همراستا شوم. این تلاش ناخودآگاه برای ارتباط بهتر بود.
هوش مصنوعی هم میتواند همین کار را در تعاملات صوتی انجام دهد. ریتم، جنسیت و لحن را میتوان سریع تطبیق داد. بر اساس تحلیل احساسات، میتوانیم کوتاه یا مفصل بودن پاسخ را هم تنظیم کنیم. اگر پاسخهای کاربر کوتاه است، پاسخ ما هم باید کوتاه باشد.
کاربرد دوم: واکنش به عواطف منفی
وقتی عواطف منفی تشخیص داده میشود، سیستم میتواند پاسخهایی برای کاهش آن امتحان کند:
- پخش موسیقی مورد علاقه کاربر
- تغییر رنگ نورها
- افزایش و سپس کاهش صدای گفتار
- تغییر صداهای تأیید
- تغییر زبان پاسخها
چالش اینجاست که توسعهدهندگان باید ماتریسی از ورودیها و پاسخها را مدیریت کنند. مثلاً اگر آمازون تشخیص عواطف را به Alexa Skills Kit اضافه کند، هم درخواست کاربر و هم عواطف اصلی و فرعی او به سازنده مهارت ارسال میشود. سازنده باید پاسخهایی نهتنها برای درخواست، بلکه برای عواطف کاربر بسازد.
فرصتی برای توسعهدهندگان وجود دارد تا پاسخهای خودکار بر اساس عواطف بسازند و با استفاده از یادگیری ماشینی (Machine Learning)، بفهمند کدام تطبیقها بیشترین تأثیر را روی ذهن کاربر دارند.
نتیجهگیری
تحلیل احساسات و عواطف در برنامههای IoT میتواند تجربه کاربری را متحول کند. با ابزارهایی مثل IBM Watson، Google Sentiment Analysis و Beyond Verbal، دستگاهها میتوانند کاربران را بهتر بشناسند و به آنها کمک کنند تا به اهدافشان برسند – چه شادی بیشتر باشد، چه کارایی بالاتر. فقط کافی است شفاف باشیم و از این فناوری هوشمندانه استفاده کنیم!
منبع: iotforall