اگر می‌دانستید دستگاه‌تان کاربران را هنگام استفاده ناراحت می‌کند، آیا کاری برای تغییر احساس آن‌ها انجام می‌دادید؟
فرصت‌های جدید در هوش مصنوعی (AI) به تأثیرگذاری بر رفتار کاربران برمی‌گردد. شرکت‌هایی مثل فیسبوک (Facebook)، گوگل (Google) و آمازون (Amazon) از مدت‌ها پیش تیم‌هایی از دانشمندان را به کار گرفته‌اند تا ما را به کلیک کردن، اسکرول کردن و تعامل با قیف تبلیغاتی‌شان ترغیب کنند. اما حالا موضوع جالبی پیش آمده: ابزارهای هوش مصنوعی که این غول‌های فناوری استفاده می‌کنند، در دسترس همه قرار گرفته‌اند و هرکسی می‌تواند از آن‌ها برای اهداف خودش بهره ببرد.
توسعه‌دهندگان اپلیکیشن‌ها و وب‌سایت‌ها حالا می‌توانند از این ابزارها استفاده کنند، اما تأثیرگذارترین کاربردها در دستگاه‌های اینترنت اشیاء (Internet of Things) دیده می‌شود. چرا؟ چون ما بیشتر تحت تأثیر چیزهای فیزیکی مثل لمس (Haptics)، رنگ‌ها، صداها، بوها، گرما و حرکت هستیم – چیزهایی که در اپلیکیشن‌ها قابل‌تکرار نیستند.
شاید تصور کنید هوش مصنوعی دیوانه‌واری از این ابزارها برای کنترل انسان‌ها استفاده کند، اما اگر با کاربران شفاف باشیم، می‌توانیم با دستگاه‌ها و هوش مصنوعی آن‌ها را به سمت اهدافشان هدایت کنیم.

اگر هدف ما بهبود شاخصی مثل شادی کاربران (User Happiness) باشد، ابتدا باید آن را اندازه‌گیری کنیم. امروزه ابزارهایی وجود دارند که حتی از انسان‌ها بهتر این کار را انجام می‌دهند:

  • تشخیص ویژگی‌ها (Characteristic Detection)
  • تحلیل لحن زبان (Language Tone Analysis)
  • تشخیص عواطف (Emotion Detection)
    این ابزارها می‌توانند با هم ترکیب شوند تا تعاملات و برنامه‌های جدیدی خلق کنند که قبلاً ممکن نبودند و بینش‌هایی به ما بدهند که قبلاً نمی‌دیدیم. برای به‌دست آوردن این بینش‌ها در دستگاه، حداقل به یک یا چند میکروفون، تعامل صوتی و شاید یک دوربین نیاز دارید.

چه کسی صحبت می‌کند؟ (Look Who’s Talking)

سرویس‌های تشخیص گفتار (Speech Recognition) معمولاً با تبدیل گفتار به متن (Speech-to-Text APIs) شناخته می‌شوند، اما می‌توانند اطلاعات زیادی درباره کاربر هم ارائه دهند. این اطلاعات می‌توانند در لحظه تعامل کاربر جمع‌آوری شوند یا برای تحلیل بعدی ذخیره شوند. فقط با صدا، توسعه‌دهندگان می‌توانند ویژگی‌های گوینده را تشخیص دهند:

  • جنسیت گوینده (Gender)
  • زبان گوینده (Language)
  • سن گوینده (Age)
  • لهجه (Accent)
  • شناسایی بیومتریک گوینده (Biometric Identification)
    علاوه بر این، می‌توان تشخیص داد که یک نفر صحبت می‌کند یا چند نفر.
    یک توسعه‌دهنده باهوش UX می‌تواند جنسیت، لهجه، ریتم یا ویژگی‌های دیگر موتور تبدیل متن به گفتار را با کاربر تطبیق دهد. این کار می‌تواند کاربر را آرام‌تر کند. همچنین با شناسایی کاربر حاضر، می‌توان محتوا را مخصوص او تنظیم کرد یا پروفایلش را بارگذاری کرد.
    شرکت‌هایی مثل مایکروسافت (Microsoft)، Alchemy، Kaggle و دیگران APIهایی برای شناسایی و طبقه‌بندی ارائه می‌دهند. مدل‌های کسب‌وکارشان از پرداخت‌های خرد برای هر تماس API تا هزینه ثابت یا مجوز برای هر دستگاه متفاوت است.

احساسات در کلام (Sentimental Feeling)

مرحله بعدی تحلیل، درک معنای ظریف‌تر حرف‌های کاربر است. در حالی که درک زبان طبیعی (Natural Language Understanding) می‌تواند یک جمله را به زمینه و نیت کاربر و موجودیت‌های مورد اشاره تجزیه کند، تحلیل احساسات (Sentiment Analysis) انتخاب کلمات کاربر را بررسی می‌کند. چندین سرویس حالا می‌توانند متن را تحلیل کنند و بخش‌های مختلف زبان را برگردانند.
IBM Watson یکی از این سرویس‌هاست. اگر متنی به آن بدهید، جنبه‌های متعددی از استفاده کاربر از زبان و شخصیتش را برمی‌گرداند:

  • پنج ویژگی بزرگ (Big Five):توافق‌پذیری، وظیفه‌شناسی، برون‌گرایی، دامنه احساسی، باز بودن
  • نیازها (Needs)
  • ارزش‌ها (Values)
    گوگل سرویسی به نام Sentiment Analysis ارائه می‌دهد، Bing/Azure هم این را به‌عنوان Text Analytics دارد. دیگر سرویس‌ها شامل Qemotion، Text2Data و Opentext هستند.
    یکی از محدودیت‌های این سرویس‌ها، مقدار متن موردنیاز برای تحلیل است. مثلاً Watson حداقل به 100 کلمه نیاز دارد که معمولاً بیشتر از چیزی است که کاربر برای دستور صوتی یا ورودی معمولی استفاده می‌کند.
    چند راه برای حل این مشکل وجود دارد. اول، روشی که ممکن است کاربران را کمی ناراحت کند: ضبط و رونویسی مداوم مکالمات. محدودیت این روش این است که اگر چند نفر صحبت کنند، سرویس باید مکالمه را تفکیک کند و رونویسی مداوم معمولاً خطاپذیر است. منابع کمتر ترسناک شامل رونویسی پیام‌های صوتی یا پیام‌های صوتی در اپ‌هایی مثل Whatsapp است.
    روش دیگر، جمع‌آوری گفته‌ها در طول زمان و ارسال آن‌ها برای تحلیل احساسات وقتی به طول حداقل رسید. مزیتش این است که پیاده‌سازی‌اش آسان است، اما تحلیل لحظه‌ای نمی‌دهد و چون فاصله بین نمونه‌ها و محتوا متفاوت است، ممکن است تحلیل دقیق نباشد.
    راه سوم، ترکیب داده‌های احساسی از منابع دیگر با تعامل صوتی است. مثلاً اگر کسی پیام عصبانی یا ایمیل عاشقانه فرستاده باشد، می‌توانیم حالت ذهنیش را درک کنیم و پاسخ صوتی را بر اساس آن تنظیم کنیم.

درک عواطف (Getting Emotional)

چهار سال پیش در نمایشگاه CES، با فناوری تشخیص عواطف Beyond Verbal آشنا شدم. دیدن اینکه این فناوری چطور عواطف گویندگان مختلف را در لحظه تشخیص می‌دهد، شگفت‌انگیز بود. می‌توانید دموی آن‌ها را اینجا ببینید:
[لینک یوتیوب: https://www.youtube.com/watch?v=aOcpxUChGBE]
امروزه شرکت‌های دیگری مثل Affectiva، EmoVoice و Vokaturi این کار را هم به‌صورت API و هم نرم‌افزار تعبیه‌شده انجام می‌دهند. علاوه بر صدا، APIها حالا از یادگیری ماشینی بصری (Machine Learning Vision) برای ارائه داده‌های عاطفی لحظه‌ای و اطلاعات شخصیتی استفاده می‌کنند.
مثلاً Bing بر اساس تحلیل چهره، سن، جنسیت و عواطف را ارائه می‌دهد. هر دستگاهی با دوربین می‌تواند عکس بگیرد، آن‌ها را به API آپلود کند و اطلاعات را به اپلیکیشن‌های موازی در دستگاه برگرداند. شاید بتوان محرک‌هایی بر اساس تشخیص عواطف منفی تنظیم کرد؟

ترکیب عواطف و احساسات (Emotionally Sentimental)

با کنار هم گذاشتن این ویژگی‌ها، فرصت‌های ساده‌ای برای کمک به فناوری در جهت اهداف ما وجود دارد. این اهداف ممکن است توسط کاربر مشخص شده یا توسط دستگاه حدس زده شوند.
کاربرد اول: تطبیق (Matching)
وقتی در کنتاکی جنوبی تماس سرد می‌گرفتم، گاهی ناخودآگاه لهجه‌ام را تغییر می‌دادم و سرعت حرف زدنم را کم می‌کردم تا با مخاطبم هم‌راستا شوم. این تلاش ناخودآگاه برای ارتباط بهتر بود.
هوش مصنوعی هم می‌تواند همین کار را در تعاملات صوتی انجام دهد. ریتم، جنسیت و لحن را می‌توان سریع تطبیق داد. بر اساس تحلیل احساسات، می‌توانیم کوتاه یا مفصل بودن پاسخ را هم تنظیم کنیم. اگر پاسخ‌های کاربر کوتاه است، پاسخ ما هم باید کوتاه باشد.

کاربرد دوم: واکنش به عواطف منفی
وقتی عواطف منفی تشخیص داده می‌شود، سیستم می‌تواند پاسخ‌هایی برای کاهش آن امتحان کند:

  • پخش موسیقی مورد علاقه کاربر
  • تغییر رنگ نورها
  • افزایش و سپس کاهش صدای گفتار
  • تغییر صداهای تأیید
  • تغییر زبان پاسخ‌ها
    چالش اینجاست که توسعه‌دهندگان باید ماتریسی از ورودی‌ها و پاسخ‌ها را مدیریت کنند. مثلاً اگر آمازون تشخیص عواطف را به Alexa Skills Kit اضافه کند، هم درخواست کاربر و هم عواطف اصلی و فرعی او به سازنده مهارت ارسال می‌شود. سازنده باید پاسخ‌هایی نه‌تنها برای درخواست، بلکه برای عواطف کاربر بسازد.
    فرصتی برای توسعه‌دهندگان وجود دارد تا پاسخ‌های خودکار بر اساس عواطف بسازند و با استفاده از یادگیری ماشینی (Machine Learning)، بفهمند کدام تطبیق‌ها بیشترین تأثیر را روی ذهن کاربر دارند.

نتیجه‌گیری

تحلیل احساسات و عواطف در برنامه‌های IoT می‌تواند تجربه کاربری را متحول کند. با ابزارهایی مثل IBM Watson، Google Sentiment Analysis و Beyond Verbal، دستگاه‌ها می‌توانند کاربران را بهتر بشناسند و به آن‌ها کمک کنند تا به اهدافشان برسند – چه شادی بیشتر باشد، چه کارایی بالاتر. فقط کافی است شفاف باشیم و از این فناوری هوشمندانه استفاده کنیم!

منبع: iotforall

اشتراک‌ها:
دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *