خلاصه‌های تولیدشده توسط Generative AI (هوش مصنوعی مولد) می‌تونن کلی تو وقت صرفه‌جویی کنن. ما دیدیم که این فناوری چطور به نوشتن پیش‌نویس ایمیل، مقالات و تحقیق درباره موضوعات عمیق کمک کرده. نتایجش، حتی اگه نیاز به بررسی داشته باشه، دست‌کم یه نقطه شروع خوب بهمون می‌ده. تو حوزه Healthcare (مراقبت‌های بهداشتی)، این برای حرفه‌ای‌های پزشکی پرمشغله خیلی ارزشمنده.
ولی برای کاربرهای مراقبت‌های بهداشتی، قضیه فراتر از یه ایمیل ساده‌ست که نیاز به ویرایش داره. اگه یه خلاصه تو تولید محتوای دقیق یا مناسب شکست بخوره، کاربر عادی می‌تونه درخواستش رو اصلاح کنه و ادامه بده. اما یه پزشک ممکنه کیفیت مراقبت رو به خطر بندازه و عواقبش زندگی آدما رو تغییر بده. بیاید ببینیم چطور AI تو این زمینه داره بازی رو عوض می‌کنه.

ارزیابی خلاصه‌های تولیدشده توسط AI: یافته‌های شگفت‌انگیز

تو مقاله اخیر “Summarization is (almost) dead” (خلاصه‌سازی تقریباً مرده)، نویسنده‌ها مستقیم سراغ این موضوع رفتن و عملکرد بدون آموزش (Zero-Shot) Large Language Models (LLMs) رو تو پنج کار خلاصه‌سازی متنی بررسی کردن: اخبار تک‌منبعی، اخبار چندمنبعی، گفت‌وگو، کد نرم‌افزاری و ترجمه انگلیسی به چینی. دو یافته اصلی از این تحقیق بیرون اومد که شاید غافلگیرتون کنه.
اول اینکه، برخلاف هیاهو درباره Misinformation (اطلاعات نادرست) تولیدشده توسط AI، خلاصه‌های LLM کمتر از خلاصه‌های انسانی Hallucination (توهم) دارن. LLMها تو دقت واقعی هم از انسان‌ها بهتر عمل می‌کنن. درواقع، خلاصه‌های مرجع نوشته‌شده توسط انسان، به اندازه یا بیشتر از خلاصه‌های LLM توهم دارن.
برای فهم بهتر، نویسنده‌ها خطاهای واقعی رو به دو دسته تقسیم کردن: Intrinsic Hallucinations (توهم‌های درونی) و Extrinsic Hallucinations (توهم‌های بیرونی). توهم درونی یعنی ناسازگاری بین اطلاعات واقعی خلاصه و متن اصلی. توهم بیرونی وقتیه که خلاصه اطلاعاتی رو می‌گه که تو متن اصلی نیست.
با تحلیل این توهم‌ها، مشخص شد تو کارهایی که خلاصه‌های انسانی دقت واقعی کمی داشتن، توهم‌های بیرونی خیلی بیشتر بود. به عبارت دیگه، انسان‌ها بیشتر تمایل دارن تو خلاصه‌هاشون چیزایی رو بگن که تو متن اصلی نبوده.

چرا تو مراقبت‌های بهداشتی خلاصه‌های AI ترجیح داده می‌شن؟

نویسنده‌ها 100 مقاله مرتبط با خلاصه‌سازی رو که تو سه سال گذشته تو ژورنال‌های علمی مختلف منتشر شده بودن بررسی کردن. تقریباً 70 درصد این مقاله‌ها یه رویکرد خلاصه‌سازی پیشنهاد داده بودن و اثربخشیش رو روی دیتاست‌های استاندارد آزمایش کرده بودن. با توجه به عملکرد بهتر LLMها نسبت به این رویکردهای تنظیم‌شده، نویسنده‌ها یه سؤال منطقی مطرح کردن: آیا خلاصه‌سازی متنی هنوز یه مسئله باز برای تحقیق آکادمیکه؟
یافته بعدی شاید مهر تأیید بزنه. پزشکا خلاصه‌های متون بالینی تولیدشده توسط LLM رو به خلاصه‌های انسانی ترجیح دادن. یه مقاله دیگه، “Clinical Text Summarization: Adapting Large Language Models Can Outperform Human Experts”، که یه ماه بعد از دانشگاه Stanford منتشر شد، نتایج مشابهی داشت.
این مطالعه روش‌های تطبیق دامنه رو روی هشت LLM، با شش دیتاست و چهار کار خلاصه‌سازی بالینی اعمال کرد: گزارش‌های رادیولوژی، سؤالات بیمار، یادداشت‌های پیشرفت و گفت‌وگوی پزشک-بیمار. خلاصه‌های بهترین LLMهای تطبیق‌شده از نظر کامل بودن و درستی به خلاصه‌های انسانی برتری داشتن.
نتایج از نظر آماری تو تقریباً همه انواع کارها و ابعاد ارزیابی معنی‌دار بود. این نشون می‌ده وقتی LLMها برای حوزه مراقبت‌های بهداشتی تطبیق داده می‌شن، خلاصه‌هایی تولید می‌کنن که هم دقیق‌ترن هم واقعی‌تر. حالا سؤالم اینه: آیا خلاصه‌سازی واقعاً به‌عنوان یه مسئله باز مرده؟

جهت‌گیری‌های آینده: خلاصه‌سازی یه مشکل حل‌شده؟

از دید آکادمیک، وقتی یه مشکل “حل‌شده” تلقی می‌شه، قدم بعدی تجاری‌سازیشه. تو این مورد، یعنی ارائه راه‌حل‌های آماده و قابل‌اعتماد به صنعت مراقبت‌های بهداشتی. امروز برای هر چیزی نرم‌افزار هست، پس تصمیم‌گیرنده‌ها باید موقع انتخاب راه‌حل‌ها چندتا چیز رو چک کنن:

  • مدل‌ها و کد پایه باید در سطح تولید باشن، فعال نگه‌داری بشن و با مدل‌های جدید بهبود پیدا کنن.
  • باید برای انواع مختلف اسناد پزشکی و موارد استفاده تنظیم بشن، روی داده‌های واقعی اعتبارسنجی بشن، برای اجرا تو مقیاس بزرگ بهینه باشن و تو محیط‌های با رعایت بالا به‌صورت خصوصی کار کنن.
    ما همین حالا هم می‌بینیم که سازمان‌های مراقبت‌های بهداشتی مثل US Department of Veterans Affairs (VA) دارن اینو عملی می‌کنن. VA که به بیش از 9 میلیون کهنه‌سرباز و خانوادشون خدمات می‌ده، حجم عظیمی از سوابق پزشکی الکترونیکی داره که شامل متن‌های ساختاریافته و بی‌ساختاره و پر از ناسازگاری، ناکاملی و تکراره.
    برای کم کردن این بار، VA از LLMهای خاص مراقبت‌های بهداشتی برای کشف داده از یادداشت‌ها و داستان‌های بیمار تو مقیاس بزرگ استفاده کرده. وقتی از LLMهای عمومی برای خلاصه‌سازی یادداشت‌های پیشرفت و ترخیص خام استفاده کردن، دقت خیلی پایین بود. ولی با مدل‌های خلاصه‌سازی متون پزشکی خاص، دقت به‌طور چشمگیری بالا رفت.
    هنوز کار برای تطبیق LLMها با سناریوهای بالینی بیشتر، محیط‌های مراقبت و انواع اسناد باقی مونده. تو معیارهای ارزیابی هم جا برای بهتر شدن هست، چون خلاصه‌ها رو سخت می‌شه عینی تحلیل کرد. ولی می‌تونیم به خلاصه‌های بهتر از انسان که همین حالا در دسترسن و تو تولید استفاده می‌شن اعتماد کنیم. پس آیا خلاصه‌سازی مرده؟ نه هنوز—ولی روزهاش شماره‌ست!

منبع: iotforall

اشتراک‌ها:
دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *