خلاصههای تولیدشده توسط Generative AI (هوش مصنوعی مولد) میتونن کلی تو وقت صرفهجویی کنن. ما دیدیم که این فناوری چطور به نوشتن پیشنویس ایمیل، مقالات و تحقیق درباره موضوعات عمیق کمک کرده. نتایجش، حتی اگه نیاز به بررسی داشته باشه، دستکم یه نقطه شروع خوب بهمون میده. تو حوزه Healthcare (مراقبتهای بهداشتی)، این برای حرفهایهای پزشکی پرمشغله خیلی ارزشمنده.
ولی برای کاربرهای مراقبتهای بهداشتی، قضیه فراتر از یه ایمیل سادهست که نیاز به ویرایش داره. اگه یه خلاصه تو تولید محتوای دقیق یا مناسب شکست بخوره، کاربر عادی میتونه درخواستش رو اصلاح کنه و ادامه بده. اما یه پزشک ممکنه کیفیت مراقبت رو به خطر بندازه و عواقبش زندگی آدما رو تغییر بده. بیاید ببینیم چطور AI تو این زمینه داره بازی رو عوض میکنه.
ارزیابی خلاصههای تولیدشده توسط AI: یافتههای شگفتانگیز
تو مقاله اخیر “Summarization is (almost) dead” (خلاصهسازی تقریباً مرده)، نویسندهها مستقیم سراغ این موضوع رفتن و عملکرد بدون آموزش (Zero-Shot) Large Language Models (LLMs) رو تو پنج کار خلاصهسازی متنی بررسی کردن: اخبار تکمنبعی، اخبار چندمنبعی، گفتوگو، کد نرمافزاری و ترجمه انگلیسی به چینی. دو یافته اصلی از این تحقیق بیرون اومد که شاید غافلگیرتون کنه.
اول اینکه، برخلاف هیاهو درباره Misinformation (اطلاعات نادرست) تولیدشده توسط AI، خلاصههای LLM کمتر از خلاصههای انسانی Hallucination (توهم) دارن. LLMها تو دقت واقعی هم از انسانها بهتر عمل میکنن. درواقع، خلاصههای مرجع نوشتهشده توسط انسان، به اندازه یا بیشتر از خلاصههای LLM توهم دارن.
برای فهم بهتر، نویسندهها خطاهای واقعی رو به دو دسته تقسیم کردن: Intrinsic Hallucinations (توهمهای درونی) و Extrinsic Hallucinations (توهمهای بیرونی). توهم درونی یعنی ناسازگاری بین اطلاعات واقعی خلاصه و متن اصلی. توهم بیرونی وقتیه که خلاصه اطلاعاتی رو میگه که تو متن اصلی نیست.
با تحلیل این توهمها، مشخص شد تو کارهایی که خلاصههای انسانی دقت واقعی کمی داشتن، توهمهای بیرونی خیلی بیشتر بود. به عبارت دیگه، انسانها بیشتر تمایل دارن تو خلاصههاشون چیزایی رو بگن که تو متن اصلی نبوده.
چرا تو مراقبتهای بهداشتی خلاصههای AI ترجیح داده میشن؟
نویسندهها 100 مقاله مرتبط با خلاصهسازی رو که تو سه سال گذشته تو ژورنالهای علمی مختلف منتشر شده بودن بررسی کردن. تقریباً 70 درصد این مقالهها یه رویکرد خلاصهسازی پیشنهاد داده بودن و اثربخشیش رو روی دیتاستهای استاندارد آزمایش کرده بودن. با توجه به عملکرد بهتر LLMها نسبت به این رویکردهای تنظیمشده، نویسندهها یه سؤال منطقی مطرح کردن: آیا خلاصهسازی متنی هنوز یه مسئله باز برای تحقیق آکادمیکه؟
یافته بعدی شاید مهر تأیید بزنه. پزشکا خلاصههای متون بالینی تولیدشده توسط LLM رو به خلاصههای انسانی ترجیح دادن. یه مقاله دیگه، “Clinical Text Summarization: Adapting Large Language Models Can Outperform Human Experts”، که یه ماه بعد از دانشگاه Stanford منتشر شد، نتایج مشابهی داشت.
این مطالعه روشهای تطبیق دامنه رو روی هشت LLM، با شش دیتاست و چهار کار خلاصهسازی بالینی اعمال کرد: گزارشهای رادیولوژی، سؤالات بیمار، یادداشتهای پیشرفت و گفتوگوی پزشک-بیمار. خلاصههای بهترین LLMهای تطبیقشده از نظر کامل بودن و درستی به خلاصههای انسانی برتری داشتن.
نتایج از نظر آماری تو تقریباً همه انواع کارها و ابعاد ارزیابی معنیدار بود. این نشون میده وقتی LLMها برای حوزه مراقبتهای بهداشتی تطبیق داده میشن، خلاصههایی تولید میکنن که هم دقیقترن هم واقعیتر. حالا سؤالم اینه: آیا خلاصهسازی واقعاً بهعنوان یه مسئله باز مرده؟
جهتگیریهای آینده: خلاصهسازی یه مشکل حلشده؟
از دید آکادمیک، وقتی یه مشکل “حلشده” تلقی میشه، قدم بعدی تجاریسازیشه. تو این مورد، یعنی ارائه راهحلهای آماده و قابلاعتماد به صنعت مراقبتهای بهداشتی. امروز برای هر چیزی نرمافزار هست، پس تصمیمگیرندهها باید موقع انتخاب راهحلها چندتا چیز رو چک کنن:
- مدلها و کد پایه باید در سطح تولید باشن، فعال نگهداری بشن و با مدلهای جدید بهبود پیدا کنن.
- باید برای انواع مختلف اسناد پزشکی و موارد استفاده تنظیم بشن، روی دادههای واقعی اعتبارسنجی بشن، برای اجرا تو مقیاس بزرگ بهینه باشن و تو محیطهای با رعایت بالا بهصورت خصوصی کار کنن.
ما همین حالا هم میبینیم که سازمانهای مراقبتهای بهداشتی مثل US Department of Veterans Affairs (VA) دارن اینو عملی میکنن. VA که به بیش از 9 میلیون کهنهسرباز و خانوادشون خدمات میده، حجم عظیمی از سوابق پزشکی الکترونیکی داره که شامل متنهای ساختاریافته و بیساختاره و پر از ناسازگاری، ناکاملی و تکراره.
برای کم کردن این بار، VA از LLMهای خاص مراقبتهای بهداشتی برای کشف داده از یادداشتها و داستانهای بیمار تو مقیاس بزرگ استفاده کرده. وقتی از LLMهای عمومی برای خلاصهسازی یادداشتهای پیشرفت و ترخیص خام استفاده کردن، دقت خیلی پایین بود. ولی با مدلهای خلاصهسازی متون پزشکی خاص، دقت بهطور چشمگیری بالا رفت.
هنوز کار برای تطبیق LLMها با سناریوهای بالینی بیشتر، محیطهای مراقبت و انواع اسناد باقی مونده. تو معیارهای ارزیابی هم جا برای بهتر شدن هست، چون خلاصهها رو سخت میشه عینی تحلیل کرد. ولی میتونیم به خلاصههای بهتر از انسان که همین حالا در دسترسن و تو تولید استفاده میشن اعتماد کنیم. پس آیا خلاصهسازی مرده؟ نه هنوز—ولی روزهاش شمارهست!
منبع: iotforall