Ensieh Davoodijam - PhD (دکترانسیه داوودی جم)

Research topic: Graph-based biomedical text summarization

موضوع رساله دکترا:

خلاصه‌سازی مبتنی بر گراف متون زیست پزشکی

امروزه به دلیل گسترش اینترنت و پیشرفت فناوری اطلاعات و به‌کارگیری وسیع آن‌ها در حوزه زیست پزشکی، با حجم وسیعی از داده‌های متنی در این حوزه روبه‌رو هستیم. کاربران و پژوهشگران برای دستیابی و یافتن اطلاعات مفید و مناسب با حجم انبوه اطلاعات روبه‌رو بوده و نیاز به جستجو در پایگاه‌های بزرگی از داده‌های مرتبط و غیر مرتبط را دارند که علاوه بر صرف زمان، منجر به از دست دادن اطلاعات مفید نیز می‌شود. سیستم‌های خلاصه‌ساز به‌عنوان یک ‌راه‌حل برای تولید چکیده‌ای از اطلاعات استفاده می‌‌شوند. هدف از خلاصه‌سازی متن، تولید خودکار زیرمجموعه‌ای کوتاه از متن اصلی است که حاوی عمده اطلاعات و موضوعات مهم واصلی بوده و درعین‌حال فاقد افزونگی باشد.

روش‌های گوناگونی برای خلاصه‌سازی متون در دامنه‌های عمومی و پزشکی مطرح شده است. روش‌های خلاصه‌سازی عمومی عملکرد مطلوبی در دامنه‌ی پزشکی ندارند. زیرا متون پزشکی شامل مفاهیم خاص و پیچیده، مترادف‌ها، کلمات کوتاه شده و اختصارها است. در روش‌های گذشته از مفاهیمی چون یادگیری ماشین، مدل‌سازی گراف، بهینه‌سازی و روش‌های آماری در خلاصه‌سازی سیستم‌های پزشکی استفاده شده است. نتایج حاصل از به‌کارگیری روش‌های مختلف نشان داده است که استفاده از دانش زمینه‌ای و بهره‌گیری از مفاهیم تخصصی هر حوزه به تولید خلاصه‌هایی با دقت بیشتر کمک می‌کند. استفاده از گراف‌های ساده و نگاه تک‌بعدی به روابط موجود در متن از جمله نقاط ضعف روش‌های پیشین مبتنی بر گراف است. اولین گام به‌منظور بهبود روش‌های قبلی، ساخت گراف غنی‌تری باشد که تا حد امکان، روابط و ویژگی‌های مختلف و تأثیرگذار متن را پوشش دهد.

هدف از این پژوهش ارائه‌ی روشی برای خلاصه‌سازی متون پزشکی با استفاده از روشی مبتنی بر گراف چندلایه است. در مرحله‌ی نخست، با استفاده از مفاهیم معنایی و گراف‌های چندلایه، از متون داده‌شده گراف جامعی ایجادشده است. برای این کار از پایگاه داده UMLS در کنار ابزارهایی مانند MetaMap و OGER برای استخراج مفاهیم و SemRep برای شناسایی روابط استفاده شده است. درنهایت خروجی این مرحله یک گراف سه لایه؛ شامل لایه‌های 1) شباهت مبتنی بر کلمات، 2) شباهت مبتنی بر مفاهیم معنایی و 3) شباهت مبتنی بر هم رخدادی واژگان است.

روش‌های مختلفی برای خوشه‌بندی و امتیازدهی جملات بر اساس گراف‌های چندلایه بررسی شدند. در این مرحله، روش‌هایی انتخاب شدند که با حفظ روابط و اطلاعات استخراج ‌شده از متن، خروجی غنی‌تری را تولید کنند. در این مرحله از دو رویکرد مختلف خوشه‌بندی و رتبه‌بندی استفاده شده است. در رویکرد خوشه‌بندی، با بهره‌گیری از روش‌های خوشه‌بندی گراف‌های چندلایه، خوشه‌های مختلفی از جملات ساخته‌شده است. در ادامهِ با استفاده از هیوریستیک‌های مختلف، جملات خروجی از خوشه‌های متفاوت استخراج ‌شده است. در تعریف هیوریستیک‌ها تلاش شده است تا ویژگی‌های آماری به‌عنوان یک پارامتر در انتخاب جملات تأثیرگذار باشد. در رویکرد رتبه‌بندی جملات، گراف چندلایه ساخته‌ شده بدون نیاز به خوشه‌بندی و بر اساس روش‌های متکی به PageRank رتبه‌بندی شده و دو نسخه‌ی مختلف بر مبنای این رویکرد ارائه ‌شده است. در نسخه‌ی اول، جملاتی که در بالای لیست خروجی الگوریتم رتبه‌بندی هستند به‌عنوان متن خلاصه انتخاب می‌شوند. در نسخه‌ی دوم، طول جملات بر اساس تعداد مفاهیم محاسبه ‌شده و به‌عنوان یک پارامتر تأثیرگذار برای انتخاب جملات به روش پیشنهادی اضافه می‌شود.

برای ارزیابی روش پیشنهادی از رویکردها و ابزارهای رایج در این حوزه بهره گرفته ‌شده است. از معروف‌ترین روش‌ها، معیارهای استاندارد ROUGE و BertScore می‌باشند که در آن‌ها متن خلاصه تولید شده با چکیده‌ی مقاله به‌عنوان خلاصه‌ی طلایی مقایسه و امتیازدهی می‌شود. نتایج ارزیابی با روش‌ها و استفاده از هیوریستیک‌های مختلف و میزان بهبود گزارش‌شده است.

کلمات کليدی: خلاصهسازی متن، گراف‌های ناهمگن، خوشهبندی گراف‌های ناهمگن، رتبه‌بندی گراف‌های ناهمگن

Grade

Graduated

Ensieh Davoodijam - PhD (دکترانسیه داوودی جم)