Milad Moradi (میلاد مرادی)
Biomedical text summarization
خلاصهسازی تکسندی و چندسندی مبتنی بر مفهوم متون زیستپزشکی
در دهههای اخیر، با رشد روزافزون منابع اطلاعات متنی، خلاصهسازی خودکار متن تبدیل به ابزاری کارآمد برای مدیریت حجم وسیع سندهای متنی و دستیابی به اطلاعات مورد نظر شده است. پزشکان و پژوهشگران حوزه زیستپزشکی با استفاده از ابزارهای خلاصهسازی متن میتوانند در زمان و هزینه لازم جهت مدیریت منابع متعدد اطلاعات متنی صرفهجویی کنند. تا کنون روشهای مختلفی برای خلاصهسازی متن ارائه شده است که در این پژوهش چالشهای مربوط به کارهای پیشین را به دو دسته تقسیم میکنیم.
بخش اول چالشها مربوط به سیستمهای خلاصهسازی میباشد که از روشهای مبتنی بر کلمه و معیارهای عمومی مانند مکان جملات، طول جملات و غیره به منظور سنجش میزان سودمندی آنها استفاده میکنند. با در نظر گرفتن خصوصیات مربوط به متون حوزه زیستپزشکی، اینگونه به نظر میآید که معیارهای کارآمدتری باید توسط سیستمهای خلاصهساز زیستپزشکی به کار گرفته شود. به منظور پاسخگویی به این چالشها، سیستم خلاصهسازی را ارائه میکنیم که با تحلیل متن ورودی در سطح مفهومی و به کارگیری تکنیک استخراج مجموعه آیتم به شناسایی موضوعات اصلی متن میپردازد. در این سیستم، سودمندی جملات بر اساس معنای آنها و با توجه به پوشش جملات از موضوعات اصلی متن سنجیده میشود. نتایج به دست آمده از ارزیابی این سیستم خلاصهساز نشان میدهد که با به کارگیری استخراج مفاهیم و شناسایی موضوعات مهم متن به وسیله تکنیک استخراج مجموعه آیتم، میتوان به صورت کارآمدتری میزان سودمندی جملات را مورد سنجش قرار داد، که نتیجه آن افزایش کارایی در خلاصهسازی زیستپزشکی میباشد.
بخش دوم چالشها مربوط به سیستمهای خلاصهساز زیستپزشکی میباشد که بر اساس اطلاعات مربوط به تعداد تکرار مفاهیم استخراج شده از متن ورودی به انتخاب جملات سودمند میپردازند. به منظور پاسخگویی به چالشهای مرتبط با این خلاصهسازها، سیستم خلاصهساز دیگری را بر مبنای تحلیل مفهومی متن و استفاده از یک روش دستهبندی احتمالاتی ارائه میدهیم. این سیستم با پیروی از توزیع مفاهیم مهم در متن ورودی، احتمال سازگار بودن جملات با توزیع مفاهیم متن اصلی را تخمین میزند. به منظور شناسایی مفاهیم مهم در این سیستم خلاصهساز، چند روش انتخاب ویژگی را معرفی میکنیم و کارایی هر یک را مورد ارزیابی قرار میدهیم. نتایج به دست آمده از ارزیابی این سیستم خلاصه ساز نشان میدهد که با استفاده از یک روش کارآمد به منظور شناسایی مفاهیم مهم و تخمین احتمال سازگار بودن جملات با توزیع این مفاهیم، میتوان کارایی این دسته از سیستمهای خلاصهساز زیستپزشکی را بهبود داد.
آزمایشهای گستردهای به منظور ارزیابی کارایی این دو سیستم برای خلاصهسازی تکسندی و چندسندی به انجام رسیده است. نتایج آزمایشها نشان میدهد که در مقایسه با روشهای رقیب، استفاده از این دو سیستم باعث افزایش کارایی در خلاصهسازی زیستپزشکی میشود.