For Better Performance Please Use Chrome or Firefox Web Browser

Milad Moradi (میلاد مرادی)

Biomedical text summarization

خلاصه‌سازی تک‌سندی و چندسندی مبتنی بر مفهوم متون زیست‌پزشکی

در دهه‌های اخیر، با رشد روزافزون منابع اطلاعات متنی، خلاصه‌سازی خودکار متن تبدیل به ابزاری کارآمد برای مدیریت حجم وسیع سندهای متنی و دستیابی به اطلاعات مورد نظر شده است. پزشکان و پژوهشگران حوزه زیست‌پزشکی با استفاده از ابزارهای خلاصه‌سازی متن می‌توانند در زمان و هزینه لازم جهت مدیریت منابع متعدد اطلاعات متنی صرفه‌جویی کنند. تا کنون روش‌های مختلفی برای خلاصه‌سازی متن ارائه شده است که در این پژوهش چالش‌های مربوط به کارهای پیشین را به دو دسته تقسیم می‌کنیم.
بخش اول چالش‌ها مربوط به سیستم‌های خلاصه‌سازی می‌باشد که از روش‌های مبتنی بر کلمه و معیارهای عمومی مانند مکان جملات، طول جملات و غیره به منظور سنجش میزان سودمندی آنها استفاده میکنند. با در نظر گرفتن خصوصیات مربوط به متون حوزه زیست‌پزشکی، اینگونه به نظر می‌آید که معیارهای کارآمدتری باید توسط سیستم‌های خلاصه‌ساز زیست‌پزشکی به کار گرفته شود. به منظور پاسخگویی به این چالش‌ها، سیستم خلاصه‌سازی را ارائه می‌کنیم که با تحلیل متن ورودی در سطح مفهومی و به کارگیری تکنیک استخراج مجموعه آیتم به شناسایی موضوعات اصلی متن می‌پردازد. در این سیستم، سودمندی جملات بر اساس معنای آنها و با توجه به پوشش جملات از موضوعات اصلی متن سنجیده می‌شود. نتایج به دست آمده از ارزیابی این سیستم خلاصه‌ساز نشان می‌دهد که با به کارگیری استخراج مفاهیم و شناسایی موضوعات مهم متن به وسیله تکنیک استخراج مجموعه آیتم، می‌توان به صورت کارآمدتری میزان سودمندی جملات را مورد سنجش قرار داد، که نتیجه آن افزایش کارایی در خلاصه‌سازی زیست‌پزشکی می‌باشد.
بخش دوم چالش‌ها مربوط به سیستم‌های خلاصه‌ساز زیست‌پزشکی می‌باشد که بر اساس اطلاعات مربوط به تعداد تکرار مفاهیم استخراج شده از متن ورودی به انتخاب جملات سودمند می‌پردازند. به منظور پاسخگویی به چالش‌های مرتبط با این خلاصه‌سازها، سیستم خلاصه‌ساز دیگری را بر مبنای تحلیل مفهومی متن و استفاده از یک روش دسته‌بندی احتمالاتی ارائه می‌دهیم. این سیستم با پیروی از توزیع مفاهیم مهم در متن ورودی، احتمال سازگار بودن جملات با توزیع مفاهیم متن اصلی را تخمین می‌زند. به منظور شناسایی مفاهیم مهم در این سیستم خلاصه‌ساز، چند روش انتخاب ویژگی را معرفی می‌کنیم و کارایی هر یک را مورد ارزیابی قرار می‌دهیم. نتایج به دست آمده از ارزیابی این سیستم خلاصه ساز نشان می‌دهد که با استفاده از یک روش کارآمد به منظور شناسایی مفاهیم مهم و تخمین احتمال سازگار بودن جملات با توزیع این مفاهیم، می‌توان کارایی این دسته از سیستم‌های خلاصه‌ساز زیست‌پزشکی را بهبود داد.
آزمایش‌های گسترده‌ای به منظور ارزیابی کارایی این دو سیستم برای خلاصه‌سازی تک‌سندی و چندسندی به انجام رسیده است. نتایج آزمایش‌ها نشان می‌دهد که در مقایسه با روش‌های رقیب، استفاده از این دو سیستم باعث افزایش کارایی در خلاصه‌سازی زیست‌پزشکی می‌شود.

 

 

Grade: 
Graduated
Website: 
http://dkr.iut.ac.ir

تحت نظارت وف بومی