این سایت برای ie9 طراحی نشده است

لطفا دستگاه خود را بچرخانید.

خلاصه ساز متن فارسی با استفاده از روابط معنایی و آماری

۸ آذر ۱۳۹۶ مینا سمیع زاده
بدون دیدگاه

الگوریتم textRank یک ابزار قدرتمند در خلاصه‌سازی متون بوده و تغییر یافته‎ی الگوریتم PageRank (مبنای الگوریتم جستجوی گوگل) است. در این الگوریتم هر جمله به عنوان یک گره در گراف درنظر گرفته می‎شود. یال‌های این گراف میزان شباهت جملات را مشخص می‌کنند و گره‎ای (جمله‌ای) امتیاز بیشتری دارد که دارای ارتباط بیشتر با دیگر گره‎ها باشد. در این الگوریتم امتیاز ارتباطات بر اساس تعداد کلمات مشترک میان هر جفت جمله سنجیده می‌شود. مشکل این روش در نظر نگرفتن کلمات مشابه از نظر معنایی است به بیانی دیگر ممکن است دو کلمه مشابه از نظر معنایی با دو لغت متفاوت بیان شوند و با این الگوریتم که تنها به نحو کلمات توجه می‎کند، شباهت میان آن‌ها نادیده گرفته می‌شود. برای حل این مشکل و اضافه کردن بحث شباهت معنایی به خلاصه ساز، از الگوریتم doc2vec استفاده شده است. doc2vec با استفاده از یک شبکه‌ی عصبی بدون ناظر از هر جمله، پاراگراف و یا داکیومنت (در این‌جا جمله) یک بردار می‌سازد و تطبیق یافته‌ای بر الگوریتم word2vec که در آن برای هر کلمه یک بردار ساخته می‎شود، است. با استفاده از بردارهای ساخته شده توسط الگوریتم doc2vec می‌توان امتیاز شباهت میان دو جمله را از نظر معنایی یافت. برای این کار می‎بایست متن مناسب و با حجم زیادی را به عنوان مجموعه‌ی آموزش، برای آموزش و به‌دست آوردن بردار‌ها فراهم ساخت و به عنوان ورودی به شبکه‌ی عصبی داد. پس از آموزش از مدل ساخته ‎شده می‌توان برای بررسی شباهت جملات جدید استفاده کرد. در این‌جا از الگوریتم doc2vec پیاده‌سازی شده در کتابخانه Gensim پایتون برای آموزش مدل استفاده شده است. در پیاده سازی این خلاصه‎ساز جدید برای وزن‌دهی یال‌های گراف در الگوریتم textRank از امتیاز شباهت دو جمله در مدل doc2vec ساخته شده، استفاده می‎شود. و در ادامه همانند textRank گره‌ی پراهمیت به عنوان پاسخ برگردانده می‎شود. کار انجام شده تغییر یافته‌ی الگوریتم textRank پیاده‎سازی شده در کتابخانه‎ی Gensim پایتون است که با تغییراتی و استفاده از کتابخانه هضم با زبان فارسی سازگار شده است.

در این خلاصه ساز می‌توان درصد خلاصه سازی متن ورودی همچنین تعداد کلمات متن خلاصه شده به عنوان خروجی را نیز تعیین کرد.

برای دیدن جزئیات پروژه به آدرس مراجعه کنید.

برچسب ها :