دسته‌بندی متون بر اساس محتوا با روشهای پیش پردازشی
کد مقاله : 1155-NAEC
نویسندگان
Ahad Soltanisarvestani *1، Ghasem sahraeian2
1دانشگاه آزاد اسلامی واحد زرقان
2گروه مهندسی کامپیوتر، واحد زرقان، دانشگاه آزاد اسلامی، زرقان، ایران
چکیده مقاله
امروزه فرآیند بررسی مجموعه‌های زیادی از منابع نوشته شده برای تولید اطلاعات جدید و تبدیل متن بدون ساختار به داده‌های دارای ساختار به منظور استفاده در تجزیه و تحلیل بیشتر و سریعتر، بسیار گسترش یافته است. متن‌کاوی شناسایی حقایق، روابط و ضوابطی است که در توده‌ی داده‌های متون با تعداد بسیار بزرگ ذخیره می‌شود. استخراج و تبدیل حقایق به داده‌های ساخت‌یافته، به‌منظور تجزیه و تحلیل متون به صورت مصور(به عنوان مثال از طریق جداول و نمودارها) و یا ادغام با داده‌های ساختاری برای ذخیره در پایگاه‌های داده یا انبار داده‌ها انجام می‌پذیرد، که این امر توسط سیستم‌های یادگیری ماشین امکان‌پذیر می‌باشد. در این پژوهش از طریق متن‌کاوی و به حل مسئله دسته‌بندی در اسناد متنی پرداخته شده است. در این پژوهش علاوه بر استفاده از ماشین بردار پشتیبان ، به منظور کسب نتایج بهتر و با دقت بالاتر، از گروه‌بندی دسته‌بندها نیز استفاده شده است. برای استفاده از چند مدل برای دسته‌بندی و استخراج مفهوم از متون، نیاز به چند دسته‌بند می باشد که از میان دسته‌بندها، دسته-بندهایی انتخاب شده است که سبک و کارا باشند تا استفاده از چند دسته‌بند، بار زمانی و محاسباتی الگوریتم پیشنهادی را افزایش ندهد. نتایج حاصل از این طرح نشان دهنده کارایی و دقت در دسته‌بندی الگوریتم پیشنهادی است.
کلیدواژه ها
دسته‌بندی متون، کاهش نویز، کاهش بعد، ، ترکیب گروهی دسته‌بندها
وضعیت: پذیرفته شده