myself
ought
our
ours

 

a
about
above
after
again
against
all
am
an
and
any
are
as
at
be
because
been
before
being
below
between
both
but
by
cannot
could
did
do

 

 

 

جملاتی که حاوی کلمات منفی ساز هستند به این طریق اصلاح می‌شوند، که دو کلمه قبل از کلمه منفی‌ساز و دوکلمه بعد از آن را با افزودن NOT به فرم منفی قراردادی تبدیل می‌کنیم، در هر صورت اگر به علامت نقطه‌گذاری رسیدیم منفی‌سازی را متوقف می‌کنیم و در نهایت کلمه منفی‌ساز را از جمله حذف می‌کنیم. مثلا جمله “I like hamid, but I don’t like javad.” پس از حذف Stopword‌ها به فرم “Like hamid, do not like javad” تبدیل می‌شود. در مرحله بعد دو کلمه قبل و دو کلمه بعد از کلمه منفی‌ساز به فرم “Like hamid, do_NOT not Like_NOT javad_NOT.” تبدیل می‌شود. در گام آخر نیز کلمه منفی ساز از جمله حذف می‌شود، بنابراین جمله مذکور به شکل “Like hamid, do_NOT Like_NOT javad_NOT“ تبدیل می‌شود، قبل از کلمه منفی‌ساز Not کلمه do و یک کاما وجود دارد. لذا با رسیدن به اولین علامت نقطه‌گذاری(کاما در این مثال) منفی‌سازی را متوقف می‌کنیم، و تنها یک کلمه‌ی do قبل از not به فرمت منفی قراردادی تبدیل می‌شوند، ولی بعد از not دو کلمه به فرمت منفی قراردادی تبدیل می‌شوند. اصلاح جملات حاوی کلمات منفی ساز به این دلیل انجام می‌شود که در مدل Unigram اسناد بتوانیم معنای منفی جمله را وارد کنیم. خروجی این مرحله جملات اصلاح شده متن هستند؛ جملاتی که برخی کلمات غیرمفید آنها حذف شده است و ساختار جملات حاوی کلمات منفی ساز نیز با ساختار قرار دادی جایگزین شده است. اسناد برای پردازش به مرحله بعدی هدایت می‌شود.
دانلود پایان نامه - مقاله - پروژه
در ادامه فرایند پیش‌پردازش نیز همه اسناد به توکن‌های تشکیل دهنده خود تجزیه می‌شوند. در ادامه بیشتر با توکن‌های هر سند کار خواهیم کرد و دیگر کمتر به متن خام و بدون پیش پردازش نیاز خواهیم داشت.
برچسب گذاری ادات سخن
در این مرحله با بهره گرفتن از کتابخانه پردازش زبان طبیعی استنفورد، برچسب ادات سخن هر کلمه را مشخص می‌کنیم. استفاده از برچسب ادات سخن برای رفع ابهام کلمات با چند معنای متفاوت بسیار مفید خواهد بود و تا حدی قادر است این ابهام را رفع کند. شکل ۳-۴ مثالی از عملکرد برچسب گذار استنفورد را مشخص می‌کند. همانطور که در شکل ۳-۴ دیده می‌شود کلمه Like در متن با دو معنای متفاوتش به کار رفته است. معنای اول “علاقمند بودن” که می‌تواند به فرایند تحلیل احساس کمک کند، معنای دوم “مانند"، که بیشتر نقش یک Stopword را دارد و کمکی به فرایند تحلیل احساس نمی‌کند. در این مرحله متون پیش پردازش شده با بهره گرفتن از کتابخانه استنفورد برچسب گذاری می‌شوند و سپس هر سند به مجموعه توکن‌/نقش سخن توکن تبدیل می‌شود.
POS Tagger
I/PRP like/VBP you/PRP ./. You/PRP are/VBP like/IN my/PRP$ mother/NN ./.
I like you. You are like my mother.
شکل۳-۴ برچسب گذار استنفورد: در این شکل یک مثال از عملکرد POS Tagger استنفورد را می‌بینیم، خروجی به این شکل تولید می‌شود که به هر کلمه POS آن اضافه شده و کلمه-POS مطابق شکل تولید می‌شود.
استخراج بردار خصیصه‌ها و ترکیب خصیصه‌ها
این مرحله مهمترین مرحله از فرایند تحلیل احساس می‌باشد. باید مجموعه خصیصه‌هایی را انتخاب کنیم که به خوبی اسناد موجود در مجموعه داده‌ها را مدل‌سازی کنند. همچنین این مدل‌های ایجاد شده سودمندترین اطلاعات برای تحلیل احساس را در خود داشته باشند. توجه داشته باشیم مدل‌های مناسب زیادی برای یک سند می‌توان ارائه داد ولی مهمترین مسائله که باید مورد توجه قرار گیرد، این است که کدام یک از این مدل‌ها برای فرایند تحلیل احساس مفید می‌باشد. مثلا عباسی و همکارانش برای ارائه مدل‌ مناسب از هر سند مجموعه بسیار کاملی از خصیصه‌ها را بکار گرفتند [۱]. این مجموعه خصیصه‌ها در جدول ۲-۲ بیان شده‌اند. استفاده از این مجموعه کامل از خصیصه‌ها که بسیاری از آنها با یکدیگر همپوشانی دارند باعث افزایش غیر قابل توجیه تعداد خصیصه‌ها خواهد شد، عباسی و همکارانش برای حل این مشکل از الگوریتم انتخاب خصیصه شبکه ارتباطی خصیصه‌ها استفاده کرده‌اند، این الگوریتم پیچیدگی زمانی بالایی دارد؛ علاوه بر آن افزایش قابل توجهی در دقت طبقه‌بندی نیز حاصل نشده است. میتال و آگراوال در سال ۲۰۱۳ مدلی ارائه داده‌اند، آنها در این مدل تنها ترکیبی از خصیصه‌های unigram و bigram را استفاده کرده‌اند [۵]. آنها از الگوریتم انتخاب حداقل افزونگی – حداکثر وابستگی استفاده کردند؛ این الگوریتم علارغم اینکه پیچیدگی زمانی کمتری نسبت به شبکه ارتباطی خصیصه(ارائه شده در [۱] ) دارد ولی نسبت به سایر الگوریتم‌های تک متغیره بیان شده در بخش‌های قبل پیچیدگی زمانی بیشتری دارد.

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...