(۳-۱)
که در این نمایشt یک مقدار حقیقی[۹۶] و x(t) یک سیگنال پیوسته هست. برای بدست آوردن یک سری باید در زمانهای گسسته از سیگنال نمونه گرفت. اگر بازه ی نمونهگیری، در نمونهگیری یکنواخت[۹۷]، باشد، خواهیم داشت:
(۳-۲)
از جمله پردازشهای ممکن روی سریهای زمانی، علاوه بر دستهبندی، توصیف[۹۸] و تبدیل[۹۹] پیش بینی مقادیر آینده x[t] است. به منظور پیشبینی آینده با برگشت به عقب از زمان t، سری زمانی را خواهیمداشت که میخواهیم x را در زمان های آینده تخمین[۱۰۰] بزنیم:
(۳-۳)
در این نشانهگذاری به s، افق پیش بینی [۱۰۱] میگویند. اگر بخواهیم فقط یک نمونه زمانی در آینده را پیشبینی کنیم s را برابر ۱ در نظر میگیریم. در واقع این مبحث، یک مسئله تقریب تابع[۱۰۲] هست که برای حل آن باید ابتدا یک مدل در نظرگرفته وآن را روی همه مقادیرگذاشته x[ti] آموزش دهیم و سپس مدل را برای پیشبینی x[t+s] اجرا کنیم. به عبارتی میتوان پیشبینی را به دید یک نگاشت [۱۰۳]یا تابع در نظرگرفت که x ورودی و y خروجی (یک مقدار پیوسته یا با ترتیب) میباشد که قرار است این تابع و رابطه x و y را یاد بگیریم.
از میان روشهای متعدد گسترش یافته در این حوزه مانند روشهای کالمن فیلترینگ [۴]، [۳]، متدهای آماری غیرپارامتریک [۵]، [۶]، روشهای یادگیری متوالی [۷] مدلهای شبکهعصبی [۸-۱۲] و آنالیزهای سریهای زمانی[۱۳-۱۷] از پرکاربردترین متدهای مورد استفاده به حساب میآیند. در نگاهی کلی، (۱) روشهای آنالیز سریهای زمانی بر روی ویژگیهای سری زمانی بودن دادهها، تکیه دارند و غالبا برای این فرض استوارند که دادههای ثبت شده در طی زمانهای مختلف نسبت به هم همبستگی[۱۰۴] دارند. (۲) الگوریتمهای شبکه عصبی مصنوعی نیز متدهای یادگیری باناظر[۱۰۵] هستند که با بکارگیری مدلهای مختلف همچون RBF، TDNN،… و تنظیم انواع پارامترها شامل تعداد لایهها و نرونها، سعی در حل مسئله پیشبینی ترافیک دارد. علاوه بر این، نظر به گرایش قابل ملاحظهای از تحقیقات اخیر به سمت (۳) روشهای داده کاوی، در قسمت بعدی به بررسی آن ها میپردازیم. در واقع تکنیک های داده کاوی قابلیت استخراج اطلاعات از پایگاه دادههای بزرگ همچون دادههای ترافیکی را دارند. در ادامه به توضیح و بررسی هرکدام از این روشها میپردازیم.
روشهای مبتنی بر آنالیزهای سری زمانی:
نظر به ارائه دادههای ترافیکی در غالب دادههای سری زمانی، آنالیزهای سری زمانی بطور گستردهای مورد استفادهی این حوزه قرار گرفتند. در واقع آنالیزهای سری زمانی در جهت استخراج آمارهای معنادار و دیگر خصوصیات از داده سری زمانی مورد استفاده قرار میگیرند. همچنین فرض اصلی آنالیزهای سری زمانی، به همبستگی دادههای جمع آوری شده در طول زمان، استوار است .[۲۲] این موضوع از دهه ۹۰ در مبحث پیش بینی کوتاه مدت ترافیک اهمیت زیادی پیدا کرده است. بسیاری از روشهای عضو این دسته، مبتنی بر مدل معروف” میانگین متحرک خودگردان یکپارچه[۱۰۶] (ARIMA) هستند که با توجه به پرکاربرد بودن آن در بسیاری از تحقیقات همچون [۱۳] ، [۱۴]، [۱۵] ،[۱۷] در ابتدا مروری بر مفاهیم آن خواهیم داشت.
مدلهای ARIMA در سریهای زمانی برای توصیف مدل یا پیش بینی وضعیت آینده به کار گرفته میشوند. این مدل سه پارامتر مهم q,d,p دارند که به ترتیب درجه خودگردانی[۱۰۷]، یکپارچگی[۱۰۸] و میانگین متحرک[۱۰۹] هستند. صفر بودن هرکدام از این پارامترها، نشان دهندهی مدلهای Auto-Regression(AR) که همان ARIMA(1,0,0)، مدلهای Integrated(I) یا ARIMA(0,1,0) و مدلهای Moving Average(MA) که برابر با ARIMA(0,0,1) میباشد. بطور کلی، مدلهای ARIMA در مواردی که دادهی مورد بررسی غیر ایستا[۱۱۰] داشته باشند و روند آن ها قابل تشخیص باشد، بکار گرفته میشوند. اگر xt سری زمانی داده شده باشد که t یک عدد صحیح شاخص و xt عدد حقیقی باشد، پیش بینی با ARIMA را میتوان ترکیبی از مدلهای wide-sense stationary بصورت زیر در نظر گرفت:
(۳-۴)
( ۱- ) Xt = ( ۱+ ) εt
که در آن پارامتر L عملگر تأخیر و مربوط به بخش خودگران مدل و پارامتر قسمت میانگین متحرک هستند. همچنین tε نمایانگر خطای مدل میباشد و در حالت ایستا[۱۱۱] بصورت:
(۳-۵)
در نظر گرفت. بدین ترتیب میتوان از تکنیکهای استاندارد پیش بینی جهت فرموله کردن فرایند Yt استفاده کرد و داده در زمان t یعنی xt را تخمین زد. [۳۶]
در سال ۱۹۹۵، یک مدل سریزمانی با بهره گرفتن از روش Box Jenkin، ]۱۵[،ارائه شد که در واقع با بکارگیری مدلهای ARIMA به دنبال پیدا کردن تطابق سری زمانی با دادههای بیشتر بودد. این تحقیق با هدف پیش بینی نرخ ترافیک[۱۱۲] آینده و بر روی پایگاه دادهی نرخ ترافیکی از ۵ شریان اصلی شهر انجام شد. این روش قادر بود تا تنها با نگهداری آخرین خطای تخمینی و نمونه جریان ترافیکی جاری، مدلسازی را انجام دهد که این مطلب از جمله ویژگیهای مطلوب آن محسوب میشد [۳۵].
در راستای بهبود کیفیت پیشبینی در روشهای مبتنی بر مدلهای ARIMA، در سال ۱۹۹۹ مدل ARIMA Subset ارائه شد که تنها تفاوت آن با مدل ARIMA استفاده از تعداد کمتر ضرایب غیرصفر در بردار ضرایب بود. این مدل با سه مدل دیگر با نامهای مخفف FAR[113]، [۱۱۴]SAR و Full ARIMA مقایسه و بر روی دادههای جمع آوری شده در طول ۷ ساعت از روز در بازههای ۵ دقیقهای اعمال شد. هدف این مدلها پیش بینی نرخ ترافیکی مربوط به یک گام جلوتر بود و به منظور ارزیابی آنها دو تست نویز سفید[۱۱۵] نیز اعمال شد. نتایج نشان داد که از میان دیگر مدلهای سری زمانی، Subset ARIMA دقیقترین نتیجه و بالاترین کارایی را خواهد داشت[۱۳].
علاوه بر این، اگر مدلهای ARIMA برای واریانس خطا در نظر گرفته شود، مدل حاصل GARCH[116] ارائه شده توسط [۳۷] خواهد بود. در سال ۲۰۰۵، Kamarianakis و همکارانش مدل GARCH را با هدف ارائه خاصیت داینامیک جریانهای ترافیکی به کار گرفتند. در واقع نظر به تغییرات واریانس جریانهای ترافیکی در طول زمان، هدف این مطالعه ارائه بازههای اطمینان بهتر، در خصوص پیشبینی بود. این تحقیق به روی دادههای جمع آوری شده توسط حلقههای تشخیص وسائل نقلیه که در خیابانهای اصلی منتهی به مرکز شهر آتن در یونان قرار داده شده بودند، انجام شد. در واقع با توجه به کارآیی مناسب مدل ARIMA در خصوص پیشبینی کوتاهمدت و پریودیک، این مدل با مدل GARCH ترکیب شد تا به کارآیی بالاتری دست یابد [۱۶].