TDM: Trajectory Data Minning

داده‌کاوی خط سیر

TDM: Trajectory Data Minning

داده‌کاوی خط سیر

معرفی چند مجموعه‌داده در موضوع داده‌کاوی خط سیر

در سیستم‌های هوشمند، الگوریتم‌های یادگیری با نظارت (supervised learning)‌ برای آموزش مدل‌ها نیازمند مجموعه داده‌هایی هستند که در آن‌ها خروجی‌های مورد انتظار برای ورودی‌ها مشخص شده است. این مجموعه‌داده‌ها که به نام مجموعه‌داده‌های آموزشی شناخته می‌شوند در کاربرد‌های مختلف یادگیری ماشین در دسترس هستند. واضح است که استفاده از داده‌های استاندارد که از دنیای واقعی جمع‌آوری شده‌اند، دقت و درجه‌ی اطمینان بالاتری را برای مدل مورد نظر فراهم می‌کنند. در عرصه‌ی داده‌کاوی خط سیر نیز که از الگوریتم‌های یادگیری ماشین متنوعی استفاده می‌شود، استفاده از مجموعه‌داده‌های آموزشی، متناسب با کاربرد، اهمیت بسیار زیادی دارد. مجموعه‌داده‌های خط‌سیر متنوع و مختلفی در دسترس پژوهشگران این عرصه قرار دارد که در این یادداشت به معرفی تعدادی از معروف‌ترین آن‌ها می‌پردازیم.  

 

مجموعه‌داده‌ی GeoLife

این مجموعهداده در پروژه‌ی GeoLife که یکی از پروژه‌های Microsoft Research Asia است جمع آوری شده. GeoLife یک سرویس شبکه‌ی اجتماعی مبتنی بر مکان (Location-based social-networking service) است. این شبکه‌ی اجتماعی مکان‌های مورد علاقه‌ی کاربران را شناسایی می‌کند. سپس بر اساس مکان مورد علاقه‌ی مشترک، یا بر اساس نزدیکی محل کار یا محل سکونت، کاربران را برای دوستی به یکدیگر معرفی می‌کند. این پروژه توسط Yu Zheng در سال ۲۰۰۷ شروع شده که یکی از پژوهشگران پر کار و معروف در موضوع داده‌کاوی خطسیر است. در عکس زیر نمایی از توزیع این داده‌ها در شهر پکن نشان داده شده است.




این مجموعه‌داده توسط ۱۲۸ کاربر ثبت شده که با روشن کردن GPS موبایل خود نسبت به ثبت مسیر حرکت خود اقدام می‌کردند. در مجموع در این مجموعه ۱۷۶۲۱ مسیر به طول ۱۲۹۲۹۵۱ کیلومتر و ۵۰۱۷۶ ساعت ثبت شده است. ۹۱/۵ درصد مسیرها به صورت فشرده ارائه شده. یعنی نمونه‌برداری آنها در بازه‌های زمانی کوتاه انجام شده است. هر ۱ الی ۵ ثانیه یا هر ۵ الی ۱۰ متر بر نقطه.

این مجموعه داده در۳۰ شهر چین و تعدادی از شهر‌های ایالات متحده و اروپا پراکنده است اما بیشتر این داده‌ها در پکن تولید شده‌اند. مسیرهای حرکت کاربران هم شامل مسیرهای روزانه (خانه به محل کار و برعکس)، و هم شامل فعالیت‌های تفریحی و ورزشی مثل خرید، سیاحت، پیاده‌روی و دوچرخه سواری است.

این دیتاست قابلیت استفاده در عرصه‌های پژوهشی مختلف را دارد. مانند موارد لیست زیر:

  • mobility pattern mining

  • user activity recognition

  • lacation-based social networks

  • location privacy

  • location recommendation

از بین ۱۲۸ کاربر در این پروژه، تعداد ۷۵ نفر از آنها مسیرهای خود را با عبارت‌های Walk, Bike, Bus, Car & taxi, Train, Airplane, Other برچسب‌گذاری کرده‌اند.

در این مجموعه‌داده برای هر کاربر یک فولدر در نظر گرفته شده است که تمام فایل‌های مربوط به مسیر‌های حرکت آن کاربر در همان فولدر ذخیره شده. هر خط‌سیر یا trajectory نیز در یک فایل ذخیره شده و هر فایل مربوط به یک خط‌سیر است. فرمت فایل‌هاPLT است که توضیحات بیشتر در مورد آن در راهنمای این دیتاست نوشته شده. برای جلوگیری از سردرگمی احتمالی منطقه‌ی زمانی، تاریخ و زمان بر مبنای گرینویچ (GMT) ثبت شده‌اند.

این مجموعه‌داده با حجم 1.7GB شامل ۱۸۲ پوشه، به همراه یک فایل pdf راهنما، از صفحه‌ی اختصاصی این پروژه در سایت مایکروسافت به صورت رایگان قابل دانلود است.

مجموعه‌داده‌ی T-Driv

T-drive، یکی دیگر از پروژه‌های Microsoft Research Asia، یک سرویس هوشمند جهت رانندگی است که بر اساس خط‌سیر‌های GPS تعداد زیادی تاکسی ساخته شده. این سیستم، به کاربر کمک میکند تا سریعترین مسیر رسیدن به مقصد را در یک زمان حرکت معین مشخص کند.

نمونه‌ی اولیه‌ی آن بر اساس مجموعه دادههای خط‌سیر دنیای واقعی ساخته شده که توسط ۳۰‌ هزار تاکسی در شهر پکن در مدت ۳ ماه تولید شده‌اند. بخشی از این داده‌ها که مربوط به یک سوم تاکسی‌های مذکور است توسط مایکروسافت در صفحه‌ی اختصاصی این پروژه در سایت مایکروسافت به صورت رایگان منتشر شده. این مجموعهداده، با حجم 788.8MB شامل ۱۰۳۵۷ فایل است. در هر فایل مسیر حرکت یک تاکسی ثبت شده است. همراه این مجموعه داده یک فایل pdf راهنما نیز ارائه شده است.

این پروژه با این نگرش و انگیزه راه‌اندازی شد که رانندگان تاکسی رانندگان باتجربه ای هستند و معمولاً براساس دانش خود می توانند سریعترین مسیر را برای اعزام مسافران به مقصد پیدا کنند. از طرفی، تاکسی های مجهز به GPS حسگرهای متحرکی هستند که جریان های ترافیکی را در سطح جادهها بررسی میکنند. بنابراین، مسیرهای تاکسی حاوی اطلاعات دانش بشر درباره رانندگان با تجربه و الگوهای ترافیکی است که می‌توان از آن برای تعیین سریع‌ترین مسیر رسیدن به مقصد استفاده کرد.

مجموعه داده‌ی Chicago

ساکنان شیکاگو و بازدیدکنندگان از آن در سال ۲۰۱۵ بیش از ۲۷ میلیون بار از تاکسی برای نقل و انتقال استفاده کرده و مجموعاً ۸۳ میلیون مایل سفر کردند. آن‌ها در مجموعه بیش از ۴۰۰ میلیون دلار برای این سفرها هزینه کردند.سفرهای تاکسی به آژانس نظارتی شهر شیکاگو گزارش شده است که در آن تدابیر امنیتی برای حفاظت از حریم خصوصی به دقت رعایت شده. البته با توجه به روند گزارش دادهها ، همه‌ی سفرها گزارش نمی شوند اما آژانس معتقد است که بیشترین موارد انجام شده است.

آژانس به عنوان بخشی از مأموریت خود‌، مجاز به جمع آوری اطلاعات مربوط به سواری تاکسی است. این کار را از طریق گزارش دورهای توسط دو پردازنده اصلی انجام میدهد که اعتقاد بر این است که بیشتر تاکسی های شیکاگو را پوشش می دهد. بر اساس این گزارشها، مجموعه‌ی داده‌های بیش از ۱۰۰ میلیون سواری تاکسی شیکاگو، که تا سال ۲۰۱۳ جمع‌آوری شده‌اند در وب‌سایت این آژانس ارائه شده است.

در این مجموعه‌داده هر ردیف، یک سفر مشخص تاکسی را توصیف می کند که در آن موارد زیر مشخص می‌شوند:

  • مشخصه‌ی تاکسی که سفر را فراهم کرده

  • زمان آغاز و پایان سفر

  • طول سفر هم در زمان و هم در مسافت

  • مناطق انجمنی شروع و پایان سفر - به علاوهی برگه سرشماری برای بسیاری از سفرها

  • مبلغ کرایه و سایر اجزای هزینه سفر

  • نوع پرداخت - مانند پول نقد یا کارت اعتباری.

  • شرکت تاکسیرانی

مجموع داده‌ی Porto

این مجموعه‌داده در شهر پورتو پرتغال جمع‌آوری شده است. این شهر مرکز یک منطقه‌ی متوسط شهری است (متشکل از ۱/۳ میلیون نفر). جایی که تقاضای مسافران از تعداد تاکسی های خالی در حال کار کمتر است و در نتیجه رقابت بزرگی بین شرکت ها وجود دارد. دادهها با استفاده از telematics نصب شده در هر یک از 441 وسیله‌ی نقلیه‌ی در حال کار از ناوگان شرکت، به دست آمد.در یک دوره‌ی ۹ ماهه بدون توقف بین آگوست ۲۰۱۱ و آوریل ۲۰۱۲ داده‌های مربوط به یک میلیون سفر تاکسی جمع‌آوری شدند.

در این مجموعه‌داده هر بخش داده شامل این اطلاعات است: یک شناسه‌ی منحصر به فرد برای هر سفر، روش مورد استفاده برای درخواست این سرویس، یک شناسه‌ی منحصر به فرد برای هر شماره‌ی تلفن که برای درخواست حداقل یک سرویس استفاده شده است، یک شناسه‌ی منحصر به فرد برای جایگاه تاکسی، یک شناسه‌ی منحصر به فرد برای راننده‌ی تاکسی، Timestamp شروع سفر، نوع روز (تعطیل رسمی، تعطیلات شناور، روز کاری، آخر هفته و غیره) و لیستی از مختصات GPS که مسیر حرکت تاکسی را مشخص می‌کند و هر ۱۵ ثانیه یک بار نمونه برداری شده است.

مجموعه داده‌ی Gowalla

Gowalla یک وب سایت شبکه‌ی اجتماعی مبتنی بر مکان در پروژه‌ی پلتفرم تجزیه و تحلیل شبکه‌ی دانشگاه استنفورد (Stanford Network Analysis Platform-SNAP) است.SNAP یک کتابخانه‌ی تجزیه و تحلیل شبکه و کاربرد کاوش نمودار است که با زبان برنامه‌نوسی ++C نوشته شده و به راحتی در شبکه های عظیم با صدها میلیون گره و میلیاردها یال مقیاسبندی میشود.

در Gowalla کاربران با ورود به سیستم، مکانهای حضور خود را ثبت کرده و با دیگران به اشتراک میگذارند. شبکه‌ی دوستی هدایت نشده و داده‌ها با استفاده از API عمومی آنها جمع آوری شده است. این داده‌ها شامل ۱۹۶۵۹۱ گره و ۹۵۰۳۲۷ یال است. در مجموع ۶۴۴۲۸۹۰ ورودبه سیستم (check-in) از این کاربران در بازه‌ی زمانی فوریه ۲۰۰۹ تا اکتبر ۲۰۱۰ جمع آوری شده است.

اطلاعات موجود شامل شناسه‌ی کاربر، زمان ورود به سیستم یا check-in، مختصات جغرافیایی و شناسه‌ی مکان است. نمونه‌ای از داده‌های این دیتاست در شکل زیر نشان داده شده است.



نظرات 0 + ارسال نظر
برای نمایش آواتار خود در این وبلاگ در سایت Gravatar.com ثبت نام کنید. (راهنما)
ایمیل شما بعد از ثبت نمایش داده نخواهد شد