در سیستمهای هوشمند، الگوریتمهای یادگیری با نظارت (supervised learning) برای آموزش مدلها نیازمند مجموعه دادههایی هستند که در آنها خروجیهای مورد انتظار برای ورودیها مشخص شده است. این مجموعهدادهها که به نام مجموعهدادههای آموزشی شناخته میشوند در کاربردهای مختلف یادگیری ماشین در دسترس هستند. واضح است که استفاده از دادههای استاندارد که از دنیای واقعی جمعآوری شدهاند، دقت و درجهی اطمینان بالاتری را برای مدل مورد نظر فراهم میکنند. در عرصهی دادهکاوی خط سیر نیز که از الگوریتمهای یادگیری ماشین متنوعی استفاده میشود، استفاده از مجموعهدادههای آموزشی، متناسب با کاربرد، اهمیت بسیار زیادی دارد. مجموعهدادههای خطسیر متنوع و مختلفی در دسترس پژوهشگران این عرصه قرار دارد که در این یادداشت به معرفی تعدادی از معروفترین آنها میپردازیم.
مجموعهدادهی GeoLife
این مجموعهداده در پروژهی GeoLife که یکی از پروژههای Microsoft Research Asia است جمع آوری شده. GeoLife یک سرویس شبکهی اجتماعی مبتنی بر مکان (Location-based social-networking service) است. این شبکهی اجتماعی مکانهای مورد علاقهی کاربران را شناسایی میکند. سپس بر اساس مکان مورد علاقهی مشترک، یا بر اساس نزدیکی محل کار یا محل سکونت، کاربران را برای دوستی به یکدیگر معرفی میکند. این پروژه توسط Yu Zheng در سال ۲۰۰۷ شروع شده که یکی از پژوهشگران پر کار و معروف در موضوع دادهکاوی خطسیر است. در عکس زیر نمایی از توزیع این دادهها در شهر پکن نشان داده شده است.
این مجموعهداده توسط ۱۲۸ کاربر ثبت شده که با روشن کردن GPS موبایل خود نسبت به ثبت مسیر حرکت خود اقدام میکردند. در مجموع در این مجموعه ۱۷۶۲۱ مسیر به طول ۱۲۹۲۹۵۱ کیلومتر و ۵۰۱۷۶ ساعت ثبت شده است. ۹۱/۵ درصد مسیرها به صورت فشرده ارائه شده. یعنی نمونهبرداری آنها در بازههای زمانی کوتاه انجام شده است. هر ۱ الی ۵ ثانیه یا هر ۵ الی ۱۰ متر بر نقطه.
این مجموعه داده در۳۰ شهر چین و تعدادی از شهرهای ایالات متحده و اروپا پراکنده است اما بیشتر این دادهها در پکن تولید شدهاند. مسیرهای حرکت کاربران هم شامل مسیرهای روزانه (خانه به محل کار و برعکس)، و هم شامل فعالیتهای تفریحی و ورزشی مثل خرید، سیاحت، پیادهروی و دوچرخه سواری است.
این دیتاست قابلیت استفاده در عرصههای پژوهشی مختلف را دارد. مانند موارد لیست زیر:
mobility pattern mining
user activity recognition
lacation-based social networks
location privacy
location recommendation
از بین ۱۲۸ کاربر در این پروژه، تعداد ۷۵ نفر از آنها مسیرهای خود را با عبارتهای Walk, Bike, Bus, Car & taxi, Train, Airplane, Other برچسبگذاری کردهاند.
در این مجموعهداده برای هر کاربر یک فولدر در نظر گرفته شده است که تمام فایلهای مربوط به مسیرهای حرکت آن کاربر در همان فولدر ذخیره شده. هر خطسیر یا trajectory نیز در یک فایل ذخیره شده و هر فایل مربوط به یک خطسیر است. فرمت فایلهاPLT است که توضیحات بیشتر در مورد آن در راهنمای این دیتاست نوشته شده. برای جلوگیری از سردرگمی احتمالی منطقهی زمانی، تاریخ و زمان بر مبنای گرینویچ (GMT) ثبت شدهاند.
این مجموعهداده با حجم 1.7GB شامل ۱۸۲ پوشه، به همراه یک فایل pdf راهنما، از صفحهی اختصاصی این پروژه در سایت مایکروسافت به صورت رایگان قابل دانلود است.
مجموعهدادهی T-Driv
T-drive، یکی دیگر از پروژههای Microsoft Research Asia، یک سرویس هوشمند جهت رانندگی است که بر اساس خطسیرهای GPS تعداد زیادی تاکسی ساخته شده. این سیستم، به کاربر کمک میکند تا سریعترین مسیر رسیدن به مقصد را در یک زمان حرکت معین مشخص کند.
نمونهی اولیهی آن بر اساس مجموعه دادههای خطسیر دنیای واقعی ساخته شده که توسط ۳۰ هزار تاکسی در شهر پکن در مدت ۳ ماه تولید شدهاند. بخشی از این دادهها که مربوط به یک سوم تاکسیهای مذکور است توسط مایکروسافت در صفحهی اختصاصی این پروژه در سایت مایکروسافت به صورت رایگان منتشر شده. این مجموعهداده، با حجم 788.8MB شامل ۱۰۳۵۷ فایل است. در هر فایل مسیر حرکت یک تاکسی ثبت شده است. همراه این مجموعه داده یک فایل pdf راهنما نیز ارائه شده است.
این پروژه با این نگرش و انگیزه راهاندازی شد که رانندگان تاکسی رانندگان باتجربه ای هستند و معمولاً براساس دانش خود می توانند سریعترین مسیر را برای اعزام مسافران به مقصد پیدا کنند. از طرفی، تاکسی های مجهز به GPS حسگرهای متحرکی هستند که جریان های ترافیکی را در سطح جادهها بررسی میکنند. بنابراین، مسیرهای تاکسی حاوی اطلاعات دانش بشر درباره رانندگان با تجربه و الگوهای ترافیکی است که میتوان از آن برای تعیین سریعترین مسیر رسیدن به مقصد استفاده کرد.
مجموعه دادهی Chicago
ساکنان شیکاگو و بازدیدکنندگان از آن در سال ۲۰۱۵ بیش از ۲۷ میلیون بار از تاکسی برای نقل و انتقال استفاده کرده و مجموعاً ۸۳ میلیون مایل سفر کردند. آنها در مجموعه بیش از ۴۰۰ میلیون دلار برای این سفرها هزینه کردند.سفرهای تاکسی به آژانس نظارتی شهر شیکاگو گزارش شده است که در آن تدابیر امنیتی برای حفاظت از حریم خصوصی به دقت رعایت شده. البته با توجه به روند گزارش دادهها ، همهی سفرها گزارش نمی شوند اما آژانس معتقد است که بیشترین موارد انجام شده است.
آژانس به عنوان بخشی از مأموریت خود، مجاز به جمع آوری اطلاعات مربوط به سواری تاکسی است. این کار را از طریق گزارش دورهای توسط دو پردازنده اصلی انجام میدهد که اعتقاد بر این است که بیشتر تاکسی های شیکاگو را پوشش می دهد. بر اساس این گزارشها، مجموعهی دادههای بیش از ۱۰۰ میلیون سواری تاکسی شیکاگو، که تا سال ۲۰۱۳ جمعآوری شدهاند در وبسایت این آژانس ارائه شده است.
در این مجموعهداده هر ردیف، یک سفر مشخص تاکسی را توصیف می کند که در آن موارد زیر مشخص میشوند:
مشخصهی تاکسی که سفر را فراهم کرده
زمان آغاز و پایان سفر
طول سفر هم در زمان و هم در مسافت
مناطق انجمنی شروع و پایان سفر - به علاوهی برگه سرشماری برای بسیاری از سفرها
مبلغ کرایه و سایر اجزای هزینه سفر
نوع پرداخت - مانند پول نقد یا کارت اعتباری.
شرکت تاکسیرانی
مجموع دادهی Porto
این مجموعهداده در شهر پورتو پرتغال جمعآوری شده است. این شهر مرکز یک منطقهی متوسط شهری است (متشکل از ۱/۳ میلیون نفر). جایی که تقاضای مسافران از تعداد تاکسی های خالی در حال کار کمتر است و در نتیجه رقابت بزرگی بین شرکت ها وجود دارد. دادهها با استفاده از telematics نصب شده در هر یک از 441 وسیلهی نقلیهی در حال کار از ناوگان شرکت، به دست آمد.در یک دورهی ۹ ماهه بدون توقف بین آگوست ۲۰۱۱ و آوریل ۲۰۱۲ دادههای مربوط به یک میلیون سفر تاکسی جمعآوری شدند.
در این مجموعهداده هر بخش داده شامل این اطلاعات است: یک شناسهی منحصر به فرد برای هر سفر، روش مورد استفاده برای درخواست این سرویس، یک شناسهی منحصر به فرد برای هر شمارهی تلفن که برای درخواست حداقل یک سرویس استفاده شده است، یک شناسهی منحصر به فرد برای جایگاه تاکسی، یک شناسهی منحصر به فرد برای رانندهی تاکسی، Timestamp شروع سفر، نوع روز (تعطیل رسمی، تعطیلات شناور، روز کاری، آخر هفته و غیره) و لیستی از مختصات GPS که مسیر حرکت تاکسی را مشخص میکند و هر ۱۵ ثانیه یک بار نمونه برداری شده است.
مجموعه دادهی Gowalla
Gowalla
یک
وب سایت شبکهی
اجتماعی
مبتنی بر مکان در
پروژهی پلتفرم تجزیه و تحلیل شبکهی
دانشگاه استنفورد (Stanford
Network Analysis Platform-SNAP)
است.SNAP
یک
کتابخانهی
تجزیه و تحلیل شبکه و کاربرد کاوش نمودار
است که
با
زبان برنامهنوسی
++C
نوشته
شده و به راحتی در شبکه های عظیم با صدها
میلیون گره و میلیاردها یال
مقیاسبندی
میشود.
در Gowalla کاربران با ورود به سیستم، مکانهای حضور خود را ثبت کرده و با دیگران به اشتراک میگذارند. شبکهی دوستی هدایت نشده و دادهها با استفاده از API عمومی آنها جمع آوری شده است. این دادهها شامل ۱۹۶۵۹۱ گره و ۹۵۰۳۲۷ یال است. در مجموع ۶۴۴۲۸۹۰ ورودبه سیستم (check-in) از این کاربران در بازهی زمانی فوریه ۲۰۰۹ تا اکتبر ۲۰۱۰ جمع آوری شده است.
اطلاعات موجود شامل شناسهی کاربر، زمان ورود به سیستم یا check-in، مختصات جغرافیایی و شناسهی مکان است. نمونهای از دادههای این دیتاست در شکل زیر نشان داده شده است.