در سیستمهای هوشمند، الگوریتمهای یادگیری با نظارت (supervised learning) برای آموزش مدلها نیازمند مجموعه دادههایی هستند که در آنها خروجیهای مورد انتظار برای ورودیها مشخص شده است. این مجموعهدادهها که به نام مجموعهدادههای آموزشی شناخته میشوند در کاربردهای مختلف یادگیری ماشین در دسترس هستند. واضح است که استفاده از دادههای استاندارد که از دنیای واقعی جمعآوری شدهاند، دقت و درجهی اطمینان بالاتری را برای مدل مورد نظر فراهم میکنند. در عرصهی دادهکاوی خط سیر نیز که از الگوریتمهای یادگیری ماشین متنوعی استفاده میشود، استفاده از مجموعهدادههای آموزشی، متناسب با کاربرد، اهمیت بسیار زیادی دارد. مجموعهدادههای خطسیر متنوع و مختلفی در دسترس پژوهشگران این عرصه قرار دارد که در این یادداشت به معرفی تعدادی از معروفترین آنها میپردازیم.