The application of intelligent systems in the higher education sector is an active field of research, powered by the abundance of available data and by the urgency to define effective, data-driven strategies to overcome students’ dropout and improve students’ academic performance. This work applies machine learning techniques to develop prediction models that can contribute to the early detection of students at risk of dropping out or not finishing their degree in due time. It also evaluates the best moment for performing the prediction along the student’s enrollment year. The models are built on data of undergraduate students from a Polytechnic University in Portugal, enrolled between 2009 and 2017, comprising academic, social–demographic, and macroeconomic information at three different phases during the first academic year of the students. Five machine learning algorithms are used to train prediction models at each phase, and the most relevant features for the top performing models are identified. Results show that the best models use Random Forest, either incorporating strategies to deal with the imbalanced nature of the data or using such strategies at the data level. The best results are obtained at the end of the first semester, when some information about the academic performance after enrollment is already available. The overall results compare fairly with some similar works that address the early prediction of students’ dropout or academic performance.
De toepassing van intelligente systemen in het hoger onderwijs is een actief onderzoeksgebied, gedreven door de overvloed aan beschikbare data en de urgentie om effectieve, datagestuurde strategieën te definiëren om uitval van studenten tegen te gaan en hun studieprestaties te verbeteren. Dit werk past machine learning-technieken toe om voorspellingsmodellen te ontwikkelen die kunnen bijdragen aan de vroege detectie van studenten die het risico lopen hun studie af te breken of hun diploma niet op tijd af te ronden. Het evalueert ook het beste moment om de voorspelling uit te voeren in het inschrijvingsjaar van de student. De modellen zijn gebaseerd op data van bachelorstudenten van een Polytechnische Universiteit in Portugal, ingeschreven tussen 2009 en 2017, en bevatten academische, sociaal-demografische en macro-economische informatie in drie verschillende fasen van het eerste studiejaar van de studenten. Vijf machine learning-algoritmen worden gebruikt om voorspellingsmodellen in elke fase te trainen, en de meest relevante kenmerken voor de best presterende modellen worden geïdentificeerd. De resultaten tonen aan dat de beste modellen gebruikmaken van Random Forest, waarbij strategieën worden toegepast om om te gaan met de onevenwichtige aard van de data, of waarbij dergelijke strategieën op dataniveau worden toegepast. De beste resultaten worden behaald aan het einde van het eerste semester, wanneer er al enige informatie beschikbaar is over de studieprestaties na inschrijving. De algehele resultaten zijn redelijk vergelijkbaar met die van vergelijkbare studies die zich richten op de vroege voorspelling van uitval of studieprestaties van studenten.