Učni načrt predmeta

Predmet:

Računalniško podprto odkrivanje znanstvenih zakonitosti iz strukturiranih, prostorskih in časovnih podatkov

Course:

Computational Scientific Discovery from Structured, Spatial and Temporal Data

Študijski program in stopnja / Study programme and level	Študijska smer / Study field	Letnik / Academic year	Semester / Semester
Informacijske in komunikacijske tehnologije, 3. stopnja	Tehnologije znanja	1	1
Information and Communication Technologies, 3rd cycle	Knowledge Technologies	1	1

Vrsta predmeta / Course type

Izbirni / Elective

Univerzitetna koda predmeta / University course code:

IKT3-723

Predavanja Lectures	Seminar Seminar	Vaje Tutorial	Klinične vaje work	Druge oblike študija	Samost. delo Individ. work	ECTS
15	15			15	105	5

*Navedena porazdelitev ur velja, če je vpisanih vsaj 15 študentov. Drugače se obseg izvedbe kontaktnih ur sorazmerno zmanjša in prenese v samostojno delo. / This distribution of hours is valid if at least 15 students are enrolled. Otherwise the contact hours are linearly reduced and transfered to individual work.

Nosilec predmeta / Course leader:

prof. dr. Sašo Džeroski

Sodelavci / Lecturers:

doc. dr. Panče Panov

Jeziki / Languages:

Predavanja / Lectures:

Slovenščina, angleščina / Slovenian, English

Vaje / Tutorial:

Pogoji za vključitev v delo oz. za opravljanje študijskih obveznosti:

Prerequisites:

Zaključen študij druge stopnje s področja informacijskih ali komunikacijskih tehnologij ali zaključen študij druge stopnje na drugih področjih z znanjem osnov s področja predmeta. Potrebna so tudi osnovna znanja matematike, računalništva in informatike.

Completed second-cycle studies in information or communication technologies or completed second-cycle studies in other fields with knowledge of fundamentals in the field of this course. Basic knowledge of mathematics, computer science and informatics is also requested.

Vsebina:

Content (Syllabus outline):

Različne naloge napovedovanja strukturiranih vrednosti: večciljna klasifikacija in regresija, (hierarhična) večznačna klasifikacija, napovedovanje kratkih časovnih vrst. Dodatne dimenzije kompleksnosti: nepopolne označbe, podatkovni tokovi in omrežni podatki.

Napovedno razvrščanje za napovedovanje strukturiranih vrednosti: Uvod v napovedno razvrščanje, drevesa za napovedno razvrščanje za različne tipe ciljnih vrednosti, učenje tovrstnih dreves z omejitvami.

Ontologije za podatkovno rudarjenje: Ontologija podatkovnih tipov, ontologija ključnih pojmov podatkovnega rudarjenja, opis napovedovanja strukturiranih vrednosti.

Ansambelske metode za napovedovanje strukturiranih vrednosti: Ansambli dreves, ansambli pravil, rangiranje značilk.

Napredne teme: Pol-nadzorovano učenje za napovedovanje strukturiranih vrednosti, učenje iz podatkovnih tokov.

Primeri uporabe napovedovanja strukturiranih vrednosti: Znanosti o okolju, napovedovanje zgradbe združb, znanosti o življenju, npr. napovedovanje funkcij genov.

The different tasks of predicting structured outputs: multi-target classification and regression; (hierarchical) multi-label classification; timeseries as targets. Additional dimensions of complexity: incomplete annotations, streaming and network data.

Predictive clustering for structured output prediction: Introduction to predictive clustering, predictive clustering trees for different targets, constraint-based learning thereof.

Ontologies for data mining: Ontology of data types, ontology of core data mining entities, describing structured output prediction.

Ensemble methods for structured output prediction: Tree ensembles, rule ensembles, feature ranking.

Advanced topics: Semi-supervised learning for structured-output prediction, structured output prediction on data streams

Applications of structured output prediction: Environmental sciences (ecology, e.g., predicting community structure), life sciences (systems biology, e.g., predicting gene function), image annotation and retrieval.

Temeljna literatura in viri / Readings:

Izbrana poglavja iz naslednjih knjig: / Selected chapters from the following books:
S. Džeroski, B. Goethals, and P. Panov, Eds. Inductive Databases and Constraint-Based Data Mining. Springer, 2010. ISBN 978-1-4419-7737-3.
X. Zhu, and A. Goldberg. Introduction to Semi-Supervised Learning. Morgan and Claypool, 2009. ISBN 978-1-5982-9547-4.
S. Džeroski, B. Goethals, and P. Panov, Eds. Inductive Databases and Constraint-Based Data Mining. Springer, 2010. ISBN 978-1-4419-7737-3.
V. Bolon-Canedo, N. Sanchez-Marono, and A. Alonso-Betanzos. Feature Selection for High-Dimensional Data, Springer, 2016. ISBN 978-3-3192-1857-1.
F. Herera, F. Charte, A. Rivera, and M. del Jesus. Multilabel Classification: Problem Analysis, Metrics and Techniques. Springer, 2016. ISBN 978-3-3194-1110-1.
A. Bifet, R. Gavalda, B. Pfahringer, and G. Holmes. Machine Learning for Data Streams: with Practical Examples in MOA. MIT Press, 2018. ISBN 978-0-2620-3779-2.

Cilji in kompetence:

Objectives and competences:

Cilj predmeta je seznaniti študenta s področjem računalniškega odkrivanja znanstvenih zakonitosti iz kompleksnih podatkov, vključno s strukturiranimi, prostorskimi in časovnimi podatki, s poudarkom na napovedovanju strukturiranih vrednosti.

Kompetence študenta z uspešno zaključenim predmetom bodo vključevale razumevanje osnovnih nalog odkrivanja znanja iz tega področja, poznavanje sodobnih metod za reševanje takih nalog ter znanje o primerih uporabe le-teh na dveh pomembnih znanstvenih področjih (znanosti o okolju in znanosti o življenju).

The goal of the course is to familiarize the student with the field of computational scientific discovery from complex data, including structured, spatial and temporal data and in particular predicting structured outputs.

The competencies of the students completing this course successfully would include understanding of basic tasks from the area, familiarity with state-of-the art methods for solving them, and knowledge of example applications of these methods in two major scientific fields (environmental and life sciences).

Predvideni študijski rezultati:

Intendeded learning outcomes:

Študenti bodo z uspešno opravljenimi obveznostmi tega predmeta pridobili veščine in sposobnosti uporabe metod strojnega učenja za:
- večciljno klasifikacijo in regresijo
- (hierarhično) večznačno klasifikacijo
- napovedovanje kratkih časovnih vrst
- pol-nadzorovane različice zgornjih nalog
- različice zgornjih nalog, kjer se je potrebno učiti iz podatkovnih tokov

Spoznali bodo in se naučili uporabljati ontologije podatkovnega rudarjenja, in sicer:
- ontologijo podatkovnih tipov in
- ontologijo ključnih pojmov podatkovnega rudarjenja tako za iskanje kot za označevanje algoritmov in podatkov.

Pridobili bodo tudi sposobnosti ugotoviti, če in katere metode računalniškega odkrivanja znanstvenih zakonitosti iz kompleksnih podatkov je potrebno uporabiti za analizo dane množice
znanstvenih podatkov.

Students successfully completing this course will acquire skills and capabilities of using machine learning methods for:
- multi-target classification and regression
- (hierarchical) multi-label classification
- predicting short time series
- semi-supervised learning variants of the above tasks
- data stream learning variants of the above tasks

They will also get familiar with and be able to use ontologies for data mining
- ontology of data types
- ontology of data mining entities for finding and annotating algorithms and data

They will acquire the ability to identify whether and which methods for computational scientific discovery from complex data are needed to analyse a given set of scientific data.

Metode poučevanja in učenja:

Learning and teaching methods:

Predavanja, konzultacije, individualno delo.

Lectures, consultations, individual work.

Načini ocenjevanja:

Delež v % / Weight in %

Assesment:

Seminarska naloga

50 %

Seminar work

Ustni zagovor seminarske naloge

50 %

Oral defense of seminar work

Reference nosilca / Lecturer's references:

1.	J Levatić, M Ceci, D Kocev, S Džeroski (2024) Semi‐Supervised Predictive Clustering Trees for (Hierarchical) Multi‐Label Classification. International Journal of Intelligent Systems, 2024, 5610291, DOI: 10.1155/2024/5610291
2.	M Petković, J Levatić, D Kocev, M Breskvar, S Džeroski (2023) CLUSplus: A decision tree-based framework for predicting structured outputs. SoftwareX 24, 101526, DOI: 10.1016/j.softx.2023.101526
3.	A Kostovska, D Vermetten, C Doerr, S Džeroski, P Panov, T Eftimov (2022) OPTION: optimization algorithm benchmarking ontology. IEEE Transactions on Evolutionary Computation, 27, 1618-1632, DOI: 10.1109/TEVC.2022.3232844
4.	M Petković, M Ceci, G Pio, B Škrlj, K Kersting, S Džeroski (2022) Relational tree ensembles and feature rankings. Knowledge-Based Systems, 251, 109254, DOI: 10.1016/j.knosys.2022.109254
5.	A Osojnik, P Panov, S Džeroski (2020) Incremental predictive clustering trees for online semi-supervised multi-target regression. Machine Learning 109, 2121-2139, DOI: 10.1007/s10994-020-05918-z