Abstract | Najveću prijetnju za ljudsko zdravlje i okoliš predstavljaju lebdeće čestice, dušični dioksid i prizemni ozon. Smatra se kako je oko 90% stanovnika u europskim gradovima i skoro 99% stanovnika na globalnoj razini izloženo svakodnevno određenim razinama onečišćivača u zraku koji imaju za posljedicu srčane bolesti, moždani udar, kronične plućne bolesti tj. bolesti dišnog sustava, rak. Unatoč smanjenju koncentracije štetnih čestica u zraku te promicanje “pametnih gradova”, buđenje svijesti o ekologiji, koncentracije štetnih tvari u zraku su i dalje previsoke. U ovom radu objašnjena je specifična primjena podatkovne znanosti, te strojnog učenja za predikcije daljnjeg onečišćenja zraka. U svrhu analize podataka za izgradnju modela za predikciju kvalitete zraka na području Hrvatske, prikupljeni su podaci mjernih stanica za 2021g. koji pokazuju kvatitativne i mjerljive podatke štetnih tvari u zraku te ostali sekundarni podaci o broju stanovništva, broju registriranih vozila u prometu, te utvrđivanje postojanjanja raznih zagađivača kao što su industrije metala, plina, odlagališta smeća koje treba uzeti u obzir ponajviše zbog signifikatnosti za ishod predviđanja onečišćenja zraka. U procesu izgradnje prediktivnog modela strojnog učenja koristilo se nekoliko algoritama nadziranog učenja za zadatke rudarenja podacima kao su stablo odlučivanja i linearna regresija, te neuronske mreže za duboko učenje: višeslojni preceptor (MLP). Regresijskom analizom između više varijabli kao što je broj stanovništva, broja vozila u prometu, postojanje zagađivača, te izmjerni podaci o koncentraciji štetnih tvari u zraku, utvrditi će se njihova međuovisnost, što će na kraju rezultirati prediktivnim modelom emisije štetnih tvari u zraku kao što su lebdeće čestice PM2.5 i PM10, ugljični monoksid CO, sumporov dioksid SO₂, dušikov dioksid NO2, O3 prizemni ozon, sumporovodik (H₂S), amonijak (NH3), te benzen (C6H6) |
Abstract (english) | The dangerous threat to human health and the environment is represented by floating particles, nitrogen dioxide and ground-level ozone. It is believed that about 90% of the population in European cities and almost 99% of the population at the global level are exposed to certain levels of pollutants in the air every day, which result in heart disease, stroke, chronic lung diseases, i.e. diseases of the respiratory system, cancer. Despite the reduction of the concentration of harmful particles in the air and the promotion of "smart cities", the awakening of awareness about ecology, the concentrations of harmful substances in the air are still too high. This paper explains the specific application of data science and machine learning in the prediction of further air pollution. For the purpose of data analysis for building a model for predicting air quality in Croatia, data from measuring stations for 2021 were collected, which show quantitative and measurable data on harmful substances in the air and other secondary data on the number of the population, the number of registered vehicles in traffic, and the determination of the existence of various pollutants such as metal industries, gas, garbage disposal sites that should be taken into account mainly due to their significance for the prediction outcome air pollution. In the process of building a predictive model of machine learning, several supervised learning algorithms were used for data mining tasks such as decision tree and linear regression, and neural networks for deep learning: multilayer preceptor (MLP). Regression analysis between several parameters such as the number of population, number of vehicles in traffic, the existence of pollutants, and measured data on the concentration of harmful substances in the air, will determine their mutual interdependence, which will eventually result in a predictive model of the emission of harmful substances in the air, especially PM2.5 and PM10. floating particles PM2.5 and PM10, sulfur dioxide SO₂, nitrogen dioxide NO2, ground ozone O3, hydrogen sulphide (H₂S),, amonia (NH3), and benzene (C6H6) |