Вступ
Курс присвячений розв'язанню типових задач, які виникають при дослідженні даних за допомогою методів машинного навчання та математичної статистики за допомогою мови R.
Очікувані результати вивчення.
Знання:
1. Методи роботи із структурами даних у мові R: читання, запис — та швидкість їх роботи у схожих умовах.
2. Способи організації циклів у мові R та швидкість їх роботи у залежності від виконуваної задачі та оброблюваних даних.
3. Статистичниі тести для центральних тенденцій.
4. Алгоритми класифікації для дискретних наборів даних.
5. Індекси якості класифікації для двох класів.
Вміння:
1. Перевіряти швидкість виконання виразів у мові R.
2. Знаходити аномалії у одновимірних числових даних та застосовувати індекси перевірки даних на належнісь до нормального розподілу.
3. Готувати дані до статистичних тестів центральних тенденцій розподілу із вибором типу тесту у залежності від особливостей поставленої задачі.
4. Готувати дані до розв’язання задачі класифікації.
5. Використовувати алгоритми класифікації: CART, Random Forest.
6. Валідувати роботу алгоритмів класифікації з використанням внутрішніх та зовнішніх показників.
7. Виправляти незбалансованість класів у даних.
Компетентності:
1. Вибирати способи роботи з табличними даними у мові R дотримуючись балансу швидкодії та простоти розуміння коду.
2. Використовувати різні форми представлення категоріальних змінних у залежності від потреб наочності подання та вимог алгоритмів до обробки таких змінних.
3. Оцінювати вплив змінних на результати роботи алгоритмів класифікації.
4. Покращувати результати роботи алгоритмів класифікації.