Теми статті: вчителям, директорам, освітнім управлінцям, тести, якість освіти
23 Травня 2024
2 296
0
Комусь може здатися, що тести для учнів можна написати за один вечір. Придумати декілька питань, декілька варіантів відповідей – і все, загалом нічого складного.
Насправді ж тестологія – ціла наука. Навіть якщо над тестами працює фахівець чи фахівчиня, які добре знаються в обраній для тестування темі, це не гарантує, що тестові завдання будуть якісними й справді зберуть ті дані, які очікували ініціатори тестування.
Про кропітку роботу над створенням тестів, їхню апробацію та цінність для освітньої системи розповіла Тетяна Вакуленко, директорка Українського центру оцінювання якості освіти. Тетяна стала гостею третього епізоду четвертого сезону подкасту “Дофамін для освіти” від ГО “Смарт освіта” й онлайн-медіа “Нова українська школа”.
Прослухати розмову з Тетяною можна на сторінці подкасту (там є посилання на інші подкастинг-платформи й на попередні записи) або нижче.
Читайте текстову версію подкасту, якщо вам зручніше працювати з текстом. Тут ви дізнаєтеся про те:
Перше питання буде від тих, хто не любить готуватися, але любить отримувати високі бали – чи можна через вгадування отримати високий бал на тесті? Бо дехто сприймає тести як “угадайки”, з якими будь-хто може впоратися.
Передусім тести – це інструмент, який може бути дуже різним. Тести можуть містити різні типи завдань:
Коли ж говорять про тести, як “угадайки”, мають на увазі завдання з вибором однієї відповіді або на встановлення відповідності, тобто специфічні типи завдань.
Здобути високі результати саме в такий спосіб – неможливо. Певний рівень можна навгадувати, але це радше міфи.
Бо історії про дівчинку чи хлопчика, які нічого не вчили, але здобули 180 балів, – це історії не про “угадайки”. Це історії про те, що учасники мали певну стратегію щодо розвʼязання тестових завдань.
Наприклад, ці стратегії могли передбачати відкидання неправильних варіантів відповіді або, скажімо, специфічний вибір на основі аналізу та певних знань. Тобто це стратегія, яка насправді не знімає питання компетентності.
І що таке “угадайка”? Це випадковий вибір варіанту відповіді. З погляду тестології та статистики, шанси здобути нульовий результат, наприклад, на тесті, де 20–30 завдань і всі із чотирма варіантами відповіді, дуже маленькі. Але ми щороку маємо учасників, які спромагаються вибрати абсолютно всі неправильні варіанти відповідей. Тож йдеться не про вгадування, а про незнання. І, звичайно, про те, що наші учасники розв’язують завдання, але припускаються важливих помилок у міркуваннях.
Тести як форма – це точно не “угадайка”. Щось набрати на тестах, щоби перетнути невисокий поріг, можна, але отримати високий результат – у жодному разі. Бо вгадування – це точно не про свідомий вибір і свідоме намагання здобути хороший результат.
Тест – це дуже приваблива форма для оцінювань і вимірювань. Здається, що відносно невеликими ресурсами можна отримати хороші дані. Але завжди є “але”.
Аби тестування мало зміст і його результати можна було використовувати для подальших висновків, воно має мати певні показники. Серед них – змістова валідність.
Наприклад, PISA пропонує креативність як додаткову опцію для досліджень. Але колеги з Організації економічного співробітництва та розвитку чесно кажуть, що виміряти креативність як рису особистості вони не можуть. Тому вимірюють її певні характеристики й складники.
Тому узагальнено ми говоримо про креативність, але насправді ми її не вимірюємо. Так само і про любов. Ми можемо щось опосередковано зауважити й намагатися щось приховане описати, виміряти певним інструментом, але ми вимірюємо тільки те, що ми описали. І це пастка, у яку потрапляє будь-який інтерпретатор.
Якщо ми намагаємося інтерпретувати результати тестів, маємо докладно ознайомитися з тим, що закладено в основу цього інструмента.
Крім змістової валідності, хороший тест має багато різних показників. Якщо ми провели певне дослідження, то можемо з’ясувати, наскільки цей інструмент взагалі був однорідний. Може бути так, що ми створили багато завдань, розробили багато гіпотез, але жодну з них не змогли перевірити, жодна з них не підтвердилася, тому що в нас поганий інструмент.
Коли ми плануємо розробити якесь тестування для чогось суперцікавого, але суперприхованого, маємо пілотувати цей інструмент, апробувати його, перевірити, чи він працює. І завжди тримати в голові тезу про те, що ми перевірили тільки те, що описали й до чого дібрали показники. Усе інше залишилося поза нашою увагою.
Хороший тест може розробити тільки відповідний фахівець. Тест нічим не відрізняється від полотна художника.
Ми всі малювали мамам на День матері красиві малюнки. Але ніхто з нас не намагався виставитися в галереї, якщо ми не є професійними художниками. Та сама історія з тестами.
Для маленького класу можна пропонувати певні тестові інструменти, власноруч розроблені. Це може працювати, тому що відповідатиме на конкретні запити, які є у вас. Але використовувати ці тести для того, щоб робити певні висновки про великі групи – неможливо.
До того ж є тестологічні помилки. У тестології однозначно правильні або однозначно неправильні за формою відповіді називають дистракторами. І часто, коли ми вперше намагаємося написати тест, правильну відповідь робимо довгою, гарною, щоби було чітко видно, що ми всі складники того чи того поняття вклали сюди, а неправильну подаємо коротко й так, щоб містила однозначну помилку.
Що цей тест покаже? Нічого. Крім того, що учасник тестування вгадав вашу логіку й обирає довшу відповідь, тому що розуміє, як тест створили. Те саме стосується інших показників тестувань.
Тестологія – це окремий вид діяльності.
Перш ніж ми починаємо працювати з певними авторами тестів, вони обов’язково проходять навчальний курс, який пропонує УЦОЯО, розробляють певну кількість завдань. З ними працюють наші колеги, щоби пояснити, як досягти ідеалу.
Але навіть завдання, написані професійними авторами, які багато років працюють у системі, можуть мати певні вади. Тому обов’язково проводяться експертиза, пілотування або апробація тестових завдань. Треба дивитися, як завдання працює в реальній аудиторії.
Великі тестові агенції за кордоном будують на цьому частину своєї роботи. В Україні є декілька програм з освітніх оцінювань, які пропонують університети, зокрема, Український державний університет імені Михайла Драгоманова.
Але психометрист, тестолог та розробник тестових завдань – це трохи різні речі. Якщо говорити про потенційного розробника тестових завдань, – якщо ви класний фахівець-предметник і хочете розробляти тести, то можете працювати з УЦОЯО. Напишіть нам про це, ми запросимо вас для проходження нашого навчання, і, можливо, до роботи.
Мені здається, що первинним питанням якраз є те, для чого використовувати тест.
Але тоді це не відрізняється від звичайної контрольної чи самостійної роботи. Тести – це передусім тести, завдяки яким за короткий період часу можемо отримати багато інформації. Для того, щоб копнути вглиб, маємо використовувати ті типи тестових завдань, які не про швидкість, а які потребують додаткової перевірки та аналізу.
Тестові завдання, написані власноруч, можна використовувати, якщо ви впевнені, що розумієте, що перевіряєте і як. З тестами з інтернету я би була обережнішою:
Бо інтернет – це велике середовище, у якому відрізнити професійні матеріали від непрофесійних дуже складно.
Можна комбінувати певні теми, беручи добірки різних років, обираючи тестові завдання, які відповідають змісту теми, яку ви викладаєте.
Насправді підготовка до виконання тестової форми може передбачати 3–4 уроки впродовж 10–11 класу. Цього достатньо, щоб розібратися, як визначати час оцінювання, правильно скоординувати свою роботу, з яких завдань починати – зі складніших чи з простіших.
А от помилитися учасник/-ця НМТ чи ЗНО може на змісті через те, що сумнівається, як правильно розв’язувати завдання чи не знає правильної відповіді на те чи те питання. Краще зосередитися на тому, щоб учні розуміли зміст питання, навчилися розв’язувати задачі, комунікувати, обґрунтовувати, пояснювати свою відповідь.
Коли мають з’являтися тести в житті учнівства і з якою інтенсивністю? Можливо, вчителі вважають, якщо будуть часто давати тести, то діти до них звикатимуть, їм простіше буде впоратися на НМТ, наприклад?
Якщо мова йде про якісно розроблені тестові завдання, а такими можуть бути завдання, які пропонуються до підручників і посібників, то автори цих навчальних матеріалів програмують свій курс і розуміють, коли саме розроблені ними добірки можуть використовуватися.
А якщо йдеться про самостійне розроблення тестових форм, то не зовсім доцільно витрачати багато часу на те, щоб розробляти завдання і їх використовувати. Натомість форми усної роботи, фронтальне опитування, діалоги, дискусії, активна робота – дадуть змогу виміряти абсолютно те саме, мотивують учнівство до діалогу, до опрацювання матеріалу й до свідомої роботи. Напевно, це матиме більше користі для навчання.
Украй негативно з огляду на три причини.
1. Наразі в Україні немає системи освітніх оцінювань, яка б давала змогу вимірювати навчальний поступ учнів. У нас є лише випускові / вступні оцінки. Ми не можемо стверджувати, що саме ця школа є причиною цих оцінок.
Будь-який рейтинг надзвичайно чутливий до показників, які вкладаються в його зміст. А те, як будується рейтинг, безпосередньо впливає на його результати. Наприклад, є школа, де 50 % учасників взагалі не подолали поріг, а 50 % здобули 200 балів (це дуже абстрактна ситуація, якої, можливо, і немає в реальному житті). А є школа, де всі отримали 150 балів. Яка з них краща?
Насправді ми не знаємо. Бо нам невідомо, чому половина учасників у першій школі не подолала поріг. Може, це була школа, у якій група підлітків вирішила не приходити до закладу освіти, влаштувала саботаж.
У нас є маленькі та великі школи. Чи може школа забезпечити, щоби всі її 200 учасників подолали поріг “склав / не склав”? Або школа, де всього п’ятеро випускників? Це виклик, тому що маємо багато підлітків, відповідно – багато індивідуальних історій.
2. Ще один аспект – зміст вступного тестування. У вступних випробуваннях беруть участь тільки вступники. Це ті підлітки, які пов’язують майбутнє навчання із закладом вищої освіти.
А хіба немає інших варіантів життєвих траєкторій?
То що ми перевіряємо? Коли ми говоримо, наприклад, про тестування з хімії, на основі цих даних робимо висновки про хімічну освіту. У тестуванні з хімії беруть участь значно менше ніж 10 % усіх учасників оцінювання. І хто ці підлітки? Це можуть бути абсолютно різні люди.
Нинішня модель не дає змоги створювати такі рейтинги, вони мають величезну похибку. А висновки, які ми робимо на основі рейтингів, є доволі небезпечними. Тому що зміст рейтингів не відповідає меті наших висновкових суджень.
Чи загалом такі рейтинги можуть бути корисними? Можуть. Якщо на кожному етапі здобуття освіти є якісь результати. І якщо ми вимірюємо не чисті значення, а різниці. Тобто ми вимірюємо поступ. У польській моделі це називається додана освітня вартість – що саме додає заклад.
3. Крім цього, треба вимірювати чинники, які, крім результатів, пов’язані із цими результатами. Треба враховувати, наприклад, це сільська чи міська місцевість, бо знаємо, що заклади там і там мають відмінності; чи було в житті дитини репетиторство та з яких предметів.
Якщо ми врахували ці чинники, то мали би планувати, як зробити краще для системи освіти, а не будувати рейтинги.
Бо що рейтинги мають на меті? Знайти найкращих? Для чого?
А просто рейтинг, щоб десь його надрукувати й пофарбувати червоним чи чорним хороші або погані школи – для мене це пошук винних і тих, хто недопрацьовує. А також це прояв негармонійної системи, не спрямованої на розвиток.
Щоб це дізнатися, варто поспілкуватися з іншими учнями й вчителями. Якщо ви відчуваєте, що вчителі йдуть вам на зустріч, готові з вами комунікувати, вибудовувати партнерські стосунки з учнівством та з батьківством, якщо вам комфортно перебувати в ній – це ваша школа.
Якщо діти, які навчаються в цій школі, хочуть йти на уроки, їм подобається те, що відбувається в класі, вони із захопленням діляться цими історіями – це ваша школа.
Якщо діти страждають і говорять, що вони із жахом думають улітку про перше вересня і за жодних обставин не хочуть повертатися до школи, то на якому б місці ця школа в рейтингу не була, ви маєте бачити червоні прапорці. Це може бути не ваша школа.
Чи можеш пригадати декілька прикладів, коли цей масив даних чи якісь із них використовувалися на рівні держави для ухвалення рішень?
Я точно знаю, що наш масив даних використовувався під час розроблення концепції “Нова українська школа”.
Тобто певні дані стають аргументами для ухвалення великих політичних рішень.
Та намагатися одразу імплементувати абсолютно все, що дав певний цикл дослідження, для освітньої системи не корисно. Це виглядало б як метушіння.
Скажи, будь ласка, як тестування співвідноситься з формувальним оцінюванням? Вони суперечать одне одному чи доповнюють?
Мета формувального оцінювання – це відстеження індивідуального освітнього поступу й надання допомоги учням у визначенні цілей щодо досягнення цього поступу. Відповідно, тестування може бути інструментом формувального оцінювання.
Якщо підходити до результатів тестування не як до вироку, а як до інформації про те, що саме
Наприклад, ті тести, які розроблялися для ВШО, містять модуль зворотного зв’язку. Він передбачає, що за кожну неправильну відповідь учасник отримує не оцінку, а текстове повідомлення, що ця тема тобі не вдалася та виконай завдання з неї, будь ласка. Це якраз частина формувального оцінювання – визначення того, де не вдалося, і підтримка для подальшого розвитку.
Тобто тестування і формувальне оцінювання – це точно не суперечності. Якщо порівняти їх метафорично, то це як дві сестри.
Якщо зазирнути всередину їхньої комунікації, можна зрозуміти, що ані перша є завимогливою, застрогою, ані друга не завжди є емпатійною і всеприймаючою. Вони обидві можуть бути різними, якщо мама розуміє, що вона з ними робить і як вона їх виховує.
Тобто, якщо вчителька розуміє:
то й тест може бути емпатійним, ласкавим.
І так само формувальне оцінювання: якщо не розуміти його цінності, воно може бути вимогливим і навіть грубим (вербальні характеристики певного процесу чи діяльності учня / учениці можуть бути нетолерантними й не сприяти розвитку).
Формувальне оцінювання значно ширше, ніж тест. Тому що тест – це інструмент, який може бути дуже різним. Для формувального оцінювання можна використовувати тест, щоби побачити, над чим ще потрібно попрацювати, де зона розвитку.
Тести можна використовувати навіть у груповій роботі, коли учні перевіряють одне одного, у такий спосіб формуватимуть додаткові soft skills – навички взаємодії тощо.
Тобто тестування – це не строга форма, а інструмент. А що вже з ним робити – різати цим ножем хліб чи намащувати на нього масло – це ваша майстерність і ваше завдання.
Учасники та педагоги пам’ятають, що до початку повномасштабного вторгнення тривалість тестів ЗНО була різною. Це залежить від конструкта та опису тесту. У світі (наприклад, у Фінляндії, Китаї) є приклади дуже довгих і доволі коротких тестових форм, учні працюють із різними типами завдань.
Загалом короткі тестові форми мають певні вади, бо якщо дуже мало завдань і мало запитань у тесті, то зростає рівень помилок і похибок під час оцінювання результатів. Звичайно, довші тести дещо кращі, ніж короткі.
Поєднання в НМТ-2024 доволі коротких тестових форм із чотирьох предметів в одному довгому за тривалістю тесті – це, звичайно, вимушений захід.
Він пов’язаний винятково з тим, що ми проводимо НМТ в умовах повномасштабної війни. Формат комп’ютерного тестування є повністю адекватним, він відповідає міжнародним практикам.
Це справді є викликом для учнів, та проводити тестування, наприклад, у два окремих дні ми не можемо, тому що приблизно до 10 % наших вступників перебувають за кордоном. Відповідно, за кордоном потрібно приїхати до певної локації, які не відкриваються в кожному місті.
Багато вступників перебувають на тимчасово окупованих територіях або на територіях з активними бойовими діями, де ми не проводимо тестування. Їм потрібно виїхати на ту територію, яку повністю контролює українська влада.
І це теж виклик – фінансовий, часовий. Якщо батьки зрозуміють, що це непосильне завдання, можуть ухвалити рішення на користь вступу до закордонного закладу вищої освіти й просто не розглядати таку опцію через складність її реалізації.
Чому це один день? Бо в Україні постійні повітряні тривоги. Їхня тривалість та кількість є вагомими чинниками. Якщо тестування, наприклад, відбувалося у два чи в три дні, це означало б, що з кожної з основних сесій нам потрібно дати змогу учню чи учениці проходити тестування в додаткову сесію.
Тобто могло би бути так, що вступникові довелося б шість разів приїхати до тимчасового екзаменаційного центру, тому що тричі з основної сесії він не міг пройти тестування [через тривоги], а тричі мав їхати на додаткову сесію. Це в рази ускладнює шанс адекватного проведення оцінювання і ймовірність того, що всі охочі зможуть це зробити.
Чисто теоретично – чи потрібна нам така глибока перевірка знань? Чи того формату, який у нас був до повномасштабної війни, цілком достатньо?
Ми мріємо про хороші довгі тести. Але хороший довгий тестовий інструмент може не мати великої тестологічної цінності. З погляду тестології, тесту на умовних 100+ завдань, навіть закритого формату, вистачить, щоб із високою точністю прорейтингувати учасників.
Але хороші, кількаетапні, різноспрямовані форми мають величезну педагогічну цінність, тому що артикулюють, що нам цікавий не лише ваш загальний результат у рейтингу, а яких саме компетентностей ви набули.
Тому в міжнародних системах освітніх оцінювань, наприклад, Matura в Польщі [національний іспит, який складають випускники школи перед вступом до закладу вищої освіти – ред.] можуть бути довгі й різнонаправлені форми.
До речі, GCSE – це тест, який мав бути в нас як ДПА в 9 класах. Це оцінювання, яке проводиться після обов’язкової базової ланки освіти. Це доволі тривалі оцінювання, після них учень/-иця обирає, як саме буде продовжувати навчання, які саме предмети будуть важливими й обмежить себе декількома, на яких сфокусує увагу.
Це дуже близько до того, що зараз обговорюється в системі академічних і професійних ліцеїв. Це прекрасно, коли ми завершили певний рівень освіти, і маємо хорошу, потужну інформацію про те, чого ми набули.
Сподіваємося, що ми також її матимемо. І колись, маю надію, у нас будуть усні частини, де учні могли би говорити, структурувати свою думку, її демонструвати, обґрунтовувати, доводити екзаменаційній комісії. А ще – хороші, потужні письмові частини, есеї та інші форми. Це все велика мрія.
Оцінювання ніколи не може керувати змістом. Воно залежить від того, які змісти й сенси ми вкладаємо в те, що і як навчаємо.
Ми, як оцінювачі, маємо підлаштовуватися під наявні ідею та концепт. Якщо концепт передбачатиме, що поглиблено вивчається декілька предметів у старшій профільній школі, і ця поглибленість однаково матиме якесь ядро, то матимемо зосереджуватися на ядрі. А також на тому, щоби перевіряти компетентності, які сигналізуватимуть, наскільки це ядро засвоєне, зреалізоване й досягнене.
Наприклад, якщо цим ядром буде мовно-літературна галузь, ми не зможемо перевіряти її відомостями з конкретного твору. Але це можуть бути завдання на аналіз творів, на розуміння структури, на роботу зі списком літератури, списком джерел, де кожен із варіантів можна використати.
Я впевнена, що зробити оцінювання, які відповідатимуть цьому концепту, буде надзвичайно складно. Але наявні у світі системи показують, що це можливо. Ми маємо вчитися, розвиватися, змінювати підхід – ми до цього готові.
1. Найпоширеніший міф – будь-хто може написати тест буквально за ніч.
Це не так. Це як історія про те, що мало хто може лікувати зуби, бо для цього треба вчитися. Так само в тестології – це класна, але складна професія, яка потребує навчання та практики. Людина може мати хороший фаховий потенціал, бути класним предметником, розумітися на змісті предмета, але щоб стати автором тестів – треба пройти спеціальний курс навчання.
2. Усі тести – це лотерея, а результати тестів взагалі не обумовлені нічим, крім везіння.
Так говорять люди, які, напевно, мало знають про результати тестів і проявляють свою незадоволеність чиїмось результатом.
3. Тести – це лише закриті завдання просто для галочки, за якими нічого не стоїть.
Хороші тести дають змогу визначити багато що про учасника. І, власне, те, що ми вкладаємо в конструкцію, в опис інструментів, що ми оцінюємо і для чого – можна виміряти хорошим інструментом.
4. Тести – це винятково підсумкова форма, яка дає змогу визначити діагноз.
Так, це абсолютно правильно, але якщо в нас інша мета, наприклад, діагностичне чи формувальне оцінювання, то можна розробити такі інструменти, які цю функцію так само виконуватимуть дуже успішно.
5. Тестами неможливо виміряти абстрактні речі типу креативності або соціально-емоційних навичок.
Можна виміряти певні прояви цих характеристик, що й роблять дослідники.
6. Будь-яке дослідження, побудоване на тестах, є якісним.
Це часта історія. Я бачу багато локальних українських досліджень, які ставлять учасникам 2–3 запитання, а потім роблять глобальні висновки про навчальні досягнення, про прагнення учнів абощо.
Якщо дослідники не публікують методологію досліджень, підходи до створення інструментів – не довіряйте їм на слово. Хороші дослідники мають розуміти, що саме досліджується, як і яким інструментом. Якщо в них це є, то, опрацювавши матеріали, можна зробити висновок про якість даних і змістовність висновків.
Текстову версію подкасту підготувала Інна Лиховид, “Нова українська школа”
Титульне фото: автор – Neeraj Chandaver, dribbble.com
Публікація підготовлена за підтримки Представництва “Фонду Фрідріха Науманна за Свободу” в Україні. Фонд Фрідріха Науманна за Свободу – фонд ліберальної політики, що сприяє зміцненню свободи та гідності людини в усіх сферах суспільства. Докладніше за посиланням.
Обговорення