Задания какого типа требуют обычно наибольшего времени на их выполнение
Перейти к содержимому

Задания какого типа требуют обычно наибольшего времени на их выполнение

  • автор:

Рекомендации к составлению тестов

Тестирование, как одна из форм аттестации, представляет собой процедуру, позволяющую объективно установить уровень учебных достижений обучающихся: теоретических знаний, интеллектуальных умений, практических навыков.

Тестирование в педагогике выполняет три основные взаимосвязанные функции: диагностическую, обучающую и воспитательную:

  • Диагностическая функция заключается в выявлении уровня знаний, умений, навыков обучающихся. Это основная и самая очевидная функция тестирования. По объективности, широте и скорости диагностирования тестирование превосходит все остальные формы педагогического контроля.
  • Обучающая функция тестирования состоит в мотивировании учащихся к активизации работы по усвоению учебного материала. В целях усиления обучающей функции тестирования могут быть использованы дополнительные меры стимулирования, такие, как раздача преподавателем примерного перечня вопросов для самостоятельной подготовки, наличие наводящих вопросов и подсказок в тесте, совместный разбор результатов теста.
  • Воспитательная функция проявляется в периодичности и неизбежности тестового контроля. Это дисциплинирует, организует и направляет деятельность обучающихся, помогает выявить и устранить пробелы в знаниях, формирует стремление развивать свои способности.

Тест – это стандартизованное задание, по результатам выполнения которого дается оценка уровня знаний, умений и навыков испытуемого. Педагогический тест определяется как система заданий (вопросов) определенного содержания и специфической формы, позволяющая качественно оценить структуру и эффективно измерить уровень знаний каждого испытуемого.

Традиционно рассматривается три основных критерия качества теста: действенность (валидность, показательность), надежность (вероятность, правильность), дифференцированность (раз-личимость).

Действенность теста по своему содержанию близка к требованию полноты, всесторонности проверки, пропорционального представления всех элементов изучаемых знаний, умений. Четкая и ясная постановка вопроса в пределах контролируемых знаний – неотъемлемое условие действенности теста. Если уровень теста превышает запроектированный уровень обучения, выходит за пределы изученного содержания или же не достигает этих пределов, то он не будет действенным для тех обучаемых, которым он адресован. Действенность теста обычно определяется статистическими методами.

Степень надежности характеризуется стабильностью, устойчивостью показателей при повторных измерениях с помощью одного и того же теста или его равноценного заменителя. Установлено, что надежность теста повышается при увеличении количества тестовых заданий в рамках одной, конкретно обозначенной (проверяемой) темы и понижается при увеличении (большем разбросе) тематического, содержательного разнообразия вопросов. Надежность тестов также значительно зависит от трудности их выполнения. Трудность определяется по соотношению правильных и неправильных ответов на тестовые вопросы. Включение в состав тестов таких заданий, на которые все обучаемые отвечают правильно или же наоборот, неправильно, резко снижает надежность теста в целом. Наибольшую практическую ценность имеют задания, на которые правильно отвечают 45 – 80% обучаемых. Характеристика дифференцированности связана с использованием таких тестов, где нужно выбирать правильный ответ из нескольких возможных альтернатив. Если, например, все обучающиеся безошибочно находят правильный ответ на один вопрос и также дружно не могут ответить на другой, то это сигнал для усовершенствования теста в целом. Его необходимо дифференцировать, сделать различимым.

Кроме рассмотренных критериев используется и показатель эффективности теста. Тест, обеспечивающий при прочих равных условиях большее количество ответов за единицу времени, считается более эффективным.

В разработке педагогических тестов можно выделить три этапа (Рис.7): планирование, написание заданий и анализ заданий, каждый из которых, в свою очередь, включает в себя несколько обязательных стадий.

Etapi test zadanii.png

Рис. 7. Этапы разработки тестовых заданий

Как отмечалось выше (критерий действенности), тест должен соответствовать запроектированным целям обучения, образования, развития обучаемых. Поэтому первый шаг в планировании теста – это анализ соответствующих Государственных образовательных стандартов, всех разделов учебной программы, учебников и учебных пособий. Составителю теста необходимо иметь четкое представление о требованиях к знаниям, навыкам и умениям обучающихся по данной учебной дисциплине, хорошо знать цель и конкретные задачи обучения. Задания теста должны в полной мере выявить степень овладения требуемыми знаниями, навыками и умениями.

Для получения максимального результата от тестирования рекомендуется использовать тесты с целью:

  • оценки остаточных знаний;
  • промежуточного (для каждой темы) контроля;
  • итогового контроля.

На этом основании можно выделить следующие типы тестов: входящие, текущие, промежуточные, итоговые.

Входящие (предварительные) тесты – предназначены для предварительного измерения степени готовности к освоению учебного содержания, являются способом адаптации к требованиям учебной дисциплины. Главная функция подобных тестов связана с самооценкой. Содержанием является ключевой материал предшествующего этапа обучения или навыки, приобретенные в ходе повседневного взаимодействия с объектом изучения. Для обучающегося данные тесты являются средством актуализации имеющихся знаний и умений, необходимых для последующего освоения содержания учебного предмета. Входящее тестирование сочетается с требованиями коррекционного обучения, направленного на устранение пробелов в знаниях, умениях. Поэтому такие тесты уместно использовать не только в начале учебного года, но и в начале изучения нового раздела или при овладении новым комплексом умений. Текущие тесты – направлены на диагностирование хода учебного процесса, проверку одной из единиц содержания обучения (знания, умения, опыт), организацию экспресс-контроля осознания усвоенной информации. Данные типы тестов используются в повседневной учебной деятельности, имеют большое значение для стимулирования у обучающихся стремления к самостоятельной систематической работе, повышают интерес к учению, чувство ответственности за полученные результаты. Содержание этих тестов охватывает важнейшие элементы знаний, умений, освоенные обучающимися в ходе урока или на протяжении двух-трех уроков.

Промежуточные тесты – позволяют оценить качество освоения темы, раздела внутри программного модуля, предметных умений и навыков в конце учебного периода (четверть, семестр, полугодие). Содержание таких тестов основано, как правило, на большом объеме материала. К промежуточному педагогическому тесту предъявляются повышенные требования. Он должен обладать достаточно высокой надежностью и действенностью (валидностью), так как речь идет не просто о проверке усвоения отдельных элементов, а о понимании системы, объединяющей эти элементы. Оценка промежуточных тестов осуществляется на основе тех критериев, которые предусмотрены учебной программой, требованиями школы и государственными обра-зовательными стандартами.

Итоговые тесты – предназначены для контроля и оценки степени сформированности знаний, умений, навыков по окончании учебного года, этапа обучения в школе (начальная, основная, средняя школа) или по завершению изучения учебной дисциплины; оценки уровня учебных достижений обучающихся по основным компонентам содержания образования. Содержание тестов должно быть разработано на основе содержания блоков и модулей, предлагаемых в типовых программах образования в школе.

Педагог может самостоятельно разрабатывать входящие, текущие и промежуточные тесты, имея для этого необходимые компетенции, или использовать готовые варианты.

Во избежание несбалансированности и диспропорции, охватываемых тестом тем, составлению заданий должна предшествовать разработка его спецификации. При подготовке тестов разработку спецификации следует начать с описания целей изучения данного предмета, а также охватываемого этим предметом содержания. Перечисляя цели, создатель теста должен проанализировать, к каким изменениям ведет освоение изучаемого предмета: скажется ли оно на приобретении и развитии интеллектуальных навыков, способах решения задач, а также на способностях, интересах и прочих подобных характеристиках.

Тест состоит из тестовых (контрольных) заданий, инструкций к ним, баллов за выполнение каждого задания, общего тестового балла, рекомендаций по интерпретации результатов тестирования.

Тестовые задания включают в себя вопросы, отражающие содержание курса, которые выносятся на контроль. Исходным моментом составления тестовых заданий является выделение общей цели, преследуемой тестированием, и далее цели, с которой задание включается в тест. Такие цели должны предусматривать следующие требования к уровню знаний и умений обучающихся:

а) простое воспроизведение знаний, анализ и сравнение данных. Постановка таких вопросов в заданиях позволяет проверить усвоение учащимися материала на уровне запоминания, тренирует память;

б) анализ признаков понятия. При этом выявляется умение обучающихся находить общее и специфическое в изучаемом материале, отделять существенные признаки от несущественных, родовые от видовых и т.д.;

в) умение распознавать схемы, рисунки;

г) понимание функций, выполняемых различными элементами (органами, звеньями, приборами, устройствами и т. п.), и процессов взаимодействия между ними. Вопросы такого типа позволяют проверить умение обучаемых вскрывать определенные причинно-следственные связи и отношения, оценивать роль и значение данного элемента для процессов, происходящих во всей системе;

д) приведение в логическую последовательность элементов множества, расположенных в беспорядке, т. е. умение решать задачи определенного класса, требующие обнаружения последовательности расположения элементов в информационном ряде объектов, тактических приемов;

е) творческий подход к рассматриваемым проблемам и вопросам, умение применять полученные знания в условиях той или иной ситуации.

Отличительная особенность тестовых заданий заключается в том, что все задания теста должны соответствовать следующим критериям, предъявляемым к форме и содержанию:

  • правильность содержания;
  • логичная форма высказывания;
  • правильность формы;
  • краткость вопросов и ответов;
  • наличие определенного места для ответов;
  • правильность расположения элементов задания;
  • одинаковость правил оценки ответов;
  • одинаковость инструкции для всех испытуемых;
  • адекватность инструкции форме и содержанию задания.

Правильность содержания означает, что из тестового задания должна быть полностью устранена двусмысленность. Тестовое задание формулируется из точных терминов и не должно содержать ни метафор, ни лишних слов, ни лишних знаков.

Конструирование тестовых заданий требует четкого деления изучаемого материала на логически законченные доли учебного материала, уровень усвоения которых можно было бы оценить кратко и однозначно. Эти доли не должны быть слишком малы, чтобы в целях контроля усвоения материала не приходилось ставить элементарные вопросы, не требующие усилий мысли обучающегося. Подобная часть учебного материала должна содержать не менее одного-двух новых понятий. При этом важно выделить главные (проблемные) вопросы, не увлекаясь второсте-пенными.

Логические требования к тестовым заданиям – это требования определенности, непротиворечивости и обоснованности содержания теста.

Определенность содержания теста образует предмет измерения. Довольно часто случается так, что правильные ответы на некоторые задания требуют знаний не только тестируемой дисциплины, но и ряда других, близость и связанность которых затрудняет точное определение предметной принадлежности измеряемых знаний. Чем меньше пересечение знаний одной тестируемой дисциплины со знаниями другой, тем определеннее содержание теста. В каждом тестовом задании заранее определяется, что́ однозначно считается ответом на задание, с какой степенью полноты должен быть правильный ответ. Не допускается определение понятия через перечисление элементов, не входящих в него.

Непротиворечивость содержания заданий требует, чтобы относительно одной и той же мысли не возникали суждения, одновременно утверждающие и отрицающие ее. Недопустимо существование двух исключающих ответов на одно и то же задание теста. Не допускается содержание ответов, вообще не связанных с содержанием задания. Если при апробации теста обнаружатся ответы к заданиям, которые обучающиеся вообще не выбирают, то такие ответы из теста удаляются, потому что они не выполняют функцию так называемых дистракторов, призванных отвлечь внимание незнающих обучающихся от правильного ответа.

Обоснованность содержания тестовых заданий означает наличие у них оснований истинности. Обоснованность связана с аргументами, которые могут быть приведены в пользу той или другой формулировки заданий теста. В случае отсутствия доказательных аргументов в пользу правильности сформулированного задания, оно не включается в тест ни под каким предлогом. То же происходит, если в процессе экспертного обсуждения возникает хотя бы один контраргумент или допускается условие, при котором данное утверждение может оказаться двусмысленным или ложным.

Правильная форма заданий – это средство упорядочения и эффективной организации содержания теста. Форма заданий правильная, если она позволяет точно выразить содержание, понятна для всех испытуемых, исключает возможность появления ошибочных ответов по формальным признакам.

Ответ на задание теста представляет собой краткое суждение, связанное по содержанию и форме с содержанием задания. Каждому заданию ставятся в соответствие ответы правильные и неправильные. Следует избегать применения таких ответов, как «правильного ответа нет», «все ответы правильные» или «все ответы неправильные». Нельзя включать ответы, неправильность которых на момент тестирования не может быть обоснована учащимися. Неправильные ответы должны конструироваться на основе типичных ошибок и должны быть правдоподобными. Правильные ответы должны располагаться среди всех предла-гаемых ответов в случайном порядке. Ответы на одни вопросы не должны служить подсказками для других. Критерии правильности заранее определяются авторами теста. В идеале, вероятность правильного ответа на любое задание должна зависеть только от соотношения уровня знаний испытуемого и уровня трудности задания.

Наличие определенного места для ответов является одним из внешних признаков задания в тестовой форме. Правильность расположения элементов задания является требованием, помогающим тестируемым не тратить время на определение места для ответов и быстрее зафиксировать свое решение.

Правила оценки определяются заранее и абсолютно одинаковы ко всем испытуемым.

В целях формирования наибольшей наглядности тестового кон-троля, рекомендуется максимально использовать в тестах гра-фический материал.

На этапе написания заданий (Рис. 8) первостепенной задачей является выбор типа тестового задания. По форме предъявления ответа тестовые задания классифицируют на задания открытого типа и закрытого.

Задания открытого типа представляют собой тип тестовых заданий, предусматривающих свободные ответы обучающихся, по сути это задания без предлагаемых вариантов ответов. Предполагается, что тестируемый должен дать короткий и четкий ответ из одного, реже – двух слов (это следует указать в инструкции к тесту). Задания открытой формы часто разделяют на задания дополнения (предполагается, что заполнить пропуск можно строго однозначно) и задания свободного изложения. Данный тип теста часто используют в заданиях на математические вычисления.

Инструкция: дополнить.

1. Система внутренних побуждений человека, определяющая его избирательную активность называется ________________.

Правильный ответ: направленность.

Тестовые задачи данного типа позволяют получать разностороннюю, развернутую информацию о знаниях обучающегося. Они применяются в случае, когда необходимо проверить знание фактического материала, способность обучающегося интерпретировать данные и применять правила, когда исключается фактор догадки.

Наряду с достоинствами, заданиям открытого типа присущи и определенные недостатки, основными из которых являются: сложность (иногда невозможность) формализации ответов и их оценки; неоднозначность, вызывающая затруднения в интерпретации (связанная иногда с необходимостью дополнительного расспроса), громоздкость процедуры и большие затраты времени на тестирование. Следует избегать применения данного типа заданий, когда возможен не один, а несколько правильных ответов. Компьютерная обработка подобных заданий затруднена.

При составлении заданий открытого типа необходимо учитывать следующие общепринятые правила:

  • в каждом задании должно быть только одно дополнение (ответ);
  • дополнение (ответ) должно быть наиболее важным («ключе-вым») термином, знание которого является обязательным;
  • дополнение (ответ) лучше всего располагать в конце предложения;
  • вопрос должен формулироваться четко, требовать однозначного ответа и не допускать двоякого толкования.

Составление задания открытого типа можно проводить в следующей последовательности:

  • написать определение (принцип, закон);
  • выделить в нем ключевое слово;
  • перестроить фразу так, чтобы это слово оказалось послед-ним.
  1. Под направленностью понимается система внутренних побуждений человека, определяющая его избирательную актив-ность.
  2. Под направленностью понимается система внутренних побуждений человека, определяющая его избирательную актив-ность.
  3. Система внутренних побуждений человека, определяющая его избирательную активность, называется ________________.

Правильный ответ: направленность.

Задания закрытого типа – тип тестовых заданий, предусматривающий различные варианты ответа на поставленный вопрос, задачу. Из ряда предлагаемых ответов, тестируемый выбирает один или несколько, по его мнению, правильных.

В педагогической практике наиболее удобными и широко используемыми для дистанционного обучения являются задания с предписанными ответами (закрытые), которые в свою очередь делятся на следующие виды:

  • задания с альтернативными ответами;
  • задания с множественным выбором;
  • задания с выражением ответа в виде восстановления частей предложений, фигур и т. д.

Tipi test zadanii.png

Рис. 8. Типы тестовых заданий

Альтернативные задания предусматривают наличие двух вариантов ответов (типа «да» – «нет», «верно» – «неверно» и т.д.).

Пример: Выберите, на ваш взгляд, верный вывод о «состоянии» Версальско-Вашингтонской системы в 1930-е гг.

1. Версальско-Вашингтонская система в 1930-е гг. была оплотом мира и спокойствия на международной арене да нет
2. Правовые и политические основы Версальско-Вашингтонской системы были полностью разрушены да нет

Правильный ответ: Правовые и политические основы Версальско-Вашингтонской системы были полностью разрушены

Достоинством этого вида заданий являются простота процедуры регистрации и обработки данных, четкая формализация оценивания. Этот тип заданий можно использовать для оценки способности тестируемого различать правильный и неправильный ответы, способности связывать причину и следствие. К недостаткам следует отнести высокую вероятность случайных ответов и то, что у обучающегося есть шанс «отгадать» правильный ответ. Поэтому не следует использовать данный тип заданий при оценке запоминания фактов, способности обучающегося синтезировать или анализировать сложную информацию. Основная сфера применения альтернативных заданий – быстрая проверка ориентированности обучающихся в учебной дисциплине, что может эффективно использоваться в текущем контроле.

Задания с множественным выбором предусматривают большее количество возможных ответов, как правило, от четырех и более. Задания с множественным выбором состоят из основы (вопрос или незавершенное предложение), правильного ответа и нескольких неправильных ответов, отвлекающих внимание. Есть, по меньшей мере, четыре вида задач с множественным выбором:

  • Правильный ответ – обучающийся выбирает правильный ответ из нескольких альтернатив.

Инструкция: выбрать один правильный ответ.

Стрелецкий бунт, в результате которого на престол были возведены цари Иван и Петр при регентстве Софьи, произошел

В качестве тестовых заданий могут быть использованы последовательные цепочки вопросов.

Инструкция: к каждому вопросу выбрать один правильный ответ.

Человек находится под постоянным воздействием своего внутреннего состояния.

1. Изменение внутреннего состояния человека воспринимается:

а) сознанием; б) органами чувств.

2. Данное восприятие вызывает:

а) изменение в состоянии организма; б) ухудшение в состоянии организма.

3. Данная реакция приводит к:

а) стабильности организма; б) внесению изменений в поведение человека.

Цепочка может быть продолжена, причем ее могут составлять тестовые задания различных видов.

  • Самый лучший ответ – обучающийся должен выбрать самый лучший ответ из нескольких вариантов.

Инструкция: выбрать один, наиболее точный ответ.

Какое из суждений наиболее точно определяет личность:

  • Несколько вариантов правильного ответа – обучающийся должен выбрать несколько правильных ответов из предложенного списка.

Инструкция: выбрать несколько правильных ответов.

Какие факторы предопределили непрочность Версальско-Вашингтонской системы?

  1. Традиционное военно-силовое мышление политических лидеров стран-победительниц и их непомерные требования.
  2. Новое государственное размежевание в Европе.
  3. Отсутствие экономической программы восстановления Европы.
  4. Исключение Советской России из договорной системы.
  5. Умеренная сумма репарационных платежей, возложенных на Германию.
  6. Противоречия между великими державами.
  7. Утверждение американским Конгрессом вступление США в Лигу Наций.
  8. Слабость Лиги Наций как международной организации, призванной обеспечить мир.
  9. Отказ Германии подписать Версальский договор.
  • Незаконченное утверждение – обучающийся должен закончить мысль, выбрав правильный ответ.

Инструкция: выбрать правильный ответ.

Под конфликтом в психологии понимают:

  1. Причины непонимания людьми друг друга, приводящих к обострению взаимоотношений.
  2. Столкновение взглядов, идей, убеждений, в основе которых лежат обостренные противоречия.
  3. Индивидуальные или коллективные акты поведения, идущие в разрез с общепринятыми нормами.
  4. Средства отстаивания своей позиции, не совпадающей с мнением большинства.

В заданиях с множественным выбором вероятность угадывания ниже, чем в альтернативных задачах, вместе с тем процедура обработки практически не усложняется. Это делает данный тип тестовых заданий предпочтительным в большинстве случаев. Он используется тогда, когда необходимо провести оценку знаний: насколько хорошо усвоен материал, как полученные знания используются в практической работе.

Следует избегать использования данного типа заданий, когда оценивается способность вспоминать факты, так как в данном случае проверяется способность распознавать правильные ответы. Не следует пользоваться данным типом заданий при оценке оригинальных и творческих подходов.

При разработке заданий с множественным выбором, в целях исключения подсказок со стороны других вариантов ответов, которые явно могут контрастировать с правильными, требуется подбирать внешне правдоподобные и похожие на правильный ложные ответы. При разработке данного типа тестовых заданий формулирование подобных ответов представляет наибольшую трудность. Если они составлены неудачно, то правильный ответ выделяется на их фоне и может быть легко «расшифрован» даже недостаточно обученным учащимся. В таком случае задание теряет свою контролирующую функцию. Чтобы задание «работало», все ответы должны быть привлекательными, причем желательно, чтобы их правдоподобность была более или менее равнозначной, равновероятной. Только тогда задание с множественным выбором становится удачным.

Выбор таких вариантов ответов сложен и обычно проводится на материале опроса по данному пункту при открытой форме ответа. Наиболее часто встречающиеся варианты неправильных ответов обучающихся обычно дают материал для составления вариантов ответов. В целях снижения вероятности появления случайных правильных ответов порядковые номера (места) вариантов должны меняться по случайному закону.

Задачи закрытого типа, построенные по принципу восстановления соответствия частей, являются модификацией задач с множественным выбором. Здесь в блок объединяется ряд задач и ответов на них, при этом количество задач и решений может совпадать (что более типично) или число ответов может быть больше, чем число задач данного блока.

При оценке выполнения задания следует учитывать, что все задание рассматривается как одно. Если допущена хотя бы одна ошибка, то ответ считается неверным.

В качестве примера тестовых заданий по выбору соответствия можно привести следующие:

Инструкция: установить соответствие.

Виды ассоциаций Определение
1. По смежности А. В памяти возникают прямо противоположные факты и явления
2.По контрасту Б. Основаны на «пространственных» связях
3. По времени В. Основаны на сходстве товаров
4. По сходству Г. Взаимодействие предметов, следующих друг за другом
. Д. Товары предназначены на одну и ту же сферу применения

Возможно иное расположение материала задания.

Инструкция: установить соответствие.

  1. ощущения,
  2. восприятие,
  3. внимание,
  4. память.

А. Направленность психической деятельности на какой-либо объект.

Б. Целостное отражение в коре головного мозга предметов и явлений окружающего мира.

В. Запоминание, сохранение и воспроизведение воспринятой информации.

Г. Познавательный и предметный процесс взаимодействия с окружающей действительностью.

Д. Отражение в коре головного мозга отдельных свойств предметов и явлений окружающего мира.

Данный тип тестовых заданий может использоваться при оценке понимания принципов и концепций, способности классифицировать информацию. В сущности, одно тестовое задание данного типа включает в себя несколько задач соответственно количеству пунктов задания. Это позволяет повысить эффективность и экономичность теста.

Задание закрытого типа на установление правильной последовательности. С помощью таких заданий можно проверить последовательность протекания процесса, порядок решения какой-либо задачи, алгоритм действия. К этим заданиям дается следующая инструкция: «Установить правильную последовательность». В отличие от вопросов с выбираемыми ответами, здесь важен порядок следования номеров правильных ответов. Если допущена хотя бы одна ошибка, то ответ оценивается как неверный.

Принцип правильной последовательности может быть применен к заданиям на ранжирование элементов по возрастанию или убыванию их значимости, свойств, количественных характеристик.

Инструкция: установить правильную последовательность.

Указать страны в порядке возрастания доли расходов на вооружение:

Комбинацией открытого и закрытого типов заданий являются задания на подстановку:

Инструкция: закончить предложение, выбрав правильный ответ.

Частые горизонтальные и вертикальные линии в иллюстрации вызывают у человека _____________ .

  1. спокойствие,
  2. раздражительность,
  3. вдохновленность,
  4. непринужденность.

Инструкция: дополнить, выбрав несколько правильных ответов.

Красный цвет ___________ кровяное давление, вызывает __________, указывает на ________________ человека.

  1. понижает,
  2. повышает,
  3. возбуждение,
  4. успокоение,
  5. спокойствие,
  6. энергичность.

В случае выбора нескольких правильных ответов важен порядок ввода их номеров. Задания на подстановку подходят для текущей проверки знаний, которая носит контрольно-обучающий характер. Без слов-подсказок уровень трудности заданий существенно выше (открытые задания).

Очевидно, что один и тот же вопрос может быть выражен как в форме открытого, так и в форме закрытого задания, поэтому для предъявления вопроса обучающемуся нужно искать форму, наиболее полно отвечающую целям тестового задания и тестирования в целом.

Возвращаясь к этапам разработки педагогических тестов следует отметить, что на заключительной стадии (этапе анализа) следует уделить особое внимание определению трудности заданий и установить шкалу оценивания теста.

В процессе составления теста задания подбираются так, чтобы они соответствовали определенному уровню трудности. Педагогические тесты предназначены для как можно более точной оценки индивидуального уровня знаний и умений учащихся, и если в таком тесте никто не может справиться с заданием, то оно оказывается балластом. То же самое можно сказать о заданиях, с которыми справляются все.

Показателем трудности тестового задания (р) является доля обучающихся, выполнивших и не выполнивших задание. Чаще всего степень трудности задания определяется процентом тестируемых, давших правильный ответ. Чем легче задание, тем выше этот процент. Если только 20% тестируемых (р=0,20) решили задачу, ее можно оценить как трудную для данной выборки, если 80% (р=0,80), – как легкую.

Оценка за выполнение каждого задания может варьироваться в зависимости от его важности и трудности. При выставлении оценки обычно используется номинальная шкала, в рамках которой за каждый правильный ответ на задания теста испытуемый получает один балл, за неправильный — ноль. Часто оценку теста определяют при помощи коэффициента усвоения (Q). Он определяется как отношение количества правильных ответов (ПО) к общему количеству заданий (КЗ), умноженное на 100%. Для четырехбалльной системы Q обычно принимают значения:

Оценка «5» – Q = 100%≥90%;

Оценка «4» – Q = 100%≥80%;

Оценка «3» – Q = 100%≥70%.

  1. Авапесов В.С. Формы тестовых заданий. М., 1991.
  2. Аванесов В.С. Композиция тестовых заданий. — М., Центр тестирования, 2002.
  3. Асямов С.В. Педагогическое тестирование в системе оценки знаний слушателей. – Ташкент, 2006
  4. Афонина М.В. Педагогический тест: требования к разработки и использованию . – Барнаул: БГПУ, 2006.
  5. Верин В.А. Как построить тест. – Спб., 1994.
  6. Градова Н.Ю. Объективно программированный тестовый контроль. –Ярославль, 1989.
  7. Майоров А.Н. Теория и практика создания тестов для системы образования: Как выбирать, создавать и использовать тесты для целей образования. М: Интеллект-Центр, 2002.
  8. Морев И. А. Образовательные информационные технологии. Часть 2.Педагогические измерения: Учебное пособие. — Владивосток: Изд-во Дальневост. ун-та, 2004.
  9. Нейман Ю. М., Хлебников В. А. Педагогическое тестирование как измерение. Ч.1. — М.: Центр тестирования МО РФ, 2002.
  10. Челышкова М.Б. Теория и практика конструирования педагогических тестов. Уч. Пособие. — М.: Логос, 2002.
  11. Христовский С.А. Методические основы проектирования электронного учебника // Проектирование образовательных информационных ресурсов, систем и технологий: Сб. докладов и сообщений.- М.: ИЦПКПС, 1998. — 75с.

Метод управления длиной системы одиночных тестовых заданий с единственным верным ответом Текст научной статьи по специальности «Компьютерные и информационные науки»

КРИТЕРИАЛЬНО-ОРИЕНТИРОВАННЫЙ ТЕСТ / ТЕСТОВОЕ ЗАДАНИЕ / РЕЗУЛЬТАТЫ ТЕСТИРОВАНИЯ / ТОЧЕЧНАЯ ОЦЕНКА / ИНТЕРВАЛЬНАЯ ОЦЕНКА / ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ / ЗАДАННАЯ ПОГРЕШНОСТЬ / ДОСТАТОЧНОЕ ЧИСЛО ТЕСТОВЫХ ЗАДАНИЙ / TEST TASK / CRITERION-ORIENTED TEST / INTERVAL ESTIMATE / CONFIDENCE INTERVAL / GIVEN ERROR / A SUFFICIENT NUMBER OF TEST ITEMS / RESULTS OF TESTING / THE POINT ESTIMATE

Аннотация научной статьи по компьютерным и информационным наукам, автор научной работы — Палкин Константин Сергеевич, Печников Андрей Николаевич, Печников Денис Андреевич

В статье рассматривается способ управления процессом выполнения системы одиночных критериально-ориентированных тестовых заданий с единственным верным ответом, обеспечивающий остановку тестирования при достижении заданной достоверности оценки его результатов.

i Надоели баннеры? Вы всегда можете отключить рекламу.

Похожие темы научных работ по компьютерным и информационным наукам , автор научной работы — Палкин Константин Сергеевич, Печников Андрей Николаевич, Печников Денис Андреевич

Экспериментальная апробация метода интервальной оценки результатов выполнения системы тестовых заданий с единственным верным ответом

Модели управления процессом критериально-ориентированного тестирования при подготовке специалистов на флоте

Метод интервальной оценки результатов выполнения системы одиночных тестовых заданий закрытого типа с единственным верным ответом

Решение задач текущего педагогического контроля на основе анализа результатов критериально-ориентированного тестирования

Модели и процедуры интервальной оценки результатов контроля знаний в компьютерных системах тестирования ВМФ

i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
i Надоели баннеры? Вы всегда можете отключить рекламу.

The article considers the control method of the system of single criterion-oriented test tasks gated with a single correct answer, providing the process to stop testing when the specified accuracy assessment of the results

Текст научной работы на тему «Метод управления длиной системы одиночных тестовых заданий с единственным верным ответом»

Метод управления длиной системы одиночных тестовых заданий с единственным верным ответом

Палкин Константин Сергеевич адъюнкт кафедры кораблевождения, Военный институт (военно-морской) ВУНЦ ВМФ «Военно-морская академия», Ушаковская наб., д. 17/1, г. Санкт-Петербург, Россия, 197045; тел. +79312027052;

Печников Андрей Николаевич доктор педагогических наук, доктор технических наук, профессор, профессор кафедры кораблевождения, Военный институт (военно-морской) ВУНЦ ВМФ «Военно-морская академия», Ушаковская наб., д. 17/1, г. Санкт-Петербург, Россия, 197045; тел. +79119221982;

Печников Денис Андреевич кандидат технических наук, доцент, доцент кафедры кораблевождения, Военный

институт (военно-морской) ВУНЦ ВМФ «Военно-морская академия», Ушаковская наб., д. 17/1, г. Санкт-Петербург, Россия, 197045, тел. +7921780580724;

В статье рассматривается способ управления процессом выполнения системы одиночных критериально-ориентированных тестовых заданий с единственным верным ответом, обеспечивающий остановку тестирования при достижении заданной достоверности оценки его результатов.

The article considers the control method of the system of single criterion-oriented test tasks gated with a single correct answer, providing the process to stop testing when the specified accuracy assessment of the results Ключевые слова

критериально-ориентированный тест; тестовое задание; результаты тестирования; точечная оценка; интервальная оценка; доверительный интервал; заданная погрешность; достаточное число тестовых заданий criterion-oriented test; test task; results of testing; the point estimate; interval estimate; confidence interval; given error; a sufficient number of test items

Ниже термин «тестовое задание» трактуется как «учебное задание специфической формы, элемент теста, минимальная законченная составляющая единица теста, по которой испытуемый в ходе выполнения теста совершает отдельное действие, а его результат регистрируются в первичном протоколе в форме отдельного ответа» [1]. Под термином «тест» понимается «совокупность тестовых заданий, позволяющая по результатам их выполнения объективно измерить уровень подготовленности испытуемых по конкретным разделам определенной области знания» [1]. Тесты и методы оценки результатов их выполнения разделяются на нормативно-ориентированные и критериально-ориентированные.

Тест нормативно-ориентированный — «частный случай относительного теста, позволяющий сравнивать учебные достижения (уровень подготовленности) отдельных испытуемых друг с другом или относительно предварительно полученных

тестовых норм» [1]. Тест критериально-ориентированный — «частный случай теста, предназначенного для абсолютного тестирования, позволяющий оценить, преодолел ли испытуемый определенный порог усвоения учебного материала рассматриваемой учебной программы или ее части. При этом результаты тестирования сравниваются с некоторым критерием уровня подготовленности» [1].

В непериодических [2,3,4,5,6,7,8,9,10] и в многочисленных периодических [11,12,13,14,15,16,17,18,19,20 и т.д.] специализированных изданиях обсуждаются преимущественно методы, модели и процедуры нормативно-ориентированного тестирования. При этом, как показывает проведенный в [21] анализ представленных в Интернет компьютерных систем тестирования (КСТ), в их числе, наоборот, абсолютно преобладают программные средства, ориентированные на решение задач критериально-ориентированного тестирования (Adit Testdesk, М-Тест, EasyQuizzy, MultiTester System, RSP, The Examiner testing system, FastTEST professional, C-Quest, CONTEST, SunRav TestOfficePro, HyperTest, UniTest System, TestMaster, AVELife TestGold Studio, АСТ-Тест Plus, e-University, RichTest, Tester, Грамотей-КЛАСС, ПОЛСТАР, «Контроль знаний», «Система проверки знаний», «Универсальный тестовый комплекс», «Экзаменатор», «Аттестация», УСАТИК и т.д.). Наличие такого противоречия обусловлено тем, что «для педагогического контроля уровня обученности более привычной и естественной является задача, решаемая в рамках критериально-ориентированного подхода» [8], но именно этот подход не имеет развитой теории построения процедур и оценивания результатов тестирования.

Методы классической теории тестов и современной тестовой теории IRT (Item Response Theory) преимущественно ориентированы не на выяснение отношений «усвоил — не усвоил» между обучаемым и конкретной совокупностью элементов содержания обучения, а на выяснение отношений вида «знает лучше — знает хуже» между обучаемыми, т.е. на ранжировку обучаемых по уровню обученности в рассматриваемой предметной области вне зависимости от достаточности или недостаточности достигнутого ими уровня усвоения. Вопросы проектирования и оценки результатов выполнения критериально-ориентированных тестов в теории тестирования решаются по остаточному принципу. В результате «отсутствие стандарта или хотя бы общепринятых норм и правил создания компьютерных систем тестирования привело к тому, что практически каждая из них является «вещью в себе» и не имеет описания алгоритмов функционирования, в частности, описания реализуемых процедур оценивания результатов тестирования» [22].

Эти обстоятельства определяют необходимость разработки и внедрения в программное обеспечение КСТ методов и процедур, которые непосредственно направлены на достижение целей критериально-ориентированного тестирования как средства текущего педагогического контроля.

В общем случае под педагогическим контролем понимается «система научно-обоснованной проверки результатов образования, обучения и воспитания» [23] или «функция управления образовательным процессом, осуществляемая с целью получения достоверной информации о ходе и результатах проводимой воспитательной и обучающей деятельности» [24]. В педагогическом контроле выделяют входной, текущий и итоговый виды контроля.

Входной и итоговый виды контроля предваряют и завершают обучение. Результаты этих видов контроля могут и должны учитываться при проектировании обучения, но не могут изменять уже начавшийся образовательный процесс. Поэтому эти виды контроля могут быть реализованы как средствами нормативно-ориентированного, так и критериально-ориентированного тестирования. В отличие от них, текущий контроль реализуется непосредственно в процессе обучения, а его «важнейшей функцией является функция обратной связи, которая позволяет преподавателю получать сведения о ходе процесса усвоения у каждого учащегося и адаптировать процесс обучения к их потребностям» [25].

В педагогике обратная связь определяется как «положительное или отрицательное воздействие результатов обучения на процесс освоения новых знаний и умений» [26]. В этой дефиниции под результатами обучения могут рассматриваться только оценки соотношения «усвоил — не усвоил» между обучаемым и изученным ранее содержанием обучения. Сравнительные оценки успешности обучаемых здесь не информативны, поскольку не способны оказать никакого влияния на последующий образовательный процесс. Другими словами, адаптировать процесс обучения к потребностям обучаемых на основе данных нормативно-ориентированного тестирования (Петя знает лучше Вани, а Ваня — лучше Кати) невозможно. Поэтому для решения задач текущего педагогического контроля могут использоваться только методы и средства критериально-ориентированного тестирования, целенаправленно ориентированные на идентификацию соотношения «усвоил — не усвоил» между теми конкретным обучаемыми и теми конкретными познавательными объектами, в отношении которых реализуется рассматриваемый процесс обучения.

Поскольку задачи текущего контроля решаются непосредственно в процессе обучения и имеют целью выработку адресных обучающих воздействий, то процесс критериально-ориентированного тестирования должен занимать минимум времени. Иначе говоря, к самому процессу критериально-ориентированного тестирования, а также процедурам обработки и презентации его результатов должно быть предъявлено требование оперативности.

Оперативность процедур обработки и отображения результатов действий обучаемых проблем не вызывает, поскольку полностью обеспечивается за счет быстродействия аппаратно-программных средств КСТ. А вот оперативность самой процедуры тестирования соответствующего обеспечения не имеет. Поэтому условия и методы ее реализации требуют более подробного рассмотрения.

Краткая история и современное состояние проблемы

Время выполнения теста определяется как произведение T = tn двух параметров: 1) t — «скорость теста (test speededness)» [23], оцениваемая временем выполнения одного тестового задания (для заданий закрытой формы обычно составляет 30-40 секунд на задание); 2) n — «длина теста (test length)», измеряемая числом тестовых заданий в тесте. Скорость тестирования t обусловлена психофизиологическими возможностями обучаемых, а потому не может быть существенно сокращена. Другое дело, длина n теста. На минимизацию этого параметра ориентирован ряд методов, которые, по своей сути, базируются на одном и том же подходе.

Суть общепринятого подхода к решению задачи минимизации числа заданий в тесте состоит в определении (выборе) такого наименьшего числа заданий, при котором соотношения «больше» или «меньше» между оценкой результатов тестирования и принятым критерием определяются с достаточной достоверностью.

У истоков рассматриваемого подхода стояли такие корифеи тестологии как Ф.М. Лорд (F.M. Lord) и М.Р. Новик (M.R. Novick). Они в 1968 году сформулировали положение о том, что «если результаты тестовой проверки квалификации представлены набором дихотомически оцениваемых (0-1) заданий, взятых из некоторого множества таких заданий, . то решение задачи определения числа тестовых заданий, которые необходимо выполнить для получения достоверной оценки, дает биномиальное распределение (при большом числе заданий), либо гипергеометрическое распределения (при небольшом числе заданий)» [27].

Положение о перспективности использования для решения задачи минимизации длины теста биномиального распределения далее развивал целый ряд исследователей, но конкретный толчок к полноценной формулировке задачи оптимизации длины теста дал Т. Криволл (T. Kriewall). В 1969 году в [28] он

высказал положение о том, что длина теста функционально связана с результатами тестирования, а значит может быть оптимизирована (минимизирована) с учетом индивидуального уровня подготовки обучаемого. Основываясь на этом положении, в 1972 году Д. Милман (J. Millman) в [29] предложил биномиальную модель оценки длины теста (биномиальную модель теста, метод Милмана). Аналогичные подходы в том же году опубликовали К. Клауер (K. Klauer) [30] и Т. Криволл (T. Kriewall) [31].

Метод Д. Милмана базируется на четырех предположениях: 1) тест состоит из случайной выборки дихотомически оцениваемых заданий; 2) тестовые задания независимы друг от друга; 3) вероятность правильного ответа оцениваемого испытуемого — величина постоянная для всех тестовых заданий; 4) ошибки подчиняются биномиальной модели.

Основу метода составляет биномиальная модель вида

P(L) = CW-x при Cx = ! (1)

где: P(L) — оценка вероятности события L появления x успехов в серии из n испытаний при рассматриваемых истинных значениях вероятностей p и q ; p -вероятность безошибочного выполнения задания; q = 1 — p — вероятность выполнения задания с ошибкой; x — число заданий, выполненных без ошибок; ( n — x ) — число заданий, выполненных с ошибкой; n — общее число заданий,.

По модели (1) в [29] рассчитана приведенная ниже таблица (см. табл. 1).

Возможный процент неправильно оцененных студентов [29] (Percent of students expected to be misclassified)

‘ass ! no Ita. of 1 STU№IT’S TRUE LCUCL-OF-FL.ICT I ON IU0*

Score Ttst I tens № 50 60 70 75 j 65 gc 55

1 2 Cut out of of 1 40 16 50 ZS ¿0 36 70 ‘и 75 se IS 20 10 IS 5 10

3 1| out out of of 3 4 Ù 3 13 ft 22 113 34 г* 42 Зг 33 4S 27 J* й 19

I) 5 out Out or □ F 5 ( у 4 «S M 34 23 53 te 63 53 16 22 S II 2 3

6 7 out out of of 7 Б 2 1 6 4 1С H 33 26 44 37 28 15 IS 4 6

6 3 Out Out of of 9 ID г 5 7 ч 2d 33 зо 53 40 ts гз 7 7

10 12 out cue of of 1! 15 2 г с о 25 30 39 46 20 13 1! 6 2 1

is 2D out Out of Of 20 25 — I s 3 24 13 41 ЗЬ 17 16 4 3 —

24 32 out out of of 30 40 — г 16 II 35 30 IS 14 3 2 —

40 48 Out of out of 50 60 — — а 6 26 23 12 ‘ 11 1 1 —

to во Out out of of 75 )00 — 4 г 19 IS 3 7 ■ —

В этой таблице приведены: 1) варианты оценок проходного балла (passing score), которые при рассматриваемой длине теста (№ of test items) соответствуют принятому критерию 0,8 (80%) успешности; 2) значения вероятности (в %) неправильной оценки студентов, которые набрали проходной балл, приведенный в

левом столбце таблицы, но имеют иной истинный балл (student true level-of-functioning, true score), под которым понимается «гипотетический балл, который получил бы испытуемый, если бы выполнил все задания из банка заданий для данного теста» [8,23,29]. Вертикальная пунктирная линия отображает принятый критерий успешности (80%). Оценки, которые приведены левее этой линии, обозначают вероятность неправильной положительной оценки испытуемого (зачет вместо незачета), а правее этой линии — неправильно выставленной отрицательной оценки (незачет вместо зачета).

Реализация метода предполагает анализ представленной выше таблицы (см. табл. 1) и выбор на основании приведенных в ней данных той длины теста, вероятности ошибок которой тестирующий считает допустимыми. Этот анализ рекомендуется проводить в следующей последовательности [29]: 1) задается величина критериального балла; 2) задается максимально допустимая вероятность для неправильной положительной аттестации при определенном истинном балле ниже критериального балла; 3) задается максимально допустимая вероятность для неправильной неаттестации при определенном истинном балле выше критериального балла; 4) путем экспертной оценки выбирается та длина теста, которая наиболее полно соответствует предъявленным требованиям. Последняя процедура в методе Милмана являлась эвристической, что вызвало необходимость ее формализации.

Для этого задача определения минимальной длины теста была сформулирована как задача выбора такой длины теста, которая бы при сравнении достигнутой вероятности p успешного выполнения теста с критериальным

значением p0 этой вероятности обеспечивает исключение заданных величин ошибок 1 рода (а ), когда знающий материал студент получает отрицательный результат (незачет), и 2 рода (в), когда не знающий материала студент получает зачет.

Поиск решения такой постановки задачи развивался в двух направлениях. В рамках первого направления искомые параметры биномиальной модели Милмана определялись на основе использования закономерностей самого биномиального распределения. Второе направление предполагало поиск этих же параметров модели Милмана путем аппроксимации биномиального распределения нормальным.

Первый законченный вариант реализации первого подхода [32] был предложен Р.Р. Вилкоксом (R.R. Willcox) в 1980 году. Р.Р. Вилкокс показал, что решение рассматриваемой задачи может быть сведено к поиску параметров, обеспечивающих выполнение представленных ниже соответствий [32]:

где: p — оценка вероятности угадывания правильных ответов обучаемым; m — число дистракторов (альтернатив) в тестовых заданиях; x — число заданий, выполненных без ошибки; n — общее число заданий;

pi = (1 -а)(Ро-8) + в(1 — po + 8);1 p2 = (1 -а)(po + 8) + в(1 — po8,

где p1, p2 — оценки вероятности p правильного выполнения заданий соответственно для наименьшего (p0 -8 ) и наибольшего (p0 + 8 ) из допустимых значений p0; 8 — величина максимально допустимого отклонения p0;

P2 = i CXPX(1 -p2)n-x

где: P1, P2 — так называемые оценки «правильного решения» (correct decision) соответственно для p1, p2 из (3); n0 — искомая минимальная длина теста; а, в -соответственно значения значимости ошибок 1 и 2 рода принимаемых решений.

Далее Р.Р. Вилкокс в качестве решения задачи рассматривает число n0 тестовых заданий, при котором обе оценки P1, P2 в (4) при 8* < 0,1 близки к 1 (р >0,9 e P2 > 0,9). Оставаясь верным биномиальному распределению, он предлагает компьютерную программу итерационного подбора P, P2 при заданных значениях параметров о ,a,в,8 . На основе таких расчетов он публикует в [32] ряд таблиц, одна из которых приведена ниже (см. табл. 2).

Варианты минимальной длины теста [32] (Minimum Test lengths Using Correction for Guessing Formula Scores, p0 = 0,8 and PJ 2 = 0,9)

а Р п(ш= 4) n (m = 5 )

0 . 4 0 _ 5 Э 2 8 1

. 0 2 . 3 0 5 _ 5 б

. 0 2 . 4 0 _ 1 3 2 0 5

. 0 5 . _ 5 4 19 _ 8 8

. 0 7 . 1 5 >_ 5 00 >1400

Реализуя второй подход, С. Фанер в [33] приводит соотношения, которые аналогичны (2-4), но дальше отходит от биномиальной модели и использует ее аппроксимацию нормальным распределением

на основе которой получает аналитическое решение вида

Z1-aV т (1 — pi ) + np2 (1 — p2 ) p2 — А

где 2х_а, р — квантили стандартного нормального распределения, соответствующие (1 -а) и (1 — в) соответственно.

Результаты аппроксимации биномиальной модели (4) нормальным распределением С. Фанер представляет в виде таблицы (см. табл. 3), в которой приводит результаты применения своего метода (расчет по формуле (6), в табл. 3 -столбец «n(6)») и метода Р.Р. Вилкокса (расчет по формуле (4), в табл. 3 — столбец «n(4)»), а также оценки Ap = p2 — p1 соответствующих зон неопределенности (интервалов безразличия).

Варианты минимальной длины теста [33] (Minimum Number of Items for a = в = 0,05 )

Р\ Р2 Pi-Pi и(4) я(6)

0.30 0.70 0.40 13 9

0.35 0.65 0.30 19 17

0.40 0.60 0.20 43 40

0.45 0.55 0.10 -т 163

0.55 0.95 0.40 13 6

0.60 0.90 0.30 19 12

0.65 0.85 0.20 43 29

0.70 0.80 0.10 -г 121

-T The binomial table used restricted to n

Комментируя полученные результаты, С. Фанер отмечает, что для обоих методов «сужение интервала безразличия ведет к необходимости включения в тест неприемлемо большого числа заданий. Двигаясь в обратном направлении, мы для тестов приемлемой длины в 30-50 заданий получаем достаточно большую (около 0,2) ширину зоны безразличия» [33]. Сравнивая результаты (см. табл. 3) применения метода Р.Р. Вилкокса и своего метода, он приходит к выводу, что «аппроксимация биномиальной модели нормальным распределением дает несколько заниженные оценки длины теста, но имеемые различия практического значения не имеют» [33].

i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

Хотя метод С. Фанера появился раньше и с позиций реализации выглядит привлекательнее, более широкое признание и распространение получил метод Р.Р. Вилкокса, обозначенный как «метод нейтральной зоны Вилкокса» [8]. Причина более широкого распространения этого метода состоит в том, что применение метода С. Фанера корректно не всегда, а только в определенных условиях: 1) при np > 5, nq > 5 и 0,1 < p < 0,9 [34]; 2) при npq >9 [35]; 3) при n > 100 и npq > 20 [36].

Однако, на наш взгляд, дело даже не в соблюдении конкретных условий, а в конфликте направленности эффективности рассматриваемого метода и целей, которые должны быть достигнуты в результате его применения. В общем случае нельзя признать корректным применение для решения задачи минимизации какого-либо параметра метода, эффективность которого снижается с уменьшением этого параметра. В рамках рассматриваемой задачи нас интересуют именно минимальные значения числа n тестовых заданий, т.е. те значения n , при которых примененный С. Фанером метод наименее всего работоспособен. Из этих же соображений бесполезным в отношении задачи минимизации длины теста представляется также метод А.И. Буравлева и В.Ю. Переверзева [37], которые в 1999 году повторили попытку С. Фанера в аппроксимации биномиального распределения нормальным при оценке оптимальной длины теста и надежности его результатов.

Следующий шаг в развитии подхода Д. Милмана — Р.Р. Вилкокса в 1980-82 годах сделали Р.А. Берк (R.A. Berk) и Ван дер Линден (Wim J. van der Linden), которые представили в [38,39] аналитическое решение (4).

Они обратили внимание на то, что «в рамках принятой биномиальной модели имеет место линейная зависимость между проходным баллом и соответствующей ему длиной теста» [39] и эта зависимость «может быть использована в процедуре оптимизации длины теста в качестве нового критерия» [39].

Перспективность применения такого нового критерия определялась тем, что, если раньше для обозначения проходного балла как критерия оценки результатов тестирования следовало указывать два вариативных показателя (число c набранных баллов и число n тестовых заданий), то теперь стало достаточно указать только один постоянный показатель — отношение с/n, величина которого остается постоянной при изменении длины теста (числа выполненных тестовых заданий). Было обосновано, что для такого критериального показателя справедливо соотношение

4 = ß для с1; 1 -a

i 1 -ß л i2 =- для с2

где: с12 — соответственно значения проходного балла для верхней (р2) и нижней (р1) границ зоны неопределенности (интервала безразличия),

Как отметил Ван дер Линден, это «соотношение интересно тем, что левая его часть представляет из себя относительную оценку проходного балла, а правая является константой, которая не зависит от длины теста и определяется только граничными значениями зоны безразличия. Всякий раз, когда устанавливаются границы зоны безразличия, мы получаем возможность узнать проходной балл для любой длины теста» [39].

Если выбрать для зоны безразличия параметры а = в = 0,05; р0 = 0,5; 8 = 0,1

(р1 = 0,4; р2 = 0,6 ) из третьей строки табл. 3 и выполнить (7) для п = 1,50 , зоны принятия решения вида «усвоил — не усвоил (зачет — не зачет, аттестован — не аттестован и т.п.)» примут вид, представленный на рис. 1.

— Р Область принятия положительного решения (усвоил, зачет, аттестован)

— Р2 Область безразличия п0= =40

—Р1 — Область принятия отрицательного решения (не усвоил, незачет, не аттестован) n

1 6 11 16 21 26 31 36 41 46

граница р2 зоны принятия положительного решения (зачет) граница р1 зоны принятия отрицательного решения (незачет) Рис. 1. Области принятия решения «усвоил — не усвоил (зачет- незачет)»

Графики, приведенные на рис. 1, в явном виде демонстрируют правоту Ван дер Линдена. Разработанный в [38,39] метод оценки длины теста гораздо информативнее метода нейтральной зоны Вилкокса, поскольку дает возможность представить зоны безразличия и принятия решений в виде двухмерных областей, а не одномерных интервалов.

Двумерное представление рассматриваемых зон, в свою очередь, позволяет не только определять целесообразную длину теста, но и контролировать динамику изменения координат результата выполнения теста обучаемым относительно областей принятия решений, а также фиксировать момент перехода оценки результатов тестирования из области безразличия в одну из областей принятия решений. Последнее определило возможность реализации идеи индивидуального критериально-ориентированного тестирования [8,9,37,38,40].

Идея индивидуального критериально-ориентированного тестирования исходит из того, что «обязывать каждого обучаемого проходить полностью критериально-ориентированный тест не рационально, . любой испытуемый должен продолжать тестирование до тех пор, пока не станет совершенно ясно, что его «истинный» уровень подготовленности (true score) выше или ниже критериального балла (стандарта оценивания)» [38]. Другими словами, цели индивидуального критериально-ориентированного тестирования направлены на выполнение требования оперативности текущего педагогического контроля путем «минимизации числа тестовых заданий, который должен выполнить испытуемый, за счет остановки процесса тестирования после выполнения очередного задания и получения текущих результатов, обеспечивающих принятие достоверного индивидуального решения «аттестован — не аттестован (зачет — не зачет)» [40]. Это позволяет определить индивидуальное критериально-ориентированное тестирование как метод управления длиной критериально-ориентированного теста путем ее минимизации на основе проводимой в режиме реального времени оценки достоверности результатов сравнения текущего и критериального значений принятых показателей вероятности успешного выполнения тестовых заданий.

В области нормативно-ориентированного тестирования сегодня широко обсуждаются процедуры адаптивного тестирования, которое также достигает свои цели путем минимизации числа предъявляемых обучаемому тестовых заданий. Поэтому представляется целесообразным разделить понятия и подходы адаптивного нормативно-ориентированного тестирования и индивидуального критериально-ориентированного тестирования.

Адаптивное тестирование определяется как «совокупность процессов генерации, предъявления и оценки результатов выполнения адаптивных тестов, обеспечивающая прирост эффективности измерений по сравнению с традиционным тестированием» [41]. «Тест адаптивный — это система стандартизованных заданий с известными (заданными) параметрами трудности и дифференцирующей способности. Очередность предъявления каждого задания зависит от успешности выполнения испытуемым предыдущего задания. При верном выполнении предыдущего задания — степень трудности последующего возрастает, и наоборот. . Самая главная характеристика заданий адаптивного теста — это уровень их трудности» [42]. Л. Крокер (Linda Croker) и Дж. Алгина (James Algina) трактуют уровень трудности (трудность) тестового задания (item difficulty) как «основную статистическую характеристику тестового задания, определяемую долей испытуемых выборки, которые отвечают на это задание правильно» [43]. При этом они указывают, «что это — технический термин, который иногда кажется противоречащим общепринятой трактовке термина «трудность» [43].

Таким образом, в адаптивном тестирования «трудность задания» — это условное наименование некоторого заранее известного параметра, который используется для оптимизации процедуры выбора следующего тестового задания, но

не соответствует смысловому содержанию понятия трудность в педагогике и определяется заранее, а, значит, не характеризует деятельность испытуемых, проходящих тестирование.

Как средство текущего педагогического контроля критериально-ориентированное тестирование «направлено на формирование качественных знаний путем своевременного выявления пробелов для столь же своевременного их устранения» [10]. Потому оно должно предоставлять информацию о проблемах (трудностях), возникших при усвоении тестируемых объектов, в полном соответствии с представлениями педагогики.

В педагогике термин «трудность» обычно употребляется в смысле субъективной сложности усвоения изучаемого объекта (для обучаемого) или его предъявления (для преподавателя). Если в соответствии с таким подходом рассматривать результат выполнения каждого из тестовых заданий как адекватное последствие вполне определенного обучающего воздействия (приема или способа обучения) на обучаемого со вполне определенным уровнем обучаемости, то доля ошибок в выполнении тестовых заданий обучаемым, будет характеризовать его трудности в освоении тестируемых познавательных объектов. Соответственно доля обучаемых, которые выполнили определенное тестовое задание неправильно, будет характеризовать трудности и проблемы преподавателя в выборе того обучающего воздействия, которое было реализовано при изучении познавательного объекта, фигурирующего в рассматриваемом тестовом задании.

Таким образом, в сфере текущего педагогического контроля применение методов и моделей адаптивного тестирования некорректно ввиду того, что в адаптивном тестировании трудность задания известна заранее, а в индивидуальном критериально-ориентированном тестировании является целью его проведения. Поэтому все достижения адаптивного тестирования к индивидуализации процедуры критериально-ориентированного тестирования как средству обеспечения оперативности текущего педагогического контроля отношения не имеют.

Основанные на (7) идеи индивидуального критериально-ориентированного тестирования представлены в виде частных моделей [8,9,37,40] и алгоритма последовательного анализа результатов тестирования при дихотомическом оценивании типа «зачет — незачет» [38]. В 2012 году был проведен натурный эксперимент по оценке работоспособности этих моделей и алгоритмов.

Группе из 134 курсантов был предложен тест по знанию основных понятий навигации. Тест включал 50 закрытых заданий с выбором из предложенных 5 альтернатив единственного верного ответа. Каждому испытуемому задания предъявлялись в случайном порядке на КСТ.

После выполнения каждого тестового задания текущие индивидуальные результаты тестирования фиксировались в виде соответствующего модели (7) показателя безошибочности (частости успеха)

где: р* — частость успешного выполнения задания; , (, = 1,п) — номер тестового задания; п — число выполненных заданий, х1 (х1 = 0,1) результат выполнения одиночного задания по условию: х1 = 1 — ошибки нет, х1 = 0 — ошибка есть.

По завершении тестирования траектория полученных результатов наносилась на рассчитанные по модели (7) области безразличия и принятия решений. Расчет этих областей производился с параметрами а = в = 0,05; р0 = 0,5; 8 = 0,1 (р1 = 0,4; р2 = 0,6), представленными выше на рис. 1.

В результате обработки выяснилось, что основанный на модели (7) алгоритм последовательного анализа результатов тестирования [38] для любой из траекторий абсолютно безошибочно фиксирует момент вхождение и выхода текущего результата тестирования из области безразличия в области принятия решений и наоборот. Другими словами, он вырабатывает сигнал остановки тестирования, который соответствует принятым областям принятия решений. Однако в 10 (7,5 %) исследованных ситуациях тестирования этот сигнал являлся преждевременным, а в 16 (11,9 %) ситуациях сигнал остановки тестирования не вырабатывался вообще.

В качестве типичного примера ситуации выработки преждевременного сигнала на остановку тестирования на рис. 2 представлена траектория результатов обучения обучаемого №18, фактически имевшая место в процессе эксперимента. Этот испытуемый в начале процедуры тестирования при выполнении заданий с 3 по 16 подряд допустил ряд ошибок, в результате которых текущее значение показателя его безошибочности после задания 15 вошло в область принятия отрицательного решения (незачет) и был выработан сигнал остановки тестирования. Сигнал перестал вырабатываться после выполнения задания 23. После выполнения задания 37 сигнал был выработан вновь, но уже как сигнал успешного прохождения теста.

граница р2 зоны принятия положительного решения (зачет) граница р1 зоны принятия отрицательного решения (незачет) — — результаты обучаемого №18

Рис. 2. Типичный вид неправильно диагностируемой траектории результатов тестирования

По результатам эксперимента был сделан вывод, что подобные сбои в выработке сигналов на остановку процесса тестирования возникают в оцениваемом алгоритме из-за принятой модели (8) представления текущего значения успешности результатов тестирования. Эта модель адекватно оценивает сложившуюся ситуацию, но не способна обеспечить прогнозирование направления ее развития.

Постановка и решение задачи

При анализе факторов, которые не учитывались в моделях и алгоритме последовательного анализа результатов тестирования [38] и могли влиять на достоверность решения об идентификации результатов тестирования, выяснилось, что в качестве такого фактора могла выступать только погрешность текущего значения р* показателя безошибочности, оцениваемого по модели (8).

Было принято решение вместо точечной оценки (8) для расчета текущего значения успешности результатов тестирования использовать предложенную в [44]

интервальную оценку р, получаемую после выполнения каждого из текущих тестовых заданий путем решения задачи нелинейного программирования вида

р = атм тах Скпр»- к (1 — р)к+1 £ рк

при р е (0,1); / = 1, п; к = 1, п; А = 1, (п — к), £ к* = п — к

где: к — число заданий, выполненных с ошибкой, п — общее число заданий, п — к -число заданий, выполненных без ошибок; И* — длина вектора непрерывного успеха [44], оцениваемая числом успешно выполненных подряд тестовых заданий.

Соответственно для определения доверительных интервалов оценок вида (9) использовалась формула расчета точного доверительного интервала (ДИ) биномиального распределения [44]

‘ — (п — к) + (п — к + 1) Е2( п — к+1),2 к ,1-./ 2 1

где р , р+ — соответственно нижняя и верхняя границы ДИ; п — число испытаний, к —

число ошибок, а — квантиль порядка а распределения Е с степенями

свободы; к — число заданий, выполненных с ошибкой, п — общее число заданий, п — к — число заданий, выполненных без ошибок.

Задача определения минимальной длины теста была представлена в традиционном виде как задача выбора такой длины теста, которая бы при сравнении достигнутой вероятности р успешного выполнения теста с критериальным

значением р0 ±8 обеспечивала заданную достоверность принятого решения.

В качестве условий выполнения требований этой задачи были приняты соотношения, представленные на рис. 3.

1,0 0,8 0,6 0,4 0,2 0,0

Ситуации отрицательного решения (незачет)

Ситуации положительного решения (зачет)

нижняя граница ДИ верхняя граница ДИ

граница р 1 зоны принятия отрицательного решения (незачет) граница р2 зоны принятия положительного решения (зачет) -значение критерия принятия решения

Рис. 3. Области принятия решения «усвоил — не усвоил (зачет- незачет)»

Эти соотношения определяют следующий порядок принятия решений:

1. Сигнал о принятии положительного решения и остановке тестирования вырабатывается в следующих ситуациях:

1) когда нижняя граница р- ДИ оказывается выше верхней границы (р0 + 8) области безразличия (см. рис. 3 ситуация 1), т.е. при выполнении условий вида

2) когда ширина 28 области безразличия оказывается больше ширины (Р+ — Р-) ДИ, а верхняя граница р+ ДИ оказывается выше верхней границы (р0 + 8) области безразличия (см. рис. 3 ситуация 1), т.е. при выполнении условий вида

2. Сигнал о принятии отрицательного решения и остановке тестирования вырабатывается в следующих ситуациях:

1) когда верхняя граница р+ ДИ оказывается ниже нижней границы (р0 — 8) области безразличия (см. рис. 3 ситуация 1), т.е. при выполнении условий вида

2) когда ширина 28 области безразличия оказывается больше ширины (р+ — р-) ДИ, а нижняя граница р- ДИ оказывается ниже нижней границы (р0 — 8) области безразличия (см. рис. 3.2), т.е. при выполнении условий вида

i Не можете найти то, что вам нужно? Попробуйте сервис подбора литературы.

3. В остальных случаях вырабатывается сигнал продолжения тестирования.

Такой подход позволил устранить преждевременное принятие решения и

выработку сигнала остановки тестирования во всех 10 ситуациях обучающей выборки. В частности, траектория результатов обучения испытуемого №18, представленная на рис. 2, приняла вид, приведенный на рис. 4.

нижняя граница ДИ верхняя граница ДИ

граница р1 зоны принятия отрицательного решения (незачет) граница р2 зоны принятия положительного решения (зачет) -значение критерия принятия решения

Рис. 2. Вид траектории результатов тестирования испытуемого №18 при оценке по моделям (9,10)

В отношении этого испытуемого сигнал положительного решения по результатам тестирования (зачет) и остановка тестирования были осуществлены после выполнения задания 44, когда условия (11) были выполнены в следующем виде:

Таким образом, выполнение условий (11-14) при управлении длиной теста по моделям (9,10) обеспечило отсутствие случаев преждевременной остановки тестирования и принятия недостоверных решений, но не исключило необходимость выполнения всего теста и отсутствие решений в отношении 16 (11,9 %) ситуаций обучающей выборки, в которых решение по аттестованию испытуемых не принималось, а сигнал остановки тестирования не вырабатывался.

В отношении 118 (88,9%) случаев, по которым было принято решение и произведена остановка процесса тестирования, была произведена оценка предельных

и вероятного значения модуля отклонения значений pj вероятностей успеха, по

которым принималось решение, от соответствующего «истинного» значения

p^0 («истинного балла»). Результаты Apmin = 0 < Ap = 0,086 < Apmax = 0,263 позволяют

сделать вывод о вполне удовлетворительных прогностических возможностях метода индивидуального критериально-ориентированного тестирования по моделям (9,10) и условиям (11-14).

В 2013 году рассматриваемый метод был проверен на независимой выборке из 87 курсантов на том же тесте и по той же методике. Здесь случаев преждевременной выработки сигнала остановки тестирования не наблюдалось. В 13 случаях решение по аттестованию испытуемых не было принято и остановка тестирования не производилась вплоть до полного выполнения теста. Оценка прогнозных возможностей метода производилась по данным 73 испытуемых и дала результаты

На основании полученных оценок можно сделать вывод, что предлагаемый метод индивидуального критериально-ориентированного тестирования устраняет некоторые недостатки метода, представленного в [38]. Однако он пока не позволяет полностью отказаться от волюнтаристических решений в отношении траекторий результатов тестирования лежащих в области безразличия.

1. Проект отраслевого терминологического стандарта Центра тестирования. Педагогические тесты. Термины и определения. — М.: Центр тестирования и развития «Гуманитарные технологии», 2009. URL: http://www.ege.ru/dict/dict1.htm (дата обращения: 05.01.2015)

2. Войтов А.Г. Тестология гуманитариям. Теория и практика учебного тестирования. — М.: МГУ 2005. — 401с. URL: http ://www .twirpx. com/file/269589/ (дата обращения: 05.01.2015)

3. Ефремова Н.Ф. Тестовый контроль в образовании. — М.: Университетская книга, Логос, 2007. — 263 с. URL: http://www.twirpx.com/file/1436309/ (дата обращения: 05.01.2015)

4. Ким В.С. Тестирование учебных достижений: Монография. — Уссурийск: Издательство УГПИ, 2007. — 214 с. URL: http://www.twirpx.com/file/639729/ (дата обращения: 05.01.2015)

5. Крокер Л., Алгина Дж. Введение в классическую и современную теорию тестов: учебник / пер. с англ. Н.Н. Найденовой, В.Н. Симкина, М.Б. Челышковой; под общ. ред. В.И. Звонникова, М.Б. Челышковой. — М.: Логос, 2010. — 668 с. URL: http://www.twirpx.com/file/1346290/ (дата обращения: 05.01.2015)

6. Михайлычев Е.А. Дидактическая тестология. — М.: Народное образование, 2001. — 432 с. URL: http://www.twirpx.com/file/276208/ (дата обращения: 05.01.2015)

7. Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. — Москва: Прометей, 2000. — 168 с. URL: http://bookre.org/reader?file=507195 (дата обращения: 05.01.2015)

8. Переверзев В.Ю. Критериально-ориентированные педагогические тесты для итоговой аттестации студентов. — М.: Изд-во НМЦ СПО Минобразования РФ, 1998. — 152с. URL: http://www.twirpx.com/file/279031/ (дата обращения: 05.01.2015)

9. Переверзев В.Ю. Технология разработки тестовых заданий: справочное руководство — М.: Е-Медиа, 2005. — 272 с.

10. Челышкова М.Б. Теория и практика конструирования педагогических тестов: Учебное пособие. — М: Логос, 2002. — 432 с. URL: http://www.twirpx.com/file/101903/ (дата обращения: 05.01.2015)

11. Кинцель Д.А., Кузнецов А.В. Нечисловой подход к моделям тестирования и оцениванию параметров тестов // Образовательные технологии и общество (Educational Technology & Society). 2007. Т. 10. № 1. С. 276-281. URL: http://ifets.ieee.org/russian/periodical/journal.html (дата обращения: 05.01.2015).

12. Кузнецов А.В. Методика тестирования знаний и устранение случайных ошибок // Образовательные технологии и общество (Educational Technology & Society). 2007. Т. 10. № 1. — С. 271-275. URL: http ://ifets.ieee.org/russian/periodical/i ournal. html (дата обращения: 05.01.2015).

13. Галеев И.Х., Иванов В.Г., Аристова Н.В., Урядов В .Г. Сравнительный анализ программных комплексов TestMaker и ACT-Тest // Образовательные технологии и общество (Educational technology & Society). 2007. Т. 10. № 3. С. 336-360. URL: http://ifets.ieee.org/russian/periodical/iournal.html (дата обращения: 05.01.2015).

14. Рукшин С.Е., Поздняков С.Н. Технология дистанционной поддержки экспресс-олимпиад, построенных на оценке суждений // Образовательные технологии и общество (Educational Technology & Society). 2010. Т. 13. № 3. С. 374-386. URL: http://ifets.ieee.org/russian/periodical/journal.html (дата обращения: 05.01.2015).

15. Кузьмин Д.Н., Гриценко Е.М. Структурно-функциональная модель сетевого динамического тестирования на основе автомата. // Образовательные технологии и общество (Educational Technology & Society). 2011. Т. 14. № 3. С. 337-353. URL: http://ifets.ieee.org/russian/periodical/journal.html (дата обращения: 05.01.2015).

16. Сафаров Р.Х., Панищев О.Ю. Численное моделирование инвариантности оценки знания относительно трудности тестовых заданий в рамках модели Г. Раша // Образовательные технологии и общество (Educational Technology & Society). 2012. Т. 15. № 1. — С. 424-435. URL:

http://ifets.ieee.org/russian/periodical/journal.html (дата обращения: 05.01.2015).

17. Хохлов Д.Г., Захарова З.Х., Захаров А.Н. Оценка уровня подготовки в системе электронного обучения программированию // Образовательные технологии и общество (Educational Technology & Society). 2012. Т. 15. № 1. С. 537-554. URL: http://ifets.ieee.org/russian/periodical/journal.html (дата обращения: 05.01.2015).

18. Оганесян А.Г. Анатомия внешнего независимого оценивания знаний // Образовательные технологии и общество (Educational Technology & Society). 2012. Т. 15. № 4. С. 457-479. URL:

http://ifets.ieee.org/russian/periodical/journal.html (дата обращения: 05.01.2015).

19. Колгатин А.Г., Колгатина Л.С. Вопросы качества процедур тестирования и интерпретации тестовых результатов в информационно-коммуникационной педагогической среде // Образовательные технологии и общество (Educational Technology & Society). 2013. Т. 16. № 1. С. 575-585. URL:

http://ifets.ieee. org/russian/periodical/j ournal. html (дата обращения: 05.01.2015).

20. Осадчий В.В. Компьютерная система рейтингового оценивания знаний как средство повышения уровня знаний студентов // Образовательные технологии и общество (Educational Technology & Society). 2013. Т. 16. № 4. С. 361-371. URL: http://ifets.ieee. org/russian/periodical/j ournal. html (дата обращения: 05.01.2015).

21. Туктаров Р.Р. Модели и процедуры оценки знаний в компьютерных системах тестирования ВМФ: дис. . канд. техн. наук. — Новороссийск: ГМУ им. адмирала Ф.Ф. Ушакова, 2013. — 248 с.

22. Карпов В.Э., Карпова И.П. Язык описания системы контроля знаний // Компьютеры в учебном процессе, 2000, № 4, С. 147-155

23. Балыхина Т.М. Словарь терминов и понятий тестологии. — М.: РУДН, 2000. -86с. URL: http://www.psyoffice.ru/slovar-s 174.htm (дата обращения: 05.01.2015)

24. Коджаспирова Г.М., Коджаспиров А.Ю. Словарь по педагогике.- М.: ИКЦ «МарТ»; Ростов н/Д: Изд. центр «МарТ», 2005. — 448 с. URL: http://www.twirpx.com/file/64113/ (дата обращения: 05.01.2015)

25. Талызина Н.Ф. Педагогическая психология. — М.: Изд. центр «Академия», 1998. — 288с. URL: http://www.persev.ru/book/pedagogicheskaya-psihologiya (дата обращения: 05.01.2015)

26. Вишнякова С.М. Профессиональное образование словарь. Ключевые понятия, термины, актуальная лексика. — М.: НМЦ СПО, 1999. — 538с. URL:

http://mexalib.com/view/39189 (дата обращения: 05.01.2015)

27. Lord F. M., Novick M. R. Statistical theories of mental test scores. Reading, Mass.: Addison-Wesley, 1968.

28. Kriewall, Thomas Edward. Application of Information Theory and Acceptance Sampling Principles to the Management of Mathematics Instruction. Unpublished doctoral dissertation, University of Wisconsin, 1969.

29. Millman Jason, 1972, Determining test length: Passing scores and test length for objectives-based tests. Los Angeles: Instructional Objectives Exchange, 33 p.

30. Klauer, K. J. (1972). Zur Theorie und Praxis des binomialen Modells lehrzielorientierter Tests. In K.J. Klauer, R. Fricke, M. Herbig, H. Rupprecht & F. Schott (Hrsg.), Lehrzielorientierte Tests. Beiträge zur Theorie, Konstruktion und Anwendung. Düsseldorf: Schwann.

31. Kriewall, T.E. Aspects of applications of criterion-referenced tests. Illinois School Research, 9, 5-18, 1972.

32. Willcox, R.R. Determining the length of a criterion-referenced test. Applied Psychological Measurement, 1980, 4, pp. 425-446. URL:

https://conservancy.umn.edu/bitstream/handle/11299/100199/v04n4p425.pdf7sequenc e=1 (дата обращения: 05.01.2015)

33. Fhaner, S. Item sampling and decision-making in educational testing. British Journal of Mathematical and Statistical Psychology, 27, 172-175, 1974.

34. Эддоус М., Стэнсфилд Р. Методы принятия решений / Пер. с англ. под ред. член-корр. РАН И.И. Елисеевой. — М.: Аудит, ЮНИТИ, 1997. — 590 с. URL: http://www.twirpx.com/file/31403/ (дата обращения: 05.01.2015)

35. Джонсон Н.Л. Одномерные дискретные распределения / Н.Л. Джонсон, С. Коц, А.У. Кемп; пер. 2-го англ. изд. — М.: БИНОМ, Лаборатория знаний, 2012. — 559с.

36. Кремер Н.Ш. Теория вероятностей и математическая статистика: Учебник для вузов. — 2-е изд., перераб. и доп. — М.: Юнити-Дана, 2004. — 573 с. URL: http://www.e-ioe.ru/sod/99/2 99/st160.html (дата обращения: 05.01.2015)

37. Буравлев А.И., Переверзев В.Ю. Выбор оптимальной длины педагогического теста и оценка надежности его результатов // Открытое образование. 1999. №2. С. 23 -26. URL: http://www.e-ioe.ru/sod/99/2 99/st160.html (дата обращения: 05.01.2015)

38. Berk R.A. Criterion-referenced measurement: The state of art, Baltimor,MD: Johns Hopkins University Press, 1980.

39. Wim J. van der Linden. (1982). Passing score and length of a mastery test. Evaluation in Education. 1982, Vol. 5, pp. 149-164. URL:

http://doc.utwente.nl/68993/1/Linden82passing.pdf (дата обращения: 05.01.2015)

40. Переверзев В.Ю. Моделирование процесса критериально-ориентированного педагогического тестирования курсантов вузов: Дис. . канд. пед. наук. — М.: Военный университет, 2000. — 198c.

41. Челышкова М.Б. Адаптивное тестирование в образовании (теория, методология, технология). — М: Исследовательский центр проблем качества подготовки специалистов, 2001. — 165 с.

42. Морев И.А. Образовательные информационные технологии. Часть 2. Педагогические измерения: Учебное пособие. — Владивосток: Изд-во Дальневост. ун-та, 2004. — 174 с.

Задания какого типа требуют обычно наибольшего времени на их выполнение

ОСНОВЫ ТЕОРИИ ПЕДАГОГИЧЕСКИХ ЗАДАНИЙ

В статье излагаются основы теории педагогических заданий, разрабатываемой в логике ранее опубликованного проекта общей теории педагогических измерений [1] . Представлены элементы истории возникновения заданий и логики их анализа, сформулирована система исходных определений, определены субъективные, интерсубъективные и объективные свойства педагогических заданий. На основе матрицы исходных тестовых результатов введены функции вероятности правильного ответа на задания теста, понятия и примеры графического образа задания по любой учебной дисциплине.

Ключевые слова: педагогическое задание, теория, качество и свойства заданий, измерение качества заданий.

1. Элементы истории педагогических заданий

В цикле работ по истории тестов уже отмечалось, что педагогические задания пришли к нам из глубины веков [2] . Самый первый из сохранившихся источников — это учебник XVII в. до н.э., содержащий 84 задания по математике. Он был написан на куске древнего папируса длиною более пяти метров [3] . Сейчас этот исторический памятник древнего педагогического творчества хранится в Британском музее.

В конце XIX века н.э. в российской печати обсуждался вопрос о введении экзаменов. В циркуляре по Санкт-Петербургскому учебному округу “О производстве испытаний зрелости без послаблений”, сообщалось, что во многих гимназиях испытания зрелости производятся крайне снисходительно, с весьма большими послаблениями. А это обстоятельство, в свою очередь, весьма неблагоприятно отзывается на всем ходе учебного дела, приучая воспитанников поверхностно относиться к усвоению преподаваемых им наук, в надежде на ожидаемые послабления на испытаниях. В этом же циркуляре определён главный принцип определения содержания контрольных заданий: “не обременяя требованиями мелких и второстепенных подробностей… необходимо удостовериться в знании существенно-важного в каждом предмете» [4] .

Первая попытка научного обоснования качества заданий была сделана в начале XX-го века. Это произошло во Франции. Авторы первого теста, созданного для измерения интеллектуальных способностей детей, А. Бине и Т. Симон провели эмпирическую проверку заданий, которые предполагалось включить в их тест. Для оценки пригодности заданий авторы использовали два основных критерия:

1) эмпирическую меру трудности каждого задания, которую они определяли по доле или по проценту правильных ответов в группах детей разного возраста.

2) информацию о степени совпадения результатов теста с мнением преподавателей.

Для достижения сопоставимости данных, полученных ими с данными других исследователей и минимизации ошибок измерения, А. Бине и Т. Симон прилагали к тесту стандартную инструкцию по проведению тестирования. Интересен метод выявления различающей способности, заданий, которым пользовались эти авторы. Результаты ответов испытуемых, на каждое задание, представлялись в виде точек на плоскости, где по оси абсцисс откладывались значения возраста, а по оси ординат — доля правильных ответов, в каждой возрастной группе. Усредняя полученные точки и затем, соединяя их линией, они получали графический образ (ломаную линию), на основании которого делали выводы об адекватности задания для того или иного возраста [5] . Позже этим же методом позже воспользовалась М.Ричардсон [6] .

2. Исходные определения теории педагогических заданий

Научное определение понятия есть форма концентрированного выражения знаний. Концентрация знаний о заданиях происходит постепенно, по мере выявления их свойств. Условием эффективности определяемых понятий становится их адекватность сущности предполагаемой частной педагогической науке о заданиях и создание понятийной системы в этой науке.

В настоящей статье продолжаются попытки создания системы понятий педагогической теории измерений [7] . Ключевое место в ней занимают авторская концепция трёх главных понятий – задания в тестовой форме, тестового задния и педагогического теста [8] как системы заданий возрастающей трудности. Общим для всех перечисленных понятий является понятие «задание». Предполагается, что к лючевое место в педагогической теории измерений должна занять теория педагогических заданий.

Задание – это педагогическая форма, нацеленная на усвоение учащимися требуемого фрагмента подготовленности. Каждое задание создано для определенной цели, а потому, можно сказать иначе, имеет свою миссию и свои характеристики. Главная миссия заданий — побуждение учащихся к активной самообразовательной деятельности, развитие учащихся, овладение необходимыми знаниями, умениями и навыками до требуемого уровня компетенции. Многократно утверждалось автором этой статьи, что нельзя одну и ту же систему заданий использовать для разных целей, и особенно, для разных уровней подготовленности испытуемых, так как это повышает погрешность и снижает качество измерений [9] . Именно так и делается в ЕГЭ.

Задания могут создаваться для слабых или сильных учащихся, для интеллектуально одаренных или менее способных, для самостоятельной работы и компьютерной самопроверки уровня подготовленности, для аттестации или профессионального отбора. В зависимости от цели, некоторые характеристики заданий могут меняться, в особенности по содержанию и по уровню трудности.

Задания выполняют синергетическую функцию объединения усилий педагога и обучаемого. Метафорически задание можно представить как мост между учащимся и педагогом, открывающим возможность для их взаимодействия, объединяющим их усилия в учебном и воспитательном процессе. Если держаться и далее упомянутой метафоры, то качество и эффективность учебного процесса в существенной мере зависти от качества моста. Чем лучше задания, тем (при прочих равных условиях) прочнее и весомыми могут быть результаты отмеченного взаимодействия.

Лекционные и прочие формы педагогической деятельности представляют только одну, преподавательскую сторону педагогического процесса. Выполнение заданий учащимися (студентами) – вторая, не менее, а часто и более важная сторона педагогического процесса. Основные виды заданий — задача, вопрос, упражнение, творческое задание, задание в тестовой форме, тестовое задание, учебная проблема, курсовая и дипломная работа, а также и другие.

С этой точки зрения, сложившаяся практика планирования, учёта и оценки педагогического труда по количеству проведенных лекций или уроков, без реального учёта количества и качества выполненных учащимися заданий, представляет собой анахронизм, тормозящий улучшение образовательной деятельности.

Педагогическое задание можно также определить как средство развития, обучения и воспитания, способствующее развитию личности, повышению качества знаний, а также повышению эффективности педагогического труда. Развитие личности требует разработки системы интеллектуальных, предметно-дисциплинарных (языковых, математических, физических и т.п.), эстетических, трудовых и прочих заданий, отвечающих требованиям новых образовательных технологий. За единицу учебного времени такие задания дают наибольший прирост знаний, умений и навыков у наибольшего количества учащихся. Именно в вопросах производства и применения эффективных заданий российское образование стало сильно отставать от общемировых тенденций. Это одно из самых слабых мест российской педагогики и педагогической науки. Отсюда – актуальность проблемы измерения эффективности и качества педагогических заданий.

Измерение качества педагогических заданий означает процесс выявления их существенных свойств и отображение уровня проявления каждого свойства численными эквивалентами, адекватными количеству проявляемого свойства. Оценки обычно выражаются с помощью качественных и сравнительных понятий. Примеры качественных понятий — лёгкое или трудное задание, отлично подготовленный испытуемый, слабо знающий студент, отличный ответ и т.п. Специфическим условием измерений в общественных науках является формирование выборки испытуемых, обладающих, по предположению, интересующим свойством. Соответственно, в матрицу результатов измерения включаются только те испытуемые, у кого такое свойство есть, хотя бы в самом минимальном количестве.

Эффективное задание позволяет учащимся за единицу учебного времени добиться большего эффекта, сравнительно с другими педагогическими заданиями: быстрее усвоить новые элементы знаний, правильнее их применять, улучшить воспроизведение знаний, повысить точность изложения и др.

Теория педагогических заданий призвана создать логически непротиворечивую систему научного знания, дающую целостный взгляд на существенные свойства заданий, независимо от конкретной учебной дисциплины и от уровня обучения. Следовательно, это может быть общая прикладная педагогическая теория педагогической науки.

Предмет этой теории составляет:

— объективные и субъективные свойства (характеристики) заданий;

— формы заданий, общие для всех учебных дисциплин;

— инвариантные принципы отбора содержания заданий, независимо от учебных дисциплин;

— вопросы измерения эффективности и качества самих заданий.

3. Краткая классификация заданий.

В зависимости от цели применения, все педагогические задания можно разделить на несколько классов.

Для обучения применяются упражнения, задачи, вопросы, задания в тестовой форме и др.

Для контроля и самоконтроля знаний умений и навыков используются зачетные, экзаменационные и тестовые задания, задачи, вопросы, а также выпускные учебные работы.

Для создания гомогенного теста используется система тестовых заданий равномерно возрастающей трудности, имеющая общее содержание, приемлемую корреляционную и факторную структуру.

Аттестационные задания применяются для аттестации выпускников школ, средних профессиональных заведений и вузов. Трудность аттестационных заданий устанавливается на таком уровне, который точно соответствует квоте аттестуемых выпускников. В России сейчас аттестуется положительно свыше 99 % выпускников школ. Следовательно, уровень трудности аттестационных заданий заведомо устанавливается чрезвычайно низким. А там, где он формально оказывается выше, систематически используются различные формы искажения результатов, всё ради достижения принятой квоты успешно окончивших школу. Расхожее среди чиновников название «аттестационный тест» имеет только внешнее отношение к тесту, где некоторые задания иногда представляются в тестовой форме. В таких «тестах» содержание всех заданий преимущественно лёгкое, а потому тестов там, по определению, нет.

Для приёма в вузы должно применяться быть множество тестов, различающихся по содержанию и по уровню трудности, в зависимости от требований самого вуза. Также неоднократно мною отмечалось, что единый подход к комплектованию студентов множества различных вузов вреден и опасен своими отрицательными последствиями. Проблема профессионального отбора и классификации абитуриентов по направлениям подготовки одним методом не решается. Т. н. ЕГЭ и КИМы эту проблему не только не решают, но сильно ухудшают условия нормальной работы вузов.

Задания для оценки профессиональной компетентности называются сертификационными. Сертификационные тесты, если таковые действительно будут созданы, предполагаются различающимися по трудности. Испытуемый сертифицируется в зависимости от содержания и от уровня трудности успешно выполняемых заданий.

4. Принципы теории педагогических заданий

Взаимосвязанные принципы контроля знаний и педагогических измерений уже излагались в работах автора [11] . Напомним, что это были принципы объективности; справедливости и гласности; научности и эффективности; систематичности и всесторонности; связи контроля с образованием, обучением и воспитанием . Опираясь на эти общие принципы, можно попытаться сформулировать принципы частной теории педагогических заданий.

4.1. Принцип обновления заданий. Хотя некоторым педагогическим заданиям уже тысячи лет, массовое применение тестовых методов и новых образовательных технологий требует специально организованного процесса создания, творческого обновления, улучшения и постоянной замены заданий. По сути, нужно ставить вопрос о создании своеобразной культуры непрерывного изменения и замены заданий в тестовых системах, открытия новых самоокупаемых методических центров, способных качественно производить и эффективно применять тестовые задания в практике. Это предмет специально-научной методологии, теории, методики и практики педагогических измерений.

Учитывая важную роль принципов в деятельности педагогов, это предложение можно сформулировать как принцип обновления заданий, применение которого позволит получить измерения повышенной точности и преодолеть пропасть, возникшую между практикой тестирования и наукой о педагогических измерениях.

4.2. Принцип соответствия уровня трудности заданий уровню подготовленности испытуемых. Задание называется соответственным (адекватным) для испытуемого, если испытуемый может его решить, с какой-либо вероятностью успеха, больше нуля. Наиболее адекватными заданиями для организации адаптивного тестирования являются задания с примерно 50 % вероятностью удачного решения. Абсолютно не решаемое задание не адекватно уровню подготовленности испытуемых. В процессе обработки данных тестовые матрицы часто приводят к пригодному для композиции теста виду. Это означает, что из матрицы удаляют все задания, не соответствующие испытуемым по уровню их подготовленности, а потому не подходящие для создания теста.

Отсюда следует важный принцип педагогического измерения – уровни трудности заданий теста должны соответствовать уровням подготовленности испытуемых. Этот принцип обладает симметрией: уровни подготовленности испытуемых также должны соответствовать уровням трудности заданий теста. Вот почему его можно кратко назвать принципом соответствия. Нарушение этого принципа повышает ошибки измерения. Чем больше несоответствие, тем ниже точность педагогических измерений. Принцип соответствия удачно дополняет систему принципов, сформулированную ранее [12] .

4.3. Принцип технологичности педагогических заданий. В российском образовании используются задания преимущественно в нетестовой форме. Большинство из них — это вопросы, задачи и упражнения, которые в тестовой культуре не используются. Нередко вопросы и задачи называются тестами. Но ответы на них иногда бывают столь многословными, что для выявления истинности требуются большие затраты интеллектуальной энергии. В то время как технологичная методика тестирования предполагает четкую и быструю дифференцируемость правильного ответа от неправильного. В этом смысле традиционные вопросы и ответы не технологичны; их не рекомендуется включать в тест. То же относится и к задачам, имеющим громоздкие формулировки.

Технологичность заданий определяется как вариант композиции, которая позволяет вести процесс тестирования с помощью технических средств, и делать это точно, быстро, экономично и объективно. Задания становятся технологичными, если их содержание правильно и быстро понимается испытуемыми, и если форма заданий способствует процессу компьютеризации тестирования.

Главные препятствия для достижения технологичности тестового задания — это обилие слов, потребность в устных разъяснениях, расплывчатость и неопределенность формы, плохая формулировка содержания, отсутствие необходимой техники и программ. Использование автоматизированного обучения и контроля на основе достижений новой педагогики, педагогических измерений, психологии, кибернетики и компьютерной техники, взятых в разумном соотношении, образует основу именно того, что сейчас называют педагогической технологией.

В этой технологии самым узким местом оказалось неумение делать задания, без чего нельзя сейчас ни объективно проверить знания, ни создать современную автоматизированную контрольно-обучающую программу, ни наладить такую форму организации учебного процесса, как дистанционное обучение. В идеальном случае учебная программа, каждый ее модуль сопровождаются заданиями в тестовой форме. Однако путь к достижению этого идеала лежит через трудности создания качественных тестовых заданий. Технологичность заданий обеспечивается правильностью формы заданий и корректностью содержания заданий. С точки зрения содержания, тестовое задание оценивается по конкретности и абстрактности, глубине, обобщенности и полноте содержания.

Задания становятся технологичными, если их содержание точно и быстро понимается испытуемыми, и если форма заданий способствует процессу компьютеризации тестирования. Именно использование автоматизированного обучения и контроля на основе достижений новой педагогики, педагогических измерений, психологии, кибернетики и компьютерной техники, взятое в разумном соотношении, образует основу того, что сейчас называют педагогической технологией.

4.4. Принцип соизмеримости шкал для оценки испытуемых и заданий. Для проведения педагогических измерений очень полезной оказалась идея L .L. Thurstone , а вслед за ним и G . Rasch , логарифмического преобразования исходных шкал трудности заданий и уровня подготовленности испытуемых. В итоге получается одна общая логарифмическая шкала, в которой стало удобно сравнивать испытуемых и задания. Что открывает дорогу к адаптивному обучению и адаптивному тестовому контролю. Результаты такого логарифмирования представлены в табл. 1 этой статьи.

4.5 Принцип содержательной и логической правильности заданий. В педагогической практике заметное распространение получают различные формы заданий и задач, нарушающие данный принцип. В основном это задачи с неправильными условиями.

Пример из работы Я И Груденова. В треугольнике АЕК угол А= 62 гр., Е = 75 гр., К- 53 гр. Вычислить внешние углы треугольника [17] . Между тем, в евклидовой геометрии не может существовать треугольник, сумма углов которого не равна 180 гр. Есть задачи, принципиально не решаемые, например: « Вычислить сторону прямоугольника, если его площадь равна 435 м 2» . Узнать длину стороны по площади невозможно [18] . Некоторые задания даже имеют своего рода идеологическое обоснование [19] .

5. Логическое обоснование качества педагогических заданий

Логика определяется как наука о формах правильного мышления. Форма мысли – это то, что остаётся после отвлечения от содержания мысли. Одна из важнейших задач логики критика мышления и его результатов. Основная задача логики – вскрывать алогизмы, учить давать точные определения, отделять правильно сформулированные утверждения от неправильно сформулированных утверждений. В тестовом процессе логика помогает правильно формулировать задания, находить в них формальные ошибки, делать задания понятными для испытуемых.

В теории и методике педагогических измерений основными объектами логической рефлексии являются система определений этой теории, логические принципы разработки заданий и ответов к заданиям.

Логической основой формы задания с выбором одного правильного ответа из нескольких предлагаемых является закон исключенного третьего (впервые сформулированный Аристотелем). Выбор правильного ответа дает истинное суждение, а выбор неправильного — ложное суждение. Третьего не дано. Из этого закона следует методическое правило: в каждом задании с выбором одного ответа правильный ответ должен быть, что придает однозначность замыслу самого задания и не допускает противоречивых толкований у испытуемых.

Огромное количество примеров алогичных заданий дают производители т.н. «КИМов ЕГЭ». И это «дело» поставлено на поток. Посмотрим алогичный пример, вместе в принятой там пунктуацией.

Обвести кружком номер правильного ответа:

1. ВОССТАНИЕ СПАРТАКА БЫЛО

Ранее мною был сформулирован принцип логической однородности подбора дистракторов в задании. Пример нарушения общей логики задания и данного принципа можно увидеть в задании:

2. ПРИЕХАВ В СТОЛИЦУ

1) всех поражает шум и суета;

2) у вас не будет времени сходить в музей;

3) идите сразу на Красную площадь;

4) у меня было прекрасное настроение [21] .

Задание в тестовой форме полезно рассматривать как высказывание. Высказывание – грамматически правильное предложение, взятое вместе с выражаемым им смыслом. Смысл, выражаемый грамматически правильным предложением, называется суждением. Тестовое задание формулируется из точных терминов и никогда не содержит метафоры, лишние слова и лишние знаки. Пример метафорично сформулированного задания в открытой форме:

3. ОТЦОМ РУССКОЙ ФИЗИОЛОГИИ СЧИТАЕТСЯ _________.

В логике выделяется четыре основных свойства правильного мышления: это определенность, правильность, непротиворечивость, обоснованность. Применительно к тестовой теории и практике эти общие свойства правильного мышления приобретают функции специфических регулятивов тестовой деятельности, вследствие чего приобретают значение принципов. Рассмотрим их подробнее.

5.1. Определенность содержания теста. Определенность содержания теста образует предмет педагогического измерения. В случае гомогенного теста возникает вопрос об уверенности в том, что все задания теста проверяют знания именно по определенной учебной дисциплине, а не по какой-то другой. Например, в физических расчетах используется немало математических знаний и потому в систему физического знания обычно включается та математика, которая используется при решении физических задач. Неудача в математических расчетах порождает неудачу при ответах на задания физического теста. Отрицательный балл ставится, соответственно, за незнание физики, хотя испытуемый допустил ошибки математического толка.

Если в тест включено много таких заданий, которые для правильного решения требуют не столько физических знаний, сколько умений выполнять усложненные расчеты, то это может быть примером неточно определенного содержания теста по физике. Чем меньше пересечение знаний одной учебной дисциплины со знаниями другой, тем определеннее выражается в тесте содержание каждой учебной дисциплины. Во всяком тестовом задании заранее определяется, что однозначно считается ответом на задание, с какой степенью полноты должен быть правильный ответ.

В гетерогенном тесте это достигается посредством явного выделения заданий одной учебной дисциплины в отдельную шкалу. При этом нередко встречаются задания, хорошо работающие не только на одну, но и на две, три и даже на большее число шкал.

Задания по математике для обычной средней школы перенасыщены интеллектуальным компонентом. Этот компонент затрудняет освоение математических знаний и операций, что составляет суть этой учебной дисциплины, и отвращает от математики миллионы детей, недостаточно подготовленных для решения задач с интеллектуальным компонентом.

Включение большого числа заданий, имеющих повышенное интеллектуальное содержащие, в учебники (якобы из благих побуждений — дети ведь должны учиться мыслить – кто с этой демагогией может спорить!) на самом деле уже много лет фактически убивает математическое образование в стране.

Между тем, интеллектуальное развитие детей – творческая задача сама по себе. Она не решается механическим включением трудных заданий в учебники или примитивным принуждением. Интеллектуальный компонент нужно включать в задания только для тех, кто может и хочет их решать. Отсюда становится понятной важная проблема культурной организации измеряемого уровневого образования, которую не следует путать с ошибочным, чиновно внедряемым профильным образованием учащихся средней общеобразовательной школы.

5.2. Логическая правильность. Немалую роль в формировании теста как системы играет требование логической правильности заданий, включенных в тест. Логическая правильность в формулировании тестовых заданий достигается при соблюдении условий:

-соразмерности объема определяющего понятия объему определяемого. Известные в литературе примеры (2):

4. ЧЕТЫРЕХУГОЛЬНИК, У КОТОРОГО ВСЕ СТОРОНЫ РАВНЫ, НАЗЫВАЕТСЯ __________.

5. ПРЯМОУГОЛЬНИК, У КОТОРОГО ВСЕ СТОРОНЫ РАВНЫ, НАЗЫВАЕТСЯ __________.

В случае если на четвертое задание дается ответ «квадрат», допускается несоразмерность: объем определяющего понятия – «четырехугольник» — больше объема определяемого понятия «квадрат»;

Ещё пример задания с ромбом:

Обвести кружком номера всех правильных ответов:

1) квадрат 3) прямоугольник

2) четырёхугольник 4)параллелограмм

5) параллелограмм c равными сторонами

5.3. Непротиворечивость содержания заданий. Непротиворечивость содержания заданий требует, чтобы относительно одной и той же мысли не возникали суждения, одновременно утверждающие и отрицающие ее. Недопустимо существование двух исключающих ответов на одно и то же задание теста.

Если испытуемым дается инструкция: “Обведите кружком номер правильного ответа”, а затем в одном из ответов утверждается, что правильного ответа нет, либо все ответы правильные, то это пример алогичного мышления.

В заданиях с выбором одного или нескольких ответов иногда встречаются ответы, вообще не связанные с содержанием задания. Такие ответы довольно легко распознаются испытуемыми как ошибочные, и потому весь тест оказывается неэффективным. Для повышения эффективности дистракторы [22] вместе с заданием проходят апробацию на типичной выборке испытуемых. И если обнаружатся такие ответы к заданиям, которые испытуемые вообще не выбирают, то они удаляются, как не выполняющие свою функцию — дистрактора, призванного отвлечь внимание незнающих испытуемых от правильного ответа. Неэффективные дистракторы вредны для теста; так как они снижают точность измерений.

5.4. Обоснованность. Обоснованность содержания тестовых заданий означает наличие у них оснований истинности. Обоснованность связана с аргументами, которые могут быть приведены в пользу той или другой формулировки заданий теста.

При отсутствии доказательных аргументов в пользу правильности сформулированного задания оно в тест не включается, ни под каким предлогом. То же происходит, если в процессе экспертного обсуждения возникает хотя бы один контраргумент, или допускается условие, при котором данное утверждение может оказаться двусмысленным или ложным.

Идея обоснованности содержания теста тесно переплетается с принципом содержательной правильности тестовых заданий. В тест включается только то содержание учебной дисциплины, которое является объективно истинным и что поддается некоторой рациональной аргументации. Соответственно, спорные точки зрения, вполне приемлемые в науке, не рекомендуется включать в содержание тестовых заданий.

Неточно или двусмысленно сформулированные задания, порождающие несколько правильных или условно правильных ответов тоже не включаются в тест. Отсюда возникает необходимость вводить дополнительные условия истинности, что удлиняет само задание и усложняет его семантику.

Неистинность содержания тестовых заданий отличается от некорректности их формулировки. Неистинность, как отмечалось выше, определяется соответствующим ответом, в то время как некорректно сформулированное задание может продуцировать ответы как правильные, так и неправильные, а то и вызывать недоумение. Некорректность формулировки обычно выясняется в процессе обсуждения содержания заданий с опытными педагогами-экспертами.

6. Матрица для анализа качества педагогических заданий

Для выявления интерсубъективных и объективных свойств заданий используются матрицы тестовых результатов [23] .

Матрицей называется математическая форма упорядочения и хранения информации, имеющей некоторую общность содержания. Применительно к тестовой технологии, матрица является формой организации, сохранения, представления и обработки данных. Тестовые результаты мыслятся в форме матриц. По строкам матриц всегда располагаются фамилии испытуемых или их номера, по столбцам – номера заданий. Вопрос – а почему нельзя иначе, разве в математике не всё равно, что писать по строкам, а что — по столбцам? В математике всё равно, а в тестовой литературе матрицы принято располагать именно так [24] . Такого рода конвенция удобна для коммуникации при интерпретации исходных, промежуточных и конечных результатов.

Исходная тестовая матрица обычно имеет вид прямоугольной матрицы. Из соображений достоверности статистических выводов, число ( N ) испытуемых (строк) всегда должно быть больше числа ( m ) заданий (столбцов); чем больше отношение , тем выводы о характеристиках испытуемых более обоснованы. Часто ставится вопрос о минимально допустимом соотношении этих двух чисел для обоснования качества тестовых заданий. Хорошо, если число строк в десять раз превышает количество заданий. Минимальное допустимое соотношение числа испытуемых к числу заданий – не менее пяти.

Элементы тестовых матриц – это числа, отражающие оценки каждого испытуемого, полученные ими по каждому заданию. Если обозначить символом i номер испытуемого, а j номер задания, то общий элемент матрицы хij трансформируется в уникальное, получая номер строки и номер столбца. Этим номерам ставятся в соответствие получаемые баллы. Например, если первый по счету испытуемый ответил неправильно по восьмому заданию теста, то элемент с именем х18 принимается равным нулю. Это записывается так: х18 = 0.

G.Rasch рассматривал все значения тестовых матриц, как итог противоборства каждого испытуемого i, с предлагаемыми ему заданиями (j). Исход каждого противоборства оценивается баллом xij. Значение балла зависит от соотношения уровня подготовленности тестируемого и уровня трудности задания, при условии заранее принятого правила (конвенции) — что считать «победой» испытуемого или задания. В упрощенном подходе допускаются только два исхода. Первый – правильное решение, что означает победу испытуемого; он получает один балл на пересечении номера своей строки и номера задания. Второй исход – ошибочное выполнение задания. Тогда в том же пересечении записывается нуль баллов. Каждая строка представляет результаты одного испытуемого, каждый столбец – результаты ответов множества испытуемых по одному только заданию данного номера.

Матрицы исходных тестовых результатов обычно готовятся в электронных таблицах «Excel» [25] . Для работ вузовского или школьного уровня «Excel» удобен тем, что это часть стандартного компьютерного офиса, а потому практически доступен. Кроме того, данные этих таблиц принимают все, или почти все профессионально сделанные пакеты многомерной статистики [26] , что сильно облегчает работу над созданием качественного теста.

Исходя из дидактических соображений, здесь используется ранее приводившийся пример небольшой учебной матрицы тестовых результатов, в которой всего 13 испытуемых и 10 заданий. Что делает саму матрицу и операции с её элементами обозримыми на одной странице. Поскольку это дидактический пример, вопрос о достоверности выборочных статистик в таких случаях не ставится.

Таблица 1 представляет собой расширенный вариант ранее использованного примера [27] . Для того, чтобы понять смысл последующей части работы, здесь придётся воспроизвести небольшую часть понятийного и формального аппарата. Напомним, что первый столбец таблицы представляет номера испытуемых, с 1 по 13. Общее число испытуемых в данном примере равно 13 ( N =13). Вектор-столбцы Х1, Х2, Х3, …Х10 представляют ответы испытуемых по десяти заданиям.

Пример матрицы тестовых результатов приводится в табл. 1. Табл.1.

Вопросы и ответы по AWS Batch

Вопрос. Что такое AWS Batch?
AWS Batch – это набор функций пакетного управления, позволяющий разработчикам, ученым и инженерам легко и эффективно выполнять сотни тысяч заданий пакетных вычислений на AWS. Сервис AWS Batch динамически выделяет оптимальные объемы и типы вычислительных ресурсов (например, оптимизированных для работы с ЦПУ или памятью) на основании объемов и особых требований к ресурсам отправленных в сервис заданий пакетной обработки. Благодаря сервису Пакет AWS не нужно устанавливать и обслуживать вычислительное ПО или кластеры серверов, что позволяет пользователю сосредоточиться на анализе результатов и решении проблем. Сервис Пакет AWS планирует, составляет расписание и выполняет ваши рабочие нагрузки для пакетных вычислений с помощью Amazon ECS, Amazon EKS и AWS Fargate с возможностью использования спотовых инстансов.

Вопрос. Что такое пакетные вычисления?
Пакетные вычисления – это исполнение серии программ (заданий) на одном или нескольких компьютерах без ручного вмешательства. Входные параметры предопределяются с помощью скриптов, аргументов командной строки, управляющих файлов или языка управления заданиями. Выполнение конкретного пакетного задания зависит от завершения предыдущих заданий или наличия соответствующих входных данных, поэтому особую важность приобретает соблюдение очередности и планирование графика выполнения множества заданий. Соответственно, выполнение пакетных заданий и интерактивная обработка несовместимы.

Вопрос. Каковы преимущества пакетных вычислений?

  • Пакетные вычисления помогают сместить обработку заданий по времени, чтобы воспользоваться доступными ресурсами в большем объеме или по меньшей стоимости.
  • Они позволяют избежать простоя вычислительных ресурсов и регулярного ручного вмешательства в процессы управления ими.
  • Они позволяют повысить эффективность за счет более интенсивного использования вычислительных ресурсов.
  • Они определяют приоритеты выполнения заданий, сопоставляют выделение ресурсов с бизнес-целями.


Когда задания следует запускать на EKS, Fargate, ECS?

Задания следует запускать на Fargate, если ресурсы для вычислений в Пакете AWS нужно выделять без какой-либо привязки к инфраструктуре ECS. Задания следует запускать на ECS, если нужен доступ к определенным конфигурациям инстансов (с конкретными ЦПУ или графическими процессорами либо особой архитектурой), а также в случае особо масштабных рабочих нагрузок. Если в качестве технологии оркестрации контейнеров вы выбрали Kubernetes, то можете стандартизировать пакетные рабочие нагрузки, используя интеграцию сервиса Пакет с EKS.

В зависимости от примера использования, задания на Fargate запускаются быстрее в случае изначального расширения масштабов работы, так как при этом не нужно дожидаться запуска инстанса EC2 или подов. Однако большие рабочие нагрузки могут быстрее выполняться на инстансах EKS или ECS, поскольку Batch повторно использует инстансы и образы контейнеров для запуска последующих заданий.

Вопрос. Когда задания следует запускать на Fargate, а когда – на EC2?

Задания следует запускать на Fargate, если ресурсы для вычислений в AWS Batch нужно выделять без какой-либо привязки к инфраструктуре EC2. Задания следует запускать на EC2, если нужен доступ к определенным конфигурациям инстансов (с конкретными ЦПУ или графическими процессорами либо особой архитектурой), а также в случае особо масштабных рабочих нагрузок.

В зависимости от сценария использования задания могут запускаться быстрее на EC2 или Fargate. Задания на Fargate запускаются быстрее в случае изначального расширения масштабов работы, так как при этом не нужно дожидаться запуска инстанса EC2. Однако большие рабочие нагрузки могут быстрее выполняться на инстансах EC2, поскольку Batch повторно использует инстансы и образы контейнеров для запуска последующих заданий.

Вопрос. Можно ли переносить рабочие нагрузки между ядрами вычислений Fargate и Fargate Spot?

Да. Для ядра вычислений Fargate можно установить максимальное количество виртуальных ЦПУ, равное общему количеству виртуальных ЦПУ всех заданий, в настоящий момент выполняющихся на этом ядре вычислений. Когда количество виртуальных ЦПУ достигнет максимального в ядре вычислений, Batch начнет планировать задания на следующем ядре вычислений Fargate в порядке очереди, если таковая имеется. Это полезно в тех случаях, когда ядро вычислений нужно настроить в соответствии с минимальными требованиями для бизнеса, а остаток рабочей нагрузки предполагается запускать на Fargate Spot.

При настройке ядра вычислений Fargate Spot как основного, а Fargate как вспомогательного, Batch будет переносить рабочие нагрузки в Fargate лишь тогда, когда количество виртуальных ЦПУ, используемое для заданий, превысит максимальное для такого ядра вычислений. Если же ядро вычислений Fargate Spot будет отозвано, максимальное количество виртуальных ЦПУ не будет достигнуто, а Batch не будет запрашивать ресурсы Fargate для выполнения заданий в следующем ядре вычислений.

Подключать очередь заданий AWS Batch к ядру вычислений Fargate / Fargate Spot и к ядру вычислений EC2 или Spot запрещается.

Для чего нужен сервис AWS Batch?

Вопрос. Почему следует использовать AWS Batch?
AWS Batch обеспечивает выполнение заданий и управляет вычислительными ресурсами, позволяя пользователю сфокусироваться на разработке приложений или анализе результатов, а не тратить время на настройку инфраструктуры и управление ею. Когда требуется выполнить пакетные рабочие нагрузки или переместить их на платформу AWS, рекомендуется использовать сервис AWS Batch.

Вопрос. Для каких сценариев использования оптимизирован AWS Batch?
Сервис AWS Batch оптимизирован для пакетных вычислений и приложений, которые масштабируются в результате параллельного исполнения нескольких заданий. Показательные примеры пакетных вычислений – это глубокое обучение, анализ генома, моделирование финансовых рисков, моделирование по методу Монте-Карло, рендеринг анимации, перекодирование мультимедийных данных, обработка изображений и инженерное моделирование.

Возможности

Вопрос. Какие основные возможности предлагает сервис Пакет AWS?

Пакет AWS управляет средами вычислений и очередями заданий, позволяя легко выполнять тысячи заданий любого масштаба с помощью сервисов Amazon ECS, Amazon EKS и AWS Fargate с возможностью выбора спотовых ресурсов или ресурсов по требованию. Нужно лишь определить пакетные задания и отправить их в очередь. В ответ сервис AWS Batch выберет место исполнения заданий и запустит соответствующие ресурсы AWS при необходимости. AWS Batch тщательно отслеживает процесс выполнения заданий. Когда потребность в ресурсах отпадает, AWS Batch удаляет их. AWS Batch также предлагает возможность отправлять задания, являющиеся частью конвейера или рабочего процесса, позволяя по мере отправки заданий выразить все существующие взаимозависимости.

Вопрос. Какие типы пакетных заданий поддерживаются сервисом AWS Batch?
AWS Batch поддерживает любые задания, которые можно исполнять как контейнеры Docker. В соответствии с заданиями определяются требования к памяти и количеству виртуальных ЦПУ.

Вопрос. Что такое вычислительный ресурс?
Вычислительный ресурс AWS Batch – это инстанс EC2 или вычислительный ресурс AWS Fargate.

Вопрос. Что такое вычислительная среда?
Вычислительная среда AWS Batch – это набор вычислительных ресурсов, на которых исполняются задания. AWS Batch поддерживает два типа вычислительных сред: управляемые вычислительные среды, за выделение которых и последующее управление отвечает AWS, и неуправляемые вычислительные среды, за управление которыми отвечают клиенты. Неуправляемые вычислительные среды позволяют использовать специализированные ресурсы, например выделенные узлы, укрупненные конфигурации хранилищ и Amazon EFS.

Вопрос. Что такое определение задания?
Определение задания описывает исполняемое задание, параметры, переменные среды, требования к вычислениям и прочую информацию, используемую для оптимизации исполнения задания. Определения заданий указываются перед отправкой задания, их можно открыть для совместного использования.

Вопрос. Что такое агент Amazon ECS и как он используется сервисом AWS Batch?
AWS Batch использует сервис Amazon ECS для выполнения заданий из контейнеров и поэтому требует установки агента ECS на ресурсах вычислительных сред AWS Batch. В управляемых вычислительных средах агент ECS уже предустановлен.

Вопрос. Как AWS Batch упрощает использование спотовых инстансов?
Вычислительные среды AWS Batch могут состоять из спотовых инстансов EC2. При создании управляемой вычислительной среды просто укажите, что хотите использовать спотовые инстансы EC2, задайте цену, которую вы готовы заплатить, в виде процентной доли от цены по требованию, и AWS Batch выполнит всю остальную работу самостоятельно. В неуправляемых вычислительных средах также можно использовать спотовые инстансы, запускаемые пользователем, включая те, что запускаются в спотовых группах EC2.

Цены

Вопрос. Сколько стоит использование AWS Batch?
Дополнительная плата за AWS Batch отсутствует. Пользователь оплачивает только стоимость ресурсов AWS (например, инстансов EC2 или AWS Fargate), которые создаются для хранения и выполнения пакетных заданий.

Планирование инстансов с графическим процессором (GPU)

Вопрос. Можно ли использовать бизнес-акселераторы для AWS Batch?
Да, можно использовать Batch, чтобы указать количество и тип необходимых для выполнения ваших заданий бизнес-акселераторов, а также варианты виртуального ЦП и памяти. Все это можно сделать в графе определения задания, изменив входные переменные. AWS Batch масштабирует подходящие для ваших заданий инстансы с учетом необходимых бизнес-акселераторов. Затем они изолируются в соответствии с требованиями для каждого задания, так чтобы только соответствующие контейнеры могли получить к ним доступ.

Вопрос. Для чего необходимо использовать бизнес-акселераторы с AWS Batch?
Используя бизнес-акселераторы с AWS Batch, вы можете в динамическом режиме планировать и распределять задания с учетом всех требований. Batch гарантирует, что для каждого задания будет зарезервировано соответствующее количество бизнес-акселераторов. Batch позволяет при необходимости масштабировать инстансы в сторону увеличения для ускоренной работы EC2, а также масштабировать их в сторону уменьшения после завершения работы, чтобы вы могли спокойно сосредоточиться на своих приложениях. Batch имеет встроенную интеграцию со спотовыми инстансами EC2, что означает, что ускоренное выполнение заданий может обеспечить до 90 % экономии при использовании ускоренных инстансов.

Вопрос. Какие бизнес-акселераторы можно использовать с AWS Batch?

В настоящее время можно использовать бизнес-акселераторы графического процессора на ускоренных инстансах серий P и G.

Вопрос. Как отправлять на обработку задания, требующие переноса ускоренных инстансов в Batch?

Количество и тип бизнес-акселераторов можно указать в графе определения задания. Вы должны уточнить тип бизнес-акселератора (например, графический процессор – единственный на данный момент поддерживаемый акселератор), а также какое количество акселераторов необходимо для выполнения вашего задания. Выбранный тип бизнес-акселератора должен быть среди типов инстансов, указанных в вычислительных средах. Например, если ваша работа требует 2 графических процессора, то необходимо также указать инстанс семейства P в своей вычислительной среде.

Пример из API:
«свойства_контейнеров»: «виртуальные ЦПУ»: 1,
«изображение»: «nvidia/cuda: версия 9.0»,
«память»: 2048,
«ресурсные_требования»: [
«тип»: «графический процессор»,
«значение» : «1»
>
],

Вопрос. Можно ли изменить переменные бизнес-акселератора в определении задания при отправке задания?
При отправке задания вы можете изменить количество и тип бизнес-акселераторов. Вы также можете изменить виртуальные ЦПУ и требования к памяти.

Вопрос. Можно ли использовать ускоренные инстансы для заданий, не требующих акселераторов?
В нынешних условиях Batch по возможности не будет планировать задания, которые не требуют ускорения с помощью ускоренных инстансов. Это делается для того, чтобы избежать случаев, когда долгосрочные задания занимают ускоренные инстансы без использования бизнес-акселератора, что приводит к увеличению расходов. В редких случаях при спотовой цене и наличии ускоренных инстансов необходимого типа Batch может решить, что для выполнения ваших заданий наименее затратным будет применение ускоренного инстанса. При этом неважно, будет использоваться бизнес-акселератор или нет.

Если вы отправите задание в CE, для которого только Batch может запускать ускоренные инстансы, то он будет выполнять задания на указанных инстансах, независимо от необходимости использования бизнес-акселератора.

Вопрос. Как Batch использует ECS AMI, оптимизированный под графические процессоры?
С этого момента инстансы типа P будут запускаться по умолчанию вместе с ECS AMI, оптимизированным под графические процессоры. AMI содержит библиотеки и среды выполнения, необходимые для запуска приложений на базе графических процессоров. При создании CE вы всегда при необходимости сможете указать пользовательский AMI.

Начало работы

Вопрос. Как начать работу с сервисом?
Чтобы начать работу, ознакомьтесь с Руководством по началу работы в документации.

Вопрос. Какие ресурсы нужно выделить для начала работы?
Чтобы начать работу, запускать вычислительные ресурсы вручную не требуется. Веб-консоль AWS Batch поможет создать первую вычислительную среду и очередь заданий, в которую можно отправить свое первое задание. Ресурсы вычислительной среды будут масштабироваться соответствующим образом по мере увеличения или уменьшения количество заданий, готовых к исполнению.

Подробнее о том, когда рекомендуется использовать AWS Batch

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *