교육평가(敎育評價)

개념

학습자의 학습 · 행동 발달 정도를 교육목표에 비추어 측정하고 판단하는 과정.

내용 요약

교육평가란 학습자의 학습·행동 발달 정도를 교육목표에 비추어 측정하고 판단하는 과정이다. 교육평가는 평가의 시기에 따라 진단 평가, 형성 평가, 총괄 평가로, 평가의 기준에 따라 규준지향 평가와 준거지향 평가로 분류한다. 교육평가는 평가 목적의 설정, 평가 상태의 선정, 평가 도구의 제작, 평가의 실시 및 처리, 평가 결과의 해석 및 활용 등의 단계를 거친다. 교육평가의 가장 큰 기능은 교육목표의 달성도를 측정하여 교육과정 운영을 개선함으로써 교육의 질적 향상을 촉진하는 것이다. 교육의 질적 발전을 위해서는 다양한 새로운 평가 방법의 개발이 필요하다.

정의
내용
참고문헌

정의

학습자의 학습 · 행동 발달 정도를 교육목표에 비추어 측정하고 판단하는 과정.

내용

교육평가란 교육과정의 계획 · 실천에 있어서 교육목표는 올바르게 설정되었는지, 목표실현을 위한 교육활동의 계획과 과정은 적절한지, 그리고 궁극적으로는 교육의 목표가 제대로 성취되었는지를 확인 · 판단하는 일련의 과정을 말한다.

교육평가의 개념과 관련해서 유사한 용어로 시험, 고사, 검사, 측정 등이 있는 데, 시험이란 주로 지필검사, 즉 필답고사에 초점을 맞추어 쓰이는 말이고, 고사는 시험과 근본적 차이 없이 쓰이는 것으로서 주로 월례고사, 중간고사, 기말고사 등 총괄평가의 도구로 대용되는 용어이다. 검사는 주로 지능검사, 적성검사 등 인간의 어느 능력이나 특성을 객관적으로 측정하는 도구의 개념으로 쓰이고 있다. 측정이란 말은 평가를 위한 증거수집활동으로써, 객관성 · 공정성 · 정확성 · 엄밀성이 특히 강조되며, 수집된 증거의 수량화에 초점을 둔다.

이와 관련해서 평가는 측정한 결과를 교육목적에 비추어 ‘잘되었다’, ‘나쁘다’ 등의 가치를 판단하는 행위라고 하겠다. 요컨대 교육평가는 각종 검사(시험 또는 고사)와 측정활동 등의 선행과정에서 얻은 정보를 기초로 하여 교육목표의 달성 정도를 파악하는 가치판단 행위라고 할 수 있다. 교육평가의 기능은 여러 영역에서 논의될 수 있으나 이를 여덟 가지로 간추려 보면 다음과 같다.

① 교육평가는 학습결과를 진단 · 확인하고 그에 관한 치료와 처방을 제공해 주는 기능이 있다. 일정 양의 내용을 학습한 결과를 평가해 보면 학습자가 지닌 장점과 약점을 확인할 수 있고, 장점을 더욱 강화시키는 심화학습 방안과 약점을 보완해 주는 보충학습 방안을 강구할 수 있는 기준을 제공해 주는 것이다.

② 교육평가는 교육과정의 목표와 내용 및 학습 지도 방법 등의 개선과 평가 그 자체의 개선을 위한 자료를 제공해 주는 기능이 있다.

③ 교육평가는 학습자의 학습동기를 유발하는 기능이 있다. 사실 학습자는 누구나 평가, 시험이 없다면 나태해지고 흥미롭지 못한 내용은 외면하기 쉬운 것이다. 그러나 일단 평가를 실시한다고 하면 긴장하고 싫든 좋든 간에 학습에 열중하게 된다. 때문에 교육평가는 그 어느 것보다도 강력한 학습동기를 유발하는 기능을 가지고 있는 것이다.

④ 교육평가는 학습자 자신의 자기이해를 돕는 기능을 가지고 있다. 학습자는 학습해 가는 과정과 그 결과에 관한 평가 자료를 통해서 자기자신의 단점이나 문제점과 장점을 스스로 판단하고 이해하는 중요한 단서를 얻게 되는 것이다.

⑤ 교육평가는 크고 작은 교육계획을 수정 · 보완 · 개조하는 기능을 가지고 있다. 국가 단위의 교육계획이건, 교육청 단위의 교육계획이건 또는 학교 단위의 교육계획이건 간에 그것의 타당성 여부를 판단하는 근거는 평가를 통해서 확보하게 된다.

⑥ 교육평가는 교사 자신을 반성하고 평가하는 기능이 있다. 학생들의 학업성적이 나쁘다면 그것은 교사 자신의 교수방법을 비롯해서 자신이 만든 교수-학습 계획과 자신이 구성한 교육내용에도 문제가 있기 때문이다. 교사는 어떠한 형태의 평가를 실시하더라도 그 결과를 분석해서 반드시 자기 자신을 반성하고 이해하는 자료로 활용해야 한다.

⑦ 교육평가는 생활지도와 상담의 자료를 제공한다. 특히 오늘날 초고속 정보사회에서는 학생들의 진학 · 직업지도를 비롯해서 각종 생활지도와 개별 상담을 위해서는 학생의 가치관 · 태도 · 흥미 · 지능 · 적성 · 학업성적 · 건강 · 환경 적응상태 등에 관한 정밀한 측정 · 평가가 수시로 이루어지지 않고서는 안 되게 되어 있다.

⑧ 교육평가는 학생의 성적표 관리는 물론 학급 편성 · 진급 · 진학 · 선발 등에 있어서 가장 중요한 근거와 기준의 역할을 하게 되는 것이다.

교육평가는 평가의 시기에 따라 진단평가, 형성평가, 총괄평가로, 평가의 기준에 따라 규준지향평가와 준거지향평가로 분류한다.

(1) 진단 · 형성 · 총괄평가

진단평가란 계획된 교육목표를 달성하기 위한 교수-학습 활동이 시작되기 전에 학생들의 그 학습과제에 대한 준비도를 진단하는 평가이다. 진단평가를 통하여 교사는 학습자들이 현재 가지고 있는 출발점의 특성을 파악해서 보충과정이나 심화과정의 프로그램의 도입 여부를 판단하기도 하고, 어떤 특정한 교수전략의 사용 여부도 결정하게 되며 학생의 배치자료를 얻게 된다.

형성평가란 교수-학습이 진행되고 있는 과정에서 실시되는 평가이다. 다시 말하면 교수-학습이 진행되는 유동적인 수업 사태에서 수업활동의 일부로서 이루어질 수도 있고 수시로 별도의 절차로 시행할 수도 있는 바 간단한 필답고사나 교사와 학생간의 구두 문답으로 시행할 수도 있으며, 때로는 교사의 일방적인 관찰로도 이루어질 수 있는 것이 특징이다. 요즈음 논의되는 ^주1는 형성평가의 개념을 확대한 것이다.

총괄평가란 주어진 단원이나 과제의 교수-학습이 끝났을 때 교수 목표의 달성도를 알아보기 위한 종합평가를 말한다. 한 단원의 수업이 끝났을 때 또는 학기말이나 학년말에 교육목표를 비롯해서 교육과정의 전 영역을 종합적으로 평가하는 것 등이 여기에 속한다.

(2) 규준지향평가와 준거지향평가

규준지향평가란 학생이 무엇을 얼마만큼 알고 있느냐에 대한 관심보다는 개인의 성취 수준을 비교 집단의 규준에 비추어서 상대적 서열을 판단하는 평가로서 상대비교평가(상대평가)라고도 한다. 규준지향평가의 가장 중요한 요인이라고 할 수 있는 규준이란 원점수의 상대적 위치를 설명하기 위하여 쓰이는 자［尺］로서 ^주2을 대표하기 위하여 추출된 표본에서 얻어진 평균점수와 표준편차로 만들어진다. 즉 어떤 검사에서 개인이 얻은 점수를 집단 평균치로부터의 이탈도라는 변환점수로 바꾸어 표시하는데 규준지향검사에서의 변환점수로는 여러 종류가 있을 수 있으나 우리나라에서 학생들의 학업성적을 평가하여 표시할 때에는 ‘수, 우, 미, 양, 가’의 5단계 척도를 많이 사용해 왔다.

준거지향평가는 학습자 또는 개인이 무엇을 얼마만큼 알고 있는지를 측정하는 평가로서 목표지향평가, 혹은 절대평가라고도 한다. 준거지향평가의 필수적 요소는 학습자가 배워야 할 내용의 영역과 준거인 바 여기서 준거를 설정하는 일은 매우 어렵고 중요하며 일반적으로 앵고프(Angoff) 방법과 제이거(Jaeger) 방법이 사용된다.

교육평가가 이루어지는 절차는 대체로 평가목적의 설정, 평가상태의 선정, 평가도구의 제작, 평가의 실시 및 처리, 평가결과의 해석 및 활용 등의 단계를 거친다.

(1) 평가목적의 설정

평가에서는 먼저 ‘무엇’을 평가할 것인가를 분명히 하지 않으면 안 된다. 이것은 평가의 목표와 대상으로 표현되기도 한다. 평가목표를 분석하고 그 개념을 정확히 규정하는 것이 평가의 첫 단계가 된다. 교육평가에 있어서 무엇을 평가할 것인가라는 기준은 당연히 교육목적에서 도출된다.

(2) 평가상태의 선정

교육평가 목표가 결정되면 이를 평가하기에 알맞는 자료나 증거를 어디에서 언제 구할 것인가를 결정해야 한다. 즉 학생들이 학습 결과가 구체적으로 제시되고 행동의 증거로서 나타날 수 있는 장면이나 조건 및 기회를 찾아야 한다. 이를 평가상태라 한다. 평가목표에 따라 선택할 수 있는 평가상태로서는 필답고사(지필검사), 질문지, 행동관찰, 면접, 기록물 분석, 작품 분석, 현장실습 측정, 사례연구, 투사법, 게스-후-테스트(Guess-who-test) 등을 들 수 있다.

(3) 평가도구의 제작

평가상태가 선정되면 이를 측정하기 위한 평가도구를 제작하여야 한다. 평가도구의 제작 단계에서 중요한 일은 평가도구의 내용 하나하나가 교육목적을 제대로 측정할 수 있느냐는 합목적성의 문제이다.

① 바람직한 평가도구의 기준 : 바람직한 평가도구로서 갖추어야 할 기준으로 타당도, 신뢰도, 객관도, 실용도를 들 수 있다.

㉮ 타당도(validity) : 평가의 도구가 무엇을 재고 있느냐의 문제인 동시에 평가의 결과와 원래 평가하려는 목표와의 관련성이 얼마나 높으냐의 문제이다. 즉 타당도는 반드시 어떤 근거 내지 준거에 일치되어야 한다는 것이 중요하다. 따라서 특정한 근거 내지 준거가 명확하게 진술되는 것이 타당도의 전제가 되는 것이다. 타당도는 크게 ^주3, ^주4, ^주5 및 ^주6로 나눌 수 있다.

㉯ 신뢰도(reliability) : 측정하려는 것을 얼마나 안정적으로 일관성 있게 측정하였느냐의 문제로, 검사도구가 얼마나 정확하게 오차 없이 측정하였느냐의 정도를 말한다. 다시 말하면 하나의 평가도구를 가지고 몇 번을 반복해서 재든, 같은 결과가 나오는 정도를 말하는 것이다. 신뢰도를 측정하는 방법으로는 채점자 신뢰도, 검사도구의 안정성을 측정하는 재검사 신뢰도, 유사성을 측정하는 동형검사 신뢰도, 그리고 변산의 비율 개념에 의한 내적 일관성신뢰도가 있다.

㉰ 객관도(objectivity) : 채점자에 의해서 결정되는 신뢰도라고 할 수 있으므로 흔히 채점자 신뢰도라고도 한다. 다시 말하면 검사의 채점자가 주관에 이끌리지 않고 객관적인 입장에서 신뢰롭게 채점하느냐의 문제이다.

㉱ 실용도(usability) : 한 평가도구가 얼마나 경비, 시간 노력을 적게 들이고도 소기의 목적을 달성할 수 있는냐에 정도를 말한다.

② 평가도구의 유형과 제작방법 : 평가도구의 유형과 제작 방법은 매우 다양하지만 지면의 제한 때문에 그 유형만 간단히 서술하기로 한다.

㉮ 필답고사 : 필답고사의 문항 유형은 피험자의 반응 형태에 따라서 선택형과 서답형으로 분류되고, 채점방식에 따라서 객관식과 주관식으로 분류된다.

선택형 문항은 필답고사에서 가장 많이 사용되는 형식으로서, 앞에 문두(問頭)가 있고 그에 따르는 두 개 이상의 답지(答肢)로 구성되는데 피험자는 이 답지 가운데서 문두가 요구하는 옳은 답을 선택하는 형식이다. 선택형(객관식) 문항에는 ^주7, ^주8, ^주9의 세가지 유형으로 대별할 수 있고, 이 중 선다형에는 최선답형, 정답형, 다답형, 미완성형, 부정답형, 대입형, 합답형, 제외항목형, 복합완성형 등이 있다. 진위형에는 진위형, 군집형, 진위변형 등이 있으며, 배합형에는 단순배합형, 분류배합형, 복합배합형, 관계분석형, 결합분류형, 양적비교형, 공변관계형 등이 있다.

서답형 문항은 문두의 지시에 따라 피험자가 정답을 주관적으로 작성하는 형식으로서 단답형, 완결형, 논문형 등 세유형이 있으며, 이 중 단답형은 한두 마디의 단어나 숫자, 그림 등을 적는 형식이고, 완결형은 자유완결형과 제한완결형 등이 있고, 논문형에는 선별적 재생형과 평가적 재생형 및 자유논술형 등이 있다.

㉯ 행동관찰법 : 행동관찰에는 어떤 행동을 아무런 조직적인 통제 없이 수시로 관찰하는 자연적 관찰법(우연적 관찰법), 어떤 행동을 장기간에 걸쳐서 계속 관찰하는 전기적 관찰법(종단적 관찰법), 개인의 행동을 신체적 · 지적 · 정서적 · 사회적 영역 등으로 구분하고 이 중에 어느 한 영역의 행동 또는 한 영역의 행동 중에서도 더 세분화된 한 행동만을 조직적으로 관찰하는 행동요약법, 관찰장면을 제한하지 않고 특정한 행동(예 : 협동적 행동)이 일정한 시간 내에 얼마나 발생하는가를 양적으로 측정하는 시간표집법(빈도기록법), 재고자 하는 행동이 보다 잘 나타날 수 있는 장면을 선택해서 관찰하는 장면표집법, 관찰자가 피관찰자와 함께 행동하면서 피관찰자의 행동을 관찰하는 참가관찰법, 관찰하려는 장면이나 조건을 인위적으로 조작해서 좀더 엄밀하고 정확한 조건에서 관찰하는 실험적 관찰법 등이 있다.

㉰ 질문지법 : 질문지법은 어떤 문제 또는 주제에 관련된 일련의 질문에 대해서 피험자가 응답을 적는 방법으로서, 응답자가 자유롭게 답을 쓰는 자유반응법, 질문에 대한 예상답지를 두 개 이상 제시하고 응답자가 선택하게 하는 선택법, 대상집단에 자유반응형식의 질문지를 던져서 그 결과를 분석하고 그것을 토대로 문제의 영역별로 묶어진 동질문항으로 리스트를 만들어 긍정이나 부정으로 답하게 하는 체크리스트법, 실험적인 절차를 거쳐 미리 만들어 둔 척도의 단계에 따라 평정하는 평정척도법, 같은 성질을 지닌 문제 영역을 일군의 항목으로 묶고 질문지가 요구하는 기준에 따라 서열을 매기는 성려법 등이 있다.

㉱ 면접법 : 면접법은 피험자를 직접 대면해서 질의 · 응답을 하는 형식으로서 피험자의 자유로운 응답을 요구하는 자유응답법, 피험자에게서 듣고 싶은 화제의 주제만을 정해 놓고 구체적인 질문의 내용이나 절차 또는 방법은 정하지 않고 면접하는 무지시적 방법, 미리 응답 내용을 선택지로 준비하고 피험자가 그 중에서 선택하게 하는 선택지법 등이 있다.

㉲ 투사법 : 투사법은 인간의 심층에 있는 성격 특성을 외부의 어떤 불확실한 자극에 투사시켜서 파악하는 기술로서 일정한 자극적인 용어를 제시하고 그것에 대해서 피험자의 의식 속에 떠오르는 반응을 조사하여 피험자의 심층 태도를 진단하는 켄트-로사노프자유연상법(Kent-Rosanoff free association method)과 로오샤 테스트법(Rorschach’s ink blot method)이 있고, 또 그림이나 문자를 제시하고 그것을 공상적으로 해석시켜 내면적 경향을 알아보는 T.A.T(Thematic Apperception Test, 주제통각검사)와 문장완성 테스트, 나무토막으로 집을 짓게 하거나 점토로서 무엇을 만들게 해서 그 결과로 성격을 파악하는 조립법, 손가락으로 그림을 그리게 하거나 심리극 · 인형놀이 등을 통하여 피험자의 자유로운 행동이나 언어표현을 통하여 내적 경향을 파악하려는 정화법(cathartic method) 등이 있다. 그리고 이 투사법은 정신의학에서 억압된 요구나 정서를 그것으로 발산 · 해소시키는 심리요법으로도 사용하고 있다.

㉳ 평정법 : 평정법은 행동관찰, 면접, 기록물 분석, 작품분석 등에서 공통으로 사용하는 도구로서 관찰 · 분석한 결과를 객관적이고 신뢰롭게 정리하는 기술적 방법이다. 이것은 일명 품등법(品等法)이라고도 하는 데, 여기에는 기술평정척(descriptive rating scale), 수량평정척, 도식(圖式)평정척, 체크리스트, 조합비교법, 유사동간법, 등위법, 표준척도법, 강제선택법 등이 있다. 이상과 같은 평정척도에 의해서 평정을 실시할 때에는 특히 집중경향의 착오, 표준의 착오, 인상의 착오 및 논리의 착오를 범하지 않도록 주의해야 한다.

(4) 평가의 실시와 결과 처리

평가도구가 아무리 잘 제작되었다 할지라도 평가를 실시하는 과정에 오류가 발생하면 평가 그 자체의 신뢰도는 완전히 실추된다. 때문에 평가의 실시단계에서는 시험 장소, 시간, 필요시설, 장비 및 감독 · 관리체제 등 모든 면에서 면밀한 준비가 필요하고 시행 계획에 따라 빈틈없는 실시가 요구된다. 평가의 결과 처리 역시 평가의 실시 못지 않게 중요하다. 이 단계에서 특히 중요한 것은 채점과 문항의 양호도 검증, 검사결과의 통계적 처리 및 성적 표시 방법 등이라고 하겠다.

(5) 평가결과의 해석 및 활용

평가의 결과는 종합적이면서도 분석적인 해석을 필요로 한다. 우선 한 집단의 점수분포의 특성과 ^주10 및 ^주11 등을 비교 분석해서 개인 점수의 집단 내의 의미를 해석해야 한다. 그리고 개개 학생의 점수가 다른 집단 또는 전국 규준에 비추어 상대적으로 어떤 위치에 있는가를 확인하고 개인내차에 입각해서 개인의 다른 검사점수와의 비교로서 개인별 특성에 관한 심층적 이해와 해당 검사 결과의 원인 진단적 해석을 시도할 수도 있다. 평가결과의 해석자료는 향후의 교육과정 계획과 교수방법의 개선 및 각 피험자의 상담자료로 활용될 수 있고, 특히 평가 그 자체의 개선을 위한 증빙자료로 활용되어야 한다. 아울러 학교의 종합적인 교육계획과 진학지도 및 직업지도의 기본 자료로 활용되며 교육행정기관의 장학행정자료로도 이용될 수 있다.

교육평가의 역사는 학력측정이 비공식적으로 시행되었던 서기전 225년 중국의 시험제도가 그 효시라고 할 수 있으며, 1702년에 영국의 케임브리지 대학에서 시행한 필답시험, 1845년에 미국 보스턴 시 교육위원회에서 채택한 필답시험법 등이 교육기관에서 필답고사를 사용하게 된 효시라고 할 수 있다. 1887년과 1898년 사이에 라이스(Joseph Rice)는 미국 최초로 공식적인 교육프로그램 평가를 실시했던 바 여러 학교 교육구를 대상으로 작문에 관한 교수법 중 연습의 효과를 비교하기 위하여 준거변인으로 작문 검사 점수를 사용했다. 1898년 미국 대학 및 중등학교 북중앙협의회(North Central Association of College and Secondary Schools, NCASS)가 설립되어 역사상 최초로 대학과 중등학교의 방문 인정 평가를 실시하여 교육기관의 적합성과 교육활동의 질을 평가하는 활동을 시작하였다.

그뒤 객관적인 교육평가가 본격적으로 이뤄진 것은 20세기에 들어와서 측정 · 진단도구가 마련되면서부터이다. 측정운동의 대부라고 할 수 있는 쏜다이크(Thorndike, E. L.)는 1904년에 『정신 및 사회측정이론에 관한 서설』을 출간하여 교육에 있어서 수량적 측정의 기초를 제공하고, 스톤(Stone, C. W.)은 1908년에 스톤(Stone)산수검사를 제작하고, 카운터스(Countis, S. A.)는 1909년에 산수 표준화검사를, 1909년에 쏜다이크는 전미 교육연구협회(N.S.S.E)연보에서 「모든 존재하는 것은 양적으로 존재하고 그것들은 양적으로 측정할 수 있다」는 논문을 발표하여 교육측정 활동의 붐을 조성했던 것이다.

1932년부터 1940년 사이에 진행된 8년 연구를 지휘한 타일러(Tyler, Ralph W.)는 교육과정의 평가에 관하여 혁신적이고 광범한 견해를 개념화하고 그 개념을 검증함으로서 교육평가의 발전에 활력소를 제공하였다. 그는 교육평가를 “의도한 목표와 실제 얻어진 산출간의 비교”라고 정의함으로써 종래의 모호한 평가 개념을 명확하게 개념화하였다. 타일러의 교육평가에 관한 정의는 단시일내에 전 세계에 확산되어 오늘날까지 교육평가 개념의 전형(典型)으로 수용되어 오고 있다.

1940년부터 1950년 중반까지 전세계는 세계대전과 한국전쟁 등의 시련을 겪으면서 군사력의 과학적 관리를 위한 심리측정운동이 미국을 중심으로 본격화되고 그것은 각종 지능검사 · 성격검사 등을 위한 표준화검사 도구의 개발을 촉진하는 계기를 만들었던 것이다. 이러한 추세는 비교실험설계와 통계적 법칙들의 개발에도 박차를 가하게 되었고 특히 타일러의 평가모형을 적용하기 위한 교육목표분류체계가 개발됨으로써 교육평가의 타당도와 신뢰도를 높이는데 크게 기여하게 되었다. 1950년도 후반기부터 미국의 크론배취(Cronbach)를 비롯해서 프로버스(Provus), 하몬드(Hammond), 스크리븐(Scriven)과 글래저(Glaser) 및 폽햄(Popham) 등을 중심으로 교육평가의 준거와 규준에 관한 논쟁이 활발하게 진행되어 오면서 오늘날 절대평가와 상대평가의 틀이 완성되기에 이르렀다.

우리나라에서의 교육평가의 현대적 발달은 1948년 중학교 입시에서 새로운 객관식 방법을 채택한 이후부터라고 할 수 있고, 1950년 새 교육법에 의해 대학과 중학교 입시에서 주로 객관식 방법에 의한 전형이 시작되면서 학교 내에서의 평가도구도 많이 개선되었다. 이 무렵 교육평가에 관한 강의가 서울대학교 사범대학에 최초로 개설되고 교육평가에 관한 이론적인 논의뿐 아니라 실제적인 개혁 활동이 1950년대 중반부터 시작되었고, 1955년도부터 1965년도 사이에 간행된 교육평가 관련 전문 서적 등이 출판되어 교육학자, 일선교사, 교육행정가 등이 교육평가에 관해서 체계적으로 이해하는데 크게 기여하였다.

1955년 정범모에 의해서 중 · 고등학생용 간편지능검사가 제작 · 보급되면서 각종 표준화 검사가 뒤를 이어 제작되기 시작하였다. 또한 각급 학교에서 객관적 평가에 대한 인식이 폭발적으로 높아졌고, 교육평가의 과학화 · 객관화운동이 전국적으로 확산되어 교사가 만드는 교육평가 문항의 질도 현저하게 향상되어 오늘에 이르게 되었다. 오늘날에는 대학수학능력시험에서 주관식 · 서답형 문항의 수를 늘리고, 특히 대입 논술고사가 도입되면서 각급 학교의 평가도구가 객관식 · 선택형 일변도에서 주관식 · 서답형으로 전환되어 가고 있다.

교육평가의 가장 큰 기능은 교육목표의 달성도를 측정하여 교육과정 운영의 개선을 도모함으로써 교육의 질적 향상을 촉진하는 것이라고 할 수 있는 바 교육의 질적 향상을 위해서는 교육평가의 질적 발전이 필수조건이라고 할 수 있다. 앞으로의 뚜렷한 변화추세를 보면 ① 학습성과의 최종적인 평가과정으로부터 학습성과의 향상을 위한 피이드백(feedback) 정보체계로의 전환, ② 객관식 문항의 강조로부터 주 · 객관식 문항의 균형 유지, ③ 상대평가로부터 절대기준평가로의 전환, ④ 잠재적 교육과정의 평가에 대한 강조 등이라고 할 수 있다.

21세기에 접어들면서 인터넷에 의한 새로운 평가 방법의 개발이 도처에서 시도되고 있는 바 조만간에 획기적인 평가체제가 등장 할 것으로 예측된다. 그러나 우리가 특히 명심해야 할 것은 평가 방법이 아무리 발달된다해도 인간이 신(神)을 완전하게 평가할 수 없는 것처럼 평가도구가 인간 행동을 완벽하게 평가할 수는 없다는 사실이다.

참고문헌

『교육측정·평가·연구·통계용어사전』(한국교육학회 교육평가연구회, 중앙교육진흥연구소, 1985)

『현대교육평가론』(김호권·임인재·변창진·김영채, 교육출판사, 1998)

Basic Principles of Curriculum and Instruction Ⅱ(Tyler, W.L., University of Chicago Press, 1949)

Handbook in Formative and Summative Evaluation of Student`s Learning(Bloom, B.S., J.T.Hostings ＆ G.F.Madaus, New York：Mc Graw-Hill, 1971)

Standards for Educational and Psychological Testing(AERA, APA, NCME, Washington D.C.：American Psychology Association, 1985)

Educational and Psychological Measurement and Evaluation(6th ed.)(Hopkins, K.D., J.C.Stanley ＆ B.R.Hopkins, New Jersey：Englewood Cliff, 1990)

『교육평가 연구의 과제와 전망』(황정규, 교육평가연구 제1권 1호, 1986)

『교육평가』(김상원, 교육학대백과사전, 서울대학교교육연구소, 1998)

The Nature, Purpose, and General Method of Measurements of Educational Products(Thorndike, E.L., In The Seventh Yearbook of the National Society for the Study of Education, Part Ⅱ. Chicago：University of Chicago Press, 16, 1918)

The Methodology of Evaluation(Scriven, M., In R.E.Stake(ed.), In Curriculum Evaluation. AERA Monograph Series in Evaluation. No.1. Chicago：Rand Macnally, 1967)

주석

주1: 학생의 학습 과제 수행 과정 및 결과를 직접 관찰하여 그 관찰 결과를 전문적으로 판단하는 일. 평가 방법으로는 논술형 검사, 구술시험, 실기 시험, 연구 보고서 따위가 있다. 중학교나 고등학교에서는 평가 결과가 내신에 반영되기도 한다. 우리말샘

주2: 통계적인 관찰의 대상이 되는 집단 전체. 측정이나 조사를 하기 위하여 표본을 뽑아내는 바탕이 된다. 우리말샘

주3: 측정 도구가 측정하려는 개념 또는 구성의 모든 속성을 올바르고 완전하게 측정하는지를 평가하는 정도. 우리말샘

주4: 검사의 결과가 미래의 일이나 행동을 정확하게 예측하는 정도. 우리말샘

주5: 한 검사가 어떤 심리학적 특성들을 재느냐에 관한 모든 증거의 정도. 한 검사가 측정하는 특성이 심리학적으로 볼 때 어떠한 것인가에 관한 모든 증거가 이 타당도의 근거가 된다. 우리말샘

주6: 준거 타당도의 하나로, 한 검사와 주어진 기준 변인과의 관계의 정도. 기준 변인을 예언하려고 하는 것이 아니고 기준 변인 대신에 검사를 사용하는 데 그 목적이 있으며, 검사 결과와 기준 변인에 관한 자료를 동시에 수집하는 점이 예언 타당도와 다르다. 우리말샘

주7: 필기시험 문제 형식의 하나. 한 문제에 대하여 세 개 이상의 항목 가운데에서 정답 또는 가장 적당한 항을 고르게 하는 형식이다. 우리말샘

주8: 필기시험 문제 형식의 하나. 진술 문장을 제시하고 그것의 옳고 그름을 가려내게 하는 형식이다. 우리말샘

주9: 필기시험 문제 형식의 하나. 어떤 전제와 그에 대응하는 짝을 각각 한 묶음씩 늘어놓고, 서로 관련이 있는 것끼리 짝을 맞추게 하는 형식이다. 우리말샘

주10: 자료 분포의 중심으로서 자료 전체를 대표할 수 있는 값을 이르는 말. 우리말샘

주11: 한 분포에 위치하는 여러 점수들이 집중 경향에서 퍼져 있는 정도. 우리말샘

교육평가 (敎育評價)

교육평가 ()