교양교육에서의 학생 성과평가 도구 개발
Abstract
The purpose of this study is to develop and validate a student performance assessment tool that can effectively measure the objectives of General education. To achieve this, items were developed based on the Behaviorally Anchored Rating Scale(BARS) through a review of literature and expert Delphi validation conducted twice, followed by factor analysis to verify the validity and reliability of the tool, resulting in the final selection of 30 items. The developed tool can be utilized to assess the extent of meaningful outcomes obtained by students through General education, thereby facilitating the evaluation of whether the objectives of General education have been achieved. Furthermore, the developed tool can contribute to enhancing the quality of General education and increasing educational accountability.
Keywords:
Evaluation tool for students’ outcomes, General education, Behaviorally anchored rating scaleI. 서 론
오늘날 대학은 급격한 사회의 변화 속에서 경쟁력 제고와 대학 교육의 책무성을 위해 단순히 양질의 교육을 제공하는 것에서 더 나아가 교육의 질 관리를 필수적인 과업으로 받아들여야 한다. 대중화 단계를 넘어서 보편화 단계로 접어든 지 오래인 대학 교육은 양적 확대에만 관심을 가지던 단계에서 이제 질적 강화의 단계에 관심을 기울이고 있다(Jung, 2019).
또한 이러한 질적 향상을 누가 판단하고 어떤 기준으로 판단할 것인지에 대해서도 급격한 변화가 이루어지고 있다. 과거에는 정부 중심으로 대학의 교육여건에 대한 질 관리가 이루어지도록 하였으나 이제는 대학 구성원, 특히 교육 수요자라 할 수 있는 학생 중심의 질 관리가 이루어지고 있다. 기본적으로 교육의 질 관리라는 개념은 학생이라는 교육 수요자에게 초점을 두고, 학생의 만족을 위한 교육 활동 과정을 중시하며, 지속적으로 수요자의 기대에 부응한다는 대전제를 가지고 있기 때문이다(Kwon et al., 2013).
질 관리가 요구되는 대학의 교육과정은 크게 전공교육과 교양교육으로 구분할 수 있으며, 전공교육이 각각의 학문 분야에 대한 특수성을 추구한다면, 교양교육은 여러 학문 분야에 대한 다각적 관점과 이해를 증진시킴으로써 전인적 인간을 양성하는 보편적인 교육이라 할 수 있다. 지금까지 한국의 대학 교육은 특화된 전문 직업교육에 집중한 전공교육 중심으로 이루어져 왔으며 일반적 보편지성교육을 지향하는 교양교육에 대한 관심은 그다지 높은 수준이 아니었다고 할 수 있다(Son, 2010). 이에 한국교양기초교육원에서는 2015년부터 2016년까지 숙의 끝에 대학 교양기초교육의 표준 모델을 제시하여 대학이 교양교육의 정체성을 확립하고 21세기 교양교육의 방향을 확립하는 데 도움을 제공하고자 하였다.
대학 교양기초교육의 표준모델에서는 교육과정 내의 담당영역에 따라 달성하고자 하는 목표들을 제시하고 있다(Korea National Institute for General Education, 2016). 기초문해교육은 대학의 근본 목적인 학문 탐구를 위해 필요한 기초능력 교육으로, 지향하는 세부목표는 ‘학문탐구를 위한 보편적 문해능력 함양’, ‘비판적 사고능력, 합리적 의사소통능력 함양’이다. 자유학예교육은 인간, 사회, 자연에 대한 폭넓은 이해를 바탕으로 학업분야의 전문성을 넘어서서 모든 학생들에게 요구되는 보편적 교육으로, 지향하는 세부목표는 ‘인간과 세계에 대한 바람직한 가치관 정립’과 ‘융합적 사고 및 창의적 문제해결 능력 함양’이다.
이러한 교양교육의 목표가 대학의 교양 수업을 통해 실질적으로 달성되었는지를 측정하기 위해서는 학생 중심의 학습성과를 평가할 수 있어야 한다. 대학에서는 학습성과를 평가하기 위해 여러 측정도구를 활용하고 있다. 대학 교육과정을 통해 함양된 학생들의 역량 수준을 파악하기 위해 교육과학기술부와 한국직업능력연구원이 개발한 대학생 핵심역량진단시스템 K-CESA(Korea Collegiate Essential Skills Assessment)와 학생들이 학습을 자기주도적으로 수행하고 있는지, 수업의 질에 대해서는 어떻게 인식하고 있는지 파악하기 위해 개발된 학부교육 실태조사 K-NSSE(Korea-National Survey of Student Engagement)가 국내 대학에서 대표적으로 활용하고 있는 학습성과 측정도구라 할 수 있다.
또한 교수-학습 과정에 대한 학생들의 참여 정도를 측정하기 위해 미국의 NSSE(National Survey of Student Engagement in Learning)와 CSEQ(College Student Experience Questionnaire)를 활용하여 한국교육개발원에서 개발한 NASEL(National Assessment of Student Engagement in Learning)이 있다.
해외의 사례를 살펴보면, 미국의 ACT(American College Testing)는 대학 일반 교양교육과정의 질 개선을 위해 학습 성과를 평가할 수 있는 표준화된 도구인 CAAP(Collegiate Assessment of Academic Proficiency)를 개발하였다. CAAP는 읽기, 글쓰기, 수학, 과학, 비판적 사고력의 6개 영역으로 구성되어 있으며 학생의 배경정보 및 학업에 대한 노력 정도를 함께 측정하여 분석에 참고할 수 있도록 하였다. CAAP는 교양과목 이수학점이 일정 수준 이상인 학생을 대상으로 평가하여 전국 규준에서 상대적인 위치에 대한 정보를 제공할 수 있으나 이수학점이 낮은 학생들의 학습 성과 및 정보를 파악하기가 어렵다는 단점이 있다.
CLA(Collegiate Learning Assessment)는 미국의 CAE(Council for Aid to Education)가 교양교육을 통해 습득한 대학생들의 핵심능력을 평가하기 위해 개발한 평가도구이다. 대학 신입생과 4학년을 대상으로 평가가 진행되며 수행과업영역과 분석적 글쓰기 영역으로 구성된 지필평가의 Gap 분석을 통해 교양교육을 경험한 대학생들의 비판적 사고력, 분석적 사고력, 글쓰기 능력, 문제해결 능력을 평가한다(Bae, 2012). 그러나 CAL은 2, 3학년 학생들의 교양교육 측면에 대한 성과를 구체적으로 도출하기에 어려움이 있다.
미국의 ETS(Educational Testing Service)가 개발한 MAAP(Measure of Academic Proficiency and Progress)는 대학의 일반 교양교육의 성과를 평가하여 대학 교양교육 프로그램의 효과성을 검증하고 교육과정의 강점 및 약점을 파악하는데 활용된다. 읽기, 비판적 사고력, 글쓰기, 수학의 4개 영역으로 구성되어 있으며 인문학, 사회과학, 자연과학의 맥락을 측정하는 도구이다.
CBASE(College Basic Academic Subjects Examination)는 미주리대학교(University of Missouri)의 ARC(Assessment Resource Center)가 대학 교양교육의 학습 성과 수준을 평가하기 위해 표준화한 도구이다. CBASE는 교양교육을 통해 향상된 학생들의 지식과 사고능력 수준을 선택형 문항과 지필평가로 측정 및 평가한다. 지식 영역에서 언어, 수학, 과학, 사회를, 사고력 영역에서 해석적 사고력, 전략적 사고력, 적응적 사고력을 측정한다(Bae, 2012). 그러나 MAAP과 CBASE는 언어, 수학, 과학, 사회 이외의 교양 영역에서의 학습 성취 수준을 파악하기에는 어려움이 있다.
호주의 CEQ(Course Experience Questionnaire)는 졸업생들을 대상으로 대학에서 경험한 교육 및 학습에 대한 자료를 수집하고자 실시하는 설문이다. 교수학습의 질, 일반핵심역량, 전반적 만족도의 3개 필수영역과 명확한 학습목표, 적절한 학습량, 적절한 평가, 지적 동기화, 학생 지원, 졸업생 수준, 학습 자원, 학습공동체의 8개 선택영역으로 구성되어 있다. CEQ는 각 강좌별 교육경험뿐만 아니라 환경까지 조사하기 때문에 일정 수준의 교육성과가 도출되기까지의 과정 및 환경에 대한 분석이 가능하다. 그러나 자기기입식 평가의 한계로 인해 교육 프로그램 성과에 대한 평가가 개인의 주관적 인식에 의존할 수밖에 없다는 한계가 있다(Hong et al, 2016).
2012년 초부터 경제협력개발기구(OECD)는 회원국의 주도 아래 국제적 차원에서 고등교육 학습 성과를 평가하는 AHELO(Assessment of Higher Education Learning Outcomes)를 운영하고 있다. AHELO는 각 대학 재학생들의 학업성취수준을 평가하여 타 대학 및 학과와 상대적 비교를 가능케 하는 것이 주된 목적이다. AHELO는 고등교육의 학습 성과에 대한 측면을 국제적 차원에서 평가하고자 한다는 점에서 도움이 될 수 있지만, 현실적으로 우리나라 대학의 교양교육에 대한 학습 성과를 측정하고 수업의 질 관리 및 환류를 하는 데는 부족한 측면이 있다.
우리나라에서 2010년부터 시행된 ACE 사업과 2016년부터 시작된 CK-1 사업은 많은 대학이 교육과정을 핵심역량중심으로 개편하는 계기가 되었다고 할 수 있다. 대학마다 영역-특수적인(domain-specific) 인재상, 교육이념, 교육목표를 반영하여 자체적으로 핵심역량 측정도구를 개발하기 위해 노력해왔으며, 핵심역량을 중심으로 교과 및 비교과 과정을 재편하고 이에 따른 성과 관리에 초점을 맞추고자 하였다.
그러나 아직까지 우리나라의 대학은 핵심역량을 설정하고 기존의 교과목을 핵심역량과 관련지어 재구조화하는 정도에서 교육과정을 시행하고 있을 뿐 실제로 교육과정을 통해 어떠한 성과를 거둘 것인지, 성과를 거두기 위한 교육과정 설계와 성취를 평가하기 위해 준거를 어떻게 설정해야 하는지 등에 대한 연구가 부족한 실정이다(Kim and Han, 2019).
K-CESA와 K-NSSE, 그리고 NASEL과 각 대학에서 자체 개발한 핵심역량 측정도구는 전반적인 대학 교육에 대한 학습성과 정도는 측정할 수 있으나, 교양 영역에서 교양교육의 목표를 얼마나 달성했는지 파악하기에는 어려움이 있다. 특히 대학 교양기초교육의 표준모델이 구체적으로 제시된 후, 교육과정 내의 담당영역에 따른 목표를 교육 수업 현장에서 제대로 달성하고 있는지에 대한 학습성과 측정도구에 대한 연구는 매우 부족하다고 할 수 있다.
이러한 필요성에 따라 본 연구에서는 한국교양기초교육원에서 제시한 기초교육 및 교양교육 영역에서 지향하는 목표를 효과적으로 측정할 수 있도록 객관적인 학생 성과평가 도구를 개발하고자 하였다. 학생 성과평가 도구는 기존 도구에서 많이 활용되는 Likert 척도의 불명확성에 대한 단점을 극복하고자 행동기준평정척도(Behaviorally Anchored Rating Scale, 이하 BARS)를 활용한 학생 자기평가 문항으로 구성하였다. 개발된 도구는 교수자가 학생의 교양교육 성과를 측정하는 데 유용하게 활용될 수 있을 것이다.
연구목적을 달성하기 위해 설정한 연구문제는 다음과 같다.
연구문제1. 학생 성과평가 도구의 구성요인은 어떠한가?
연구문제2. 둘째, 개발한 도구의 신뢰도와 타당도는 어떠한가?
Ⅱ. 연구 방법
1. 연구 참여자
구성요소 추출 및 평가척도 초안의 내용 타당도를 확인하기 위해 델파이 조사 패널을 구성하였다. 델파이 조사에서 의미 있는 연구결과를 도출하기 위해서는 패널을 선정할 때 해당 분야의 경험 및 경력, 전문성 등을 고려해야 하며, 패널들이 연구문제에 대해 다양한 의견을 제시할 수 있는지에 대해 우선적으로 고려해야 한다(Uhm, 2014). Rowe and Wright(2001)는 델파이 조사를 수행할 때 전문가를 5명에서 20명 정도로 구성하는 것이 적당하다고 하였다.
이러한 점을 감안하여, 본 연구에서는 교양교육 경험과 경력 2년 이상, 교육성과평가 및 평가도구개발 관련 경력 2년 이상인 전문가 12명을 패널로 구성하였다.
델파이 조사 결과에 따라 확정된 초기문항에 대한 설문조사를 실시하였다. 부산 지역 대학에서 교양교과 수강경험이 있는 총 543명의 대학생이 설문에 참여하였다. 학년별로 살펴보면, 1학년 153명, 2학년 145명, 3학년 129명, 4학년 116명이 참여하였으며, 성별 응답률을 살펴보면 남학생이 245명, 여학생이 298명으로 나타났다.
2. 연구절차
연구를 수행하기 위해 자료수집(1단계), 평가도구 초안 완성(2단계), 평가도구 개발(3단계)의 총 3단계로 개발 절차를 구성하여 진행하였다.
자료수집 단계(1단계)에서는 선행 문헌 분석 및 고찰을 통해 교양교육 성과 개념을 규명하고 주제별 범주화 작업을 수행하였으며, 평가도구 초안 완성 단계(2단계)에서는 성과지표 및 구성요소를 탐색하고 전문가 자문을 통해 도구의 초안을 구성하였다. 평가도구 개발(3단계) 시 전문가 델파이 검증을 총 2회 실시하여 평가척도의 내용타당도를 확보하고 예비 평가도구를 완성하였다. 예비 평가도구를 바탕으로 설문조사를 실시하였으며, 요인분석을 통해 도구의 타당도와 신뢰도를 검증하고 평가도구를 확정하였다.
3. 자료분석
문헌분석을 통해 구성된 학생 성과평가 도구 초안의 내용 타당도를 검증하기 위해 델파이 조사를 실시하였다. 연구자가 패널을 대상으로 이메일을 통해 본 연구의 목적 및 델파이 조사 진행 과정에 대하여 설명하였으며 패널 참여에 대한 동의를 얻었다. 2022년 7월부터 8월까지 총 2회기에 걸쳐 진행되었으며 각 회기마다 회수율은 100%였다.
델파이 설문의 평정기준은 미국교육연구학회(American Educational Research Association: AERA)의 교육 심리검사 준거(Standards for Educational and Psychological Testing)로, Grant and Davis(1997)가 제안한 대표성(representation)과 명확성(clarity), 포괄성(comprehensiveness)의 세 가지 내용타당도 준거 중 대표성과 명확성의 두 가지 준거를 사용하였다. 각 회기별 설문을 통해 평가영역, 평가문항, 행동지표에 대한 대표성과 명확성의 두 가지 평가 기준에 근거하여 내용 타당도를 검증하였다. 한 회기의 델파이 조사가 완료되면, 그 결과를 분석하여 다음 회기에 사용할 설문지의 내용을 구성하였고 내용타당도가 낮은 경우 용어 및 내용을 수정하거나 보완하는 처치를 하였다.
문헌분석과 전문가 자문을 통해 구성된 학생 성과평가 도구는 12개 평가역량, 36개 평가문항, 144개 행동지표의 위계적 형태로 구성되었다. 도구의 내용타당도 확보를 위한 델파이 조사는 총 2라운드로 진행되었으며, 각 라운드의 분석 결과와 패널들의 의견을 반영하여 평가역량, 평가문항, 행동지표를 수정하였다. 대표성이 낮을 경우 삭제, 명확성이 낮을 경우 용어 및 내용 수정을 기준으로 정하고 델파이 분석 결과와 패널들의 의견을 반영하여 1차, 2차 델파이를 진행하였다. 1차 델파이 조사는 12명의 패널을 대상으로 2022년 7월 4일부터 7월 26일까지 진행하였으며, 각 문항에 대한 기술통계값 및 CVR 값을 분석하였다. 패널의 수가 12명이므로 Lawshe(1975)가 제시한 CVR(Content Validity Ration) 지수 최소값 0.56을 기준으로 적용하였으며, 이보다 낮거나 평균이 4.00 미만인 경우 타당도가 낮은 것으로 판단하였다. 합의도는 1에 가까울수록, 수렴도는 0에 가까울수록 타당하다고 볼 수 있다(Kang, 2008). 본 연구에서는 합의도가 0.75보다 큰 경우, 수렴도는 .05보다 작은 경우 의견 수렴이 잘 이루어진 것으로 판단하였다.
개발된 평가도구의 타당성과 신뢰성을 검증하기 위해 2022년 9월 8일부터 9월 26일까지 설문조사를 실시하였다. 조사결과는 요인분석을 실시하여 개별 항목이 해당 영역을 평가하기 타당한지를 확인하는 요인부하량 값을 산출하여 문항의 타당도를 검증하였으며, 구조방정식을 통해 도구 구성의 타당도를 확인하였다. 또한, 신뢰도 확인을 위해 Cronbach's α계수를 산출하였다.
Ⅲ. 연구 결과
1. 평가도구 초안 개발 결과
본 연구는 기존에 빈번하게 활용되어왔던 Likert 척도의 한계점인 학생 간 수준의 정도를 다르게 인식하거나 상대적 비교가 이루어지기 어려운 점 등을 보완하고자 BARS(behaviorally anchored rating scales)를 기반으로 문항을 개발하였다. BARS는 다양한 행동 양상을 고성과자의 우수 행동에서 초보자의 미숙한 행동을 수준별로 구분하여 제시하는 방식의 척도이다(Noh and Lee, 2013). 이때 피검자의 실제 행동과 가장 유사한 행동 수준을 나타내는 지표를 선택하여 역량의 수준을 결정한다.
BARS는 대상자 평가 시 행동의 특성차원과 수행의 기준들을 평정척도 상에서 고정하여 명시적으로 제시한다. 이에 대상자는 자신의 경험을 바탕으로 특성차원과 기준을 판단하므로 척도상의 내용이 의미하는 바와 평가 수준에 대해 일관된 이해를 하는 특징이 있으며, 행동특성을 수준별로 자세히 구분하여 평가기준을 제공하고 대상자가 실제로 자신이 행한 행동에 바탕을 두고 응답하므로 보다 높은 평가도구의 안면타당도를 얻을 수 있다. 행동지표의 성취수준을 도출하고 학습자의 교양교육 성과를 면밀하게 측정하기 위해 ‘Level ① 해당 행동특성에 대해 관심이 없거나 관련 행동을 하지 않는다’, ‘Level ② 해당 행동특성에 대해 관심이 있으나, 중요하다고 생각하지 않거나 어렵게 느낀다’, ‘Level ③ 해당 행동특성에 대해 관심이 있고 중요하다고 생각하며 행동특성 발현에 따른 결과물이 나타난다’, ‘Level ④ 해당 행동특성에 대해 매우 잘 인식하고 있고, 최적의 행동특성을 발현하며, 파급효과를 가진다’와 같은 BARS의 행동지표 성취기준에 따라 평가도구 초안을 개발하였다. <Table 1>은 영역별 목표 및 평가역량을 정리한 것이다.
다음으로, 문헌분석을 통해 도출된 평가도구문항 및 행동지표 예시는 <Table 2>와 같다.
2. 델파이 분석 결과
(1) 평가역량에 대한 분석 결과
기초교육 영역의 평가역량에 대한 1차 델파이 결과, ‘기초지식’의 명확성 결과가 평균(3.83)과 CVR값(0.33) 모두 기준보다 낮게 나타났으며, ‘자료정보해석능력’의 명확성 결과는 CVR값(0.50)이 기준보다 낮게 나타나 수정 및 보완 조치가 필요한 것으로 판단하였다. 그 외 역량은 대표성과 명확성 모두 평균과 CVR값, 합의도, 수렴도가 기준보다 높게 나타나 패널 의견일치가 이루어진 것으로 판단하였다. 또한 교양교육 영역의 평가역량에 대한 1차 델파이 결과, 6개 역량 모두 대표성과 명확성 결과의 평균과 CVR값이 기준보다 높게 나타나 내용타당도에 대한 패널의 의견일치가 이루어진 것으로 판단하였다.
(2) 평가문항에 대한 분석 결과
기초교육 영역의 평가문항에 대한 1차 델파이 결과, 기초지식의 ‘인간과 삶에 대한 기초지식 수준은?’의 명확성이 평균(3.92)과 CVR값(0.50) 모두 기준보다 낮게 나타났으며, ‘자연세계에 대한 기초지식 수준은?’의 명확성이 평균(3.83)과 CVR값(0.33) 모두 기준보다 낮게 나타났다.
문헌독해력의 ‘글을 읽는 활동에 대한 나의 주된 반응은?’의 명확성은 평균(3.75)과 CVR값(0.17) 모두 기준보다 낮게 나타났다. 조망수용능력의 ‘상대방의 의견을 판단하는 수준은?’의 명확성 CVR값(0.50)이 기준보다 낮게 나타났으며, ‘사회적 조망수용 능력 수준은?’의 명확성 결과가 평균(3.83)과 CVR값(0.33) 모두 기준보다 낮게 나타났다. 해당 문항들은 수정 및 보완 조치가 필요한 것으로 판단하였으며, 그 외 역량은 대표성과 명확성 모두 평균과 CVR값이 기준보다 높게 나타나 패널들의 의견일치가 이루어진 것으로 판단할 수 있다.
교양교육 영역의 평가문항에 대한 1차 델파이 결과, 지식탐구의 ‘인간과 세계에 호기심을 가지고 있는 행동수준은?’ 문항의 명확성 분석 결과 평균(3.92)과 CVR값(0.50) 모두 기준보다 낮게 나타났으며, 자기성찰의 ‘자아성찰과 관련된 에세이를 쓴다면 나의 행동 수준은?’ 문항의 명확성 분석 결과 평균(3.75)과 CVR값(0.17) 모두 기준보다 낮게 나타나 수정 및 보완 조치가 필요한 것으로 판단되었다.
가치추구의 ‘사회적 갈등상황을 판단하는 나의 기준은?’ 문항의 명확성 분석 결과 CVR값(0.50)이 기준보다 낮았으며, 개방적 지식습득 능력의 ‘내가 알고 있는 지식에 대한 나의 행동은?’ 문항의 명확성 분석 결과 평균(3.83)과 CVR값(0.50) 모두 기준보다 낮게 나타나 수정 및 보완 조치가 필요한 것으로 판단되었다.
지식융합능력의 ‘다양한 영역의 융합을 통해 독창적으로 사고를 해결하려는 나의 수준은?’ 문항의 명확성 분석 결과 CVR값(0.50)이 기준보다 낮게 나타났으며, 창의적 문제해결능력의 ‘교양 과제와 관련된 새로운 아이디어를 생성하는 나의 행동방식은?’ 문항의 명확성 분석 결과 CVR값(0.50)이 기준보다 낮게 나타나 수정 및 보완 조치가 필요한 것으로 판단되었다.
(3) 행동지표에 대한 분석 결과
기초교육 영역의 행동지표에 대한 1차 델파이 결과, 5개 문항의 명확성 평균 및 CVR값이 기준보다 낮게 나타나 수정, 보완 조치가 필요한 것으로 판단되었다. 그 외 문항은 대표성과 명확성 모두 평균, CVR값, 합의도, 수렴도가 기준보다 높게 나타나 패널 의견이 일치된 것으로 판단되었다. 1차 델파이 결과에 따른 기초교육 영역 행동지표의 5개 문항 수정사항은 다음과 같다.
기초교육 영역에서의 행동지표 중 ‘인간다운 삶을 살아가는데 필요한 기초지식 수준은?’ 문항의 ‘인간과 삶에 대한 기초 지식에 대해 이해하고 있다’ 지표는 ‘인간과 삶에 대한 기초 지식’이란 용어를 이해하는 것인지, ‘인간과 삶에 대한 기초 지식’을 가지고 있다는 것인지 모호하므로 수정이 필요하다는 의견을 수용하여 ‘인간다운 삶을 살아가는데 필요한 기초 지식이 무엇인지 이해하고 있다’로 수정하였다. ‘인간과 삶에 대한 지식수준이 높은 편이다’ 지표는 ‘지식’의 영역을 기초영역에 한정해야 한다는 의견을 수용하여 ‘인간다운 삶을 살아가는데 필요한 기초 지식수준이 높은 편이다’로 수정하였다. ‘사회 환경적 맥락에 따라 자료를 해석할 수 있는 수준은?’ 문항의 ‘다양한 사회 환경적 맥락을 고려하여 자료를 해석할 수 있다’ 지표는 정보를 찾고 분석한 후에 해석이 가능하기 때문에 ‘자료를 해석한다’는 표현보다 ‘자료를 찾는다’는 표현이 적절하다는 의견을 수용하여 ‘다양한 사회 환경적 맥락을 고려하여 자료를 찾을 수 있다’로 수정하였다. ‘통계적 해석 수준은?’ 문항의 ‘통계적 해석에 능숙하며 다양한 통계 기법을 이해하고 있다’ 지표는 3단계는 통계적 기법보다는 통계가 의미하는 바를 이해하고 있는지 묻는 표현이 적절하다는 의견을 수용하여 ‘통계적 해석에 능숙하며 다양한 통계적 의미를 이해하고 있다’로 수정하였다. ‘다양한 관점에서 지식과 정보를 분석하는 수준은?’ 문항의 ‘주로 단일한 관점에서 지식과 정보를 분석하며, 주요 이슈를 놓치는 경우가 있다’와 ‘여러 관점에서 지식과 정보를 분석하고자 하나 사실에 기반한 분석이 어렵다’ 지표는 Level 차이가 명확하지 않다는 의견을 수용하여 ‘주로 단일한 관점에서 지식과 정보를 분석한다’와 ‘여러 관점에서 지식과 정보를 분석하고자 하며 사실에 기반한 분석이 가능하다’로 수정하였다. ‘타인과의 협력 과제에서 나의 생각을 표현하는 수준은?’ 문항의 ‘타인의 기분과 상관없이 나의 생각을 단호하게 표현한다’ 지표는 타인의 기분과 상황을 동시에 고려하는 것이 적절하다는 의견을 수용하여 ‘타인의 기분과 상황에 상관없이 나의 생각을 단호하게 표현한다’로 수정하였다.
교양교육 영역의 행동지표에 대한 1차 델파이 결과, 30번 문항의 명확성 CVR값(0.50)이 기준보다 낮게 나타나 수정, 보완 조치가 필요한 것으로 판단되었다. 그 외 문항은 대표성과 명확성 모두 평균 및 CVR값이 기준보다 높게 나타나 패널들의 의견이 일치된 것으로 판단되었다.
1차 델파이 결과를 반영하여 수정된 평가도구를 활용하여 2차 델파이를 실시하였다. 12명의 패널을 대상으로 2022년 8월 1일부터 8월 16일까지 진행하였으며 설문지는 이메일로 회수하였다. 수정된 평가도구의 내용타당도를 확인하기 위하여 수정된 평가역량, 평가문항, 행동지표에 대한 대표성과 명확성을 기준으로 제시하였으며 평정방법과 평정척도는 1차 델파이와 동일하게 적용하였다. 내용타당도 검증 기준 또한 1회기와 동일하게 CVR 최소값 0.56을 적용하였으며 이보다 낮거나 평균이 4.00 미만일 경우 내용타당도 확보에 실패한 것으로 판단하였다.
기초교육 영역 및 교양교육 영역의 평가역량, 평가문항, 행동지표에 대한 대표성과 명확성 결과의 평균, CVR값, 합의도, 수렴도가 기준보다 높게 나타나 내용타당도에 대한 패널의 의견이 일치를 이룬 것으로 판단하였다(<Table 3>).
(1) 문항 기초분석
탐색적 요인분석을 실시하기에 앞서 문항에 대한 기술통계분석을 실시하였다. 초기문항에 대한 기술통계 분석 결과는 <Table 4>와 같다.
기술통계분석을 통해 산출된 각 문항의 평균, 표준편차, 왜도, 첨도를 통해 수집된 자료가 정규성 기준을 만족하는지 확인하였다. 문항의 평균이 극단치를 갖거나 표준편차가 지나치게 작은 경우, 응답자의 특성을 나타내지 못하는 것으로 해석할 수 있다. 또한, 평균이 낮으면서 표준편차가 극단적으로 큰 경우도 응답자의 해석에 차이가 있는 것으로 볼 수 있다(De vellis, 2003; Tag, 2007). 분석결과 평균 2.31~3.27, 표준편차 .67~.93의 분포가 나타나 극단치를 보이는 문항은 없었으며, 왜도 절댓값 3 미만, 첨도 절댓값 10 미만이면 정규분포에 근사하는 것으로 판단하는 Kline(2005)의 기준에 따라 모든 문항에 대한 왜도의 절댓값이 2 이하, 첨도의 절댓값이 7 이하로 나타나 삭제 대상이 되는 문항은 없었다.
이론적으로 가정된 영역, 목표, 평가역량별 문항에 대한 신뢰도 분석을 실시하였다. 일반적으로 Cronbach’s α계수가 .7 이상이면 양호한 수준이고, .9 이상일 경우 신뢰도가 매우 높은 것으로 판단한다(De Vellis, 2016; Kline, 2013).
영역별 Cronbach’s α의 분포는 기초교육 .93, 교양교육 .95로 매우 높게 나타났으며, 목표에 따른 Cronbach’s α분포 또한 .89~.91로 높았다. 평가역량에 따른 Cronbach’s α계수 또한 모두 .70 이상으로 양호한 수준의 신뢰도를 확인하였다.
초기문항의 평가역량 간 상관계수를 산출하기 위해 상관분석을 실시하고, 평가역량 간 상관계수를 <Table 5>와 같이 제시하였다. 문항 간 상관성이 지나치게 큰 경우 동일한 개념을 측정하고 있으므로 경제성을 고려하여 삭제하는 것이 바람직하다(De Vellis, 2016). 이와 반대로 문항 간 상관성이 낮을 경우 내적일관성을 저해하므로 삭제를 고려해야 한다(Clark and Watson, 1995).
초기문항의 평가역량 간 상관분석 결과, 상관계수의 분포가 .37~.79로 나타나 평가역량 간 변별타당도가 있는 것으로 확인되어 총 36개의 초기문항 전체에 대한 요인분석을 실시하였다.
3. 탐색적 요인분석 결과
수집된 자료가 요인분석하기에 적절한지 확인하기 위해 KMO와 Bartlett의 구형성 검정을 실시하였다. KMO값이 1에 가깝고 Bartlett의 구형성 검정 결과가 통계적으로 유의하게 나타나면 요인분석을 실시하기에 적합한 것으로 볼 수 있다(Hair et al., 2009; Kline, 2015; McCoach et al., 2013). 요인추출은 주성분 분석을 활용하였으며, 회전방법은 직각회전 방법 중 베리맥스(varimax)를 사용하였다. 목표별 탐색적 요인분석 결과는 <Table 6>과 같다. 반복적 요인분석 과정에서 Q6, Q7, Q12, Q15, Q30, Q36이 두 요인 이상에 중복적인 요인부하량 값을 가짐에 따라 삭제하였고, 최종적으로 도출된 30문항에 대해 평가역량별 탐색적 요인분석을 실시하였다.
요인분석 결과 검증에 앞서 분석의 적합성을 확인한 결과, KMO 값이 .87~.90로 나타났고, Bartlett의 구형성 검증 결과 모두 유의수준 .001에서 통계적으로 유의한 것으로 나타났다. 평가역량에 대한 모든 문항의 요인부하량이 .4 이상으로 나타나 측정지표를 타당하게 구성하고 있는 것으로 확인하였다. 탐색적 요인분석 결과 각 목표에 따른 3개의 평가역량으로 구성하는 것이 타당한 것으로 나타났다. 즉 기초교육 영역의 ‘학문탐구를 위한 보편적 문해 능력 함양’을 구성하는 ‘기초지식’, ‘문헌독해력’, ‘자료정보해석능력’ 3개 평가역량에 대한 7개 문항, ‘비판적 사고능력, 합리적 의사소통능력 함양’을 구성하는 ‘비판적 사고능력’, ‘조망수용능력’, ‘자기표현능력’ 3개 평가역량에 대한 7개 문항, 교양교육 영역의 ‘인간과 세계에 대한 바람직한 가치관 정립’을 구성하는 ‘지식탐구’, ‘자기성찰’, ‘가치추구’ 3개 평가역량에 대한 9개 문항, ‘융합적 사고 및 창의적 문제해결 능력 함양’을 구성하는 ‘개방적 지식습득능력’, ‘지식융합능력’, ‘창의적 문제해결능력’ 3개 평가역량에 대한 7개 문항의 총 30문항으로 구성하는 것이 적절한 것으로 확인되었다.
4. 확인적 요인분석 결과
측정도구의 각 하위요인별 모형적합도를 검증하기 위해 확인적 요인분석을 실시하였다. 본 연구에서는 GFI, CGI, TLI, RMSEA를 적합도 지수로 선정하여 모형적합도를 평가하였다. 확인적 요인분석 결과는 <Table 7>과 같다.
‘학문탐구를 위한 보편적 문해능력 함양’을 구성하는 3개 평가역량, ‘비판적 사고능력, 합리적 의사소통능력 함양’을 구성하는 3개 평가역량, ‘인간과 세계에 대한 바람직한 가치관 정립’을 구성하는 3개 평가역량, ‘융합적 사고 및 창의적 문제해결 능력 함양’을 구성하는 3개 평가역량이 각각 3요인-CFA 모델 적합도 지수의 수용 기준에 모두 부합하는 것으로 검증되었다.
또한 잠재변수와 측정변수 간에 일치성 정도를 검증하기 위해 측정도구의 집중타당성과 판별타당성 분석을 실시하였다. <Table 8>에 제시된 바와 같이, 잠재변인의 개념신뢰도는 .852-.961(기준치 .70 이상)로 비교적 높게 나타났으며, 평균분산추출값은 .742-.893(기준치 .50 이상)으로 기준치를 상회하는 것으로 나타나 집중타당성이 확인되었다. 또한, 각 요인 사이 분산추출지수가 각 요인의 상관계수의 제곱, 즉 결정계수(r2) 보다 크기 때문에 요인의 판별타당성이 확보되었다.
5. 최종문항 신뢰도 분석 및 상관분석 결과
평가도구의 타당성이 검증된 문항에 대하여 영역, 목표, 평가역량에 따른 신뢰도 분석 결과 Cronbach’s α계수는 <Table 9>와 같다.
영역에 따른 Cronbach’s α의 분포는 기초교육 영역 .92, 교양교육 영역 .94로 문항의 신뢰도가 매우 높은 것으로 나타났고, 목표에 따른 Cronbach’s α 분포 또한 .87~.90으로 높게 나타났다. 평가역량에 따른 Cronbach’s α계수 모두 .70 이상으로 양호한 수준의 신뢰도를 나타냈다.
문항이 구성하는 평가역량 간 구인타당도를 검증하고자 상관분석을 실시하였고, 분석결과는 <Table 10>과 같다.
평가역량 간 관련성이 통계적으로 유의하여 수렴타당도가 확보되었고, 상관계수의 분포가 .25~.71로 나타나 평가역량 간 변별타당도가 있는 것으로 볼 수 있다. 이상의 과정을 거쳐 총 30개의 문항이 최종 확정되었다.
Ⅳ. 결 론
시대와 사회의 급격한 변화에 따라 대학에서는 교육의 책무성을 위해 단순히 양질의 교육을 제공하는 것에서 더 나아가 교육의 질 관리를 필수적인 과업으로 받아들여야 한다. 특히 교양교육의 질 관리를 위해서는 현 시대의 교양교육 목표에 따른 성과 관리가 필요하다.
이러한 필요성에 따라 본 연구는 교양교육의 목표인 ‘학문탐구를 위한 보편적 문해능력 함양’, ‘비판적 사고능력, 합리적 의사소통능력 함양’, ‘인간과 세계에 대한 바람직한 가치관 정립’, ‘융합적 사고 및 창의적 문제해결 능력 함양’을 효과적으로 측정할 수 있는 학생 성과평가 도구를 개발하고 타당화하고자 하였다.
이를 위해 선행 문헌분석 및 고찰을 통해 행동기준 평정척도(BARS)를 기반으로 문항을 개발하였으며, 총 2회의 전문가 델파이 검증을 실시하고 탐색적 요인분석 및 확인적 요인분석을 통해 도구의 타당도와 신뢰도를 검증하여 최종 30개 문항을 확정하였다. 도출된 결과를 바탕으로 논의하면 다음과 같다.
첫째, 본 연구는 기존 개발된 도구의 한계점을 보완하여 교양교육에 대한 성과를 단편적으로 평가하는 것이 아닌 교양교육의 목표에 근거한 문항을 개발하여 타당화하고자 하였다.
대학에서 빈번하게 활용되고 있는 K-CESA와 K-NSSE, 그리고 NASEL과 같은 측정도구는 전반적인 대학 교육에 대한 학습성과를 측정하고 있어 교양교육의 목표를 달성하고 있는지 세부적으로 파악하기에는 어려움이 있으며, CAAP는 교양과목 이수학점이 일정 수준 이상인 학생을 대상으로 평가하여 재학생 전체를 대상으로 활용하기에는 한계가 있다. MAAP과 CBASE는 교양교육의 특정 영역의 성과를 평가하고 있어 전체적인 교양교육의 목표를 달성하고 있는지 파악하기 어렵다. AHELO는 국제적 차원에서 개발된 도구로, 우리나라 대학의 교양교육에 초점을 두고 학습성과를 측정하기에는 부족한 측면이 있다.
본 연구는 이러한 도구들의 한계를 보완하고 교양교육 성과의 수준을 세밀하게 측정하고자 기존 도구 개발 시 빈번하게 사용된 Likert척도 대신 행동기준 평정척도(BARS)를 활용하고자 하였다. 또한 보편적인 측정도구로 활용하기 위해 한국교양기초교육원에서 제시한 기초교육 및 교양교육 영역에서 지향하는 목표에 근거한 세부 문항을 개발하고자 하였다.
이를 바탕으로 ‘학문 탐구를 위한 보편적 문해능력 함양’의 평가역량 7문항, ‘비판적 사고능력, 합리적 의사소통능력 함양’의 평가역량 7문항, ‘인간과 세계에 대한 바람직한 가치관 정립’의 평가역량 9문항, ‘융합적 사고 및 창의적 문제해결능력 함양’의 평가역량 7문항으로 총 30개의 문항을 개발하였다.
학생들은 행동기준 평정척도의 수준에 따라 자신이 성취한 역량 수준에 대해 보다 면밀하게 파악할 수 있다. 예를 들면, 평가역량 중 지식융합능력에서 ‘다양한 영역의 융합을 통해 독창적으로 사고를 해결하는 수준’에 대한 평가를 할 경우 ‘매우 그렇지 않다~매우 그렇다’의 5점 척도로 파악하는 것이 아니라 ‘하나의 통상적인 사고와 습관에서 벗어나지 못하는 편이다’, ‘다양한 영역을 융합하기 전에 먼저 떠오른 사고에 대해 성급한 평가를 내리는 편이다’, ‘다양한 영역에 대해 다각적인 접근을 통해 해결책을 모색하고 검증하고자 한다’, ‘다양한 영역의 자료를 새로운 방법으로 결합하여 하나의 새로운 의미와 경험을 만드는 것을 즐긴다’와 같이 구체적인 수준을 바탕으로 학생이 자신의 실제 행동과 가장 유사하거나 행동의 수준을 나타내는 지표를 선택할 수 있는 것이다. 이는 기존 척도에서 측정하기 어려운 학생의 세부적인 수준을 파악할 수 있다는 점에서 의미가 있다고 할 수 있다.
둘째, 본 연구에서 개발한 도구는 전문가 델파이 검증과 요인분석, 신뢰도 분석 및 상관분석을 통해 타당도를 확보하였다.
1차 전문가 델파이 조사 설문지에서 수정·보완 사항이 도출되었으나, 2차 델파이 조사를 통해 대표성과 명확성 모두 평균, CVR, 합의도, 수렴도가 기준보다 높게 나타남을 확인하였다. 이는 전문가 집단이 교양교육의 성과를 평가하는 역량-문항-지표에 해당하는 내용의 중요성과 필요성에 대해 긍정적으로 인식하고 있기 때문이기도 하겠지만, 교양교육 성과평가에 대한 긍정적 인식과 관심을 비롯하여 보다 체계적인 환류의 필요성을 공감하기 때문이라 판단된다.
탐색적 요인분석을 통해 적합성과 요인부하량을 검증하여 모든 문항이 측정지표를 타당하게 구성하고 있다는 것을 확인했으며, 확인적 요인분석을 통해 하위요인별 모형적합도를 검증하였다. 또한 집중타당성과 판별타당성 분석을 통해 기준치를 충족함을 확인하였다.
영역과 목표에 따른 Cronbach’s α의 분포는 신뢰도가 매우 높은 수준으로 나타났고, 평가역량에 따른 Cronbach’s α계수 또한 양호한 수준의 신뢰도를 나타냈다. 상관분석 결과, 평가역량 간 관련성이 통계적으로 유의하여 수렴타당도가 확보되었고, 평가역량 간 변별타당도가 있음을 검증하였다. 이를 통해 본 연구에서 개발한 도구는 타당한 과정을 거쳐 학생의 교양교육 성과를 측정할 수 있는 체계적이고 양호한 척도로 개발되었음이 규명되었다.
이러한 결론을 바탕으로 연구의 의의를 살펴보면 다음과 같다.
첫째, 본 연구를 통해 개발된 도구는 현 시대의 교양교육 목표에 따른 학습 성과 관리에 용이하게 활용될 수 있을 것이며, 세부적으로 교양 교과목이 교양교육에서 달성하고자 하는 목표에 어떠한 기여를 하였는지 평가할 수 있을 것이다.
둘째, 평가 도구를 활용함으로써 학생 스스로 자신의 역량 수준을 파악할 수 있을 뿐 아니라 교양과목 담당 교수자가 학생들의 역량 향상 정도에 대한 정보를 파악할 수 있을 것이다. 이를 통해 교수자가 의도했던 수업 목표에 학생들이 얼마나 도달하였는지, 학업 성취를 위해 어떤 노력을 기울였는지 등을 확인함으로써 교수자 스스로 수업을 지속적으로 발전시킬 수 있는 성찰의 기회를 가질 수 있을 것이다.
셋째, 대학 별 교양교육의 성과를 증명해야 하는 사회적 요구는 앞으로도 지속적으로 증가할 것이다. 이러한 측면에서 개발된 도구를 통해 측정된 교양 교육과정의 성과를 대학 간 비교하는 것은 대학 차원에서 교양교육의 강점과 약점을 분석하는 데 도움을 제공할 수 있을 것이다.
넷째, 대학은 교육과정의 방향을 설정하거나 수업을 평가하는 합리적 판단의 근거로 본 도구를 활용할 수 있을 것이다. 아울러 평가 도구가 대학에서 교양교육의 학습 성과 진단 및 환류 과정의 유용한 참고자료로 활용됨으로써 대학교육의 질 개선 및 교육적 책무성을 높이는 데 기여할 수 있을 것이다.
본 연구의 제한점 및 후속 연구를 위한 제언은 다음과 같다.
첫째, 본 연구에서는 전문가 델파이 분석 및 요인분석을 통해 도구의 타당도를 검증하였다. 추후 다양한 집단 간 준거관련타당도를 재검증하여 본 연구에서 개발된 도구의 점수에 대한 규준화 과정이 필요하다.
둘째, 교양교육의 성과가 학년별, 계열별로 어떻게 변화하는지 종단연구가 수행되기를 바란다. 축적된 데이터를 바탕으로 추후 교양교육과정 내에서 교양교육 목표를 달성하기 위해 어떤 접근을 해야 하는지 논의할 수 있게 되기를 기대한다.
셋째, 본 연구에서 개발된 도구를 통해 교양교육과 다양한 변인들 간의 관계를 밝히는 연구 가 이루어지기를 바란다. 아울러 평가 도구가 대학의 교양교육 질 관리에 다양한 형태로 활용되기를 기대한다.
Acknowledgments
이 논문은 2021년 대한민국 교육부와 한국연구재단의 인문사회분야 신진연구자지원사업의 지원을 받아 수행된 연구임(NRF-2021S1A5A8069198)
References
- Bae SH(2012). A study on the measurement to evaluate the quality and outcomes of general education at the higher education level. Korea National Institute for General Education Research report RR 2012-18.
- Clark A and Watson D(1995). Constructing validity: Basic issues in objective scale development. Psychological Assessment, 7(3): 309-319.
- De Vellis RF(2003). Scale development: Theory and applications(2nd ed., Vol. 26). Thousand Oaks, CA: Sage Publications.
- De Vellis RF(2016). Scale development: Theory and applications(4th ed.). Thousand Oaks, CA: Sage Publications.
- Grant JS and Davis LL(1997). Selection and use of content experts for instrument development. Research in nursing and health, 20(3): 269-274.
- Hair Jr. JF, Black WC, Babin BJ and Anderson RE(2009). Multivariate data analysis(7th ed.). Upper Saddle River, NJ: Pearson Education.
- Hong SY, Kim, IS, Lee JH and Lim HJ(2016). Study on Performance Assessment Methods by Academic Area in Liberal Arts Education: Overall Areas of Liberal Arts Education. Korea National Institute for General Education Research report RR 2016-19.
- Jung JY(2019). A Study on the Improvement of Learning Outcomes of University Students to Improve Higher Education Quality: Focusing on Small and Medium-sized Universities. The Korean Society for Fisheries and Marine Sciences Education, 31(2): 606~622. [https://doi.org/10.13000/JFMSE.2019.4.31.2.606]
- Kang YJ(2008). Understanding and Application of Delphi Techniques. Korea Employment Agency for the Disabled, 1-17.
- Kim EK and Han YY(2019). Development of creative and integrated competencies learning outcome rubric in general education. Korean Journal of General Education, 13(6): 497-519.
- Kline P(2013). The handbook of psychological testing(2nd ed.). London: Routledge.
- Kline RB(2005). Principles and practice of structural equation modeling. Guilford publications.
- Kline RB(2015). Principles and practice of structural equation modeling(4th ed.). New York, NY: Guilford. Press.
- Korea National Institute for General Education (2016). The Standard Model of the Korea National Institute for General Education. http://konige.kr/sub02_08.php, .
- Kwon DT, Yi JY and Lee JP(2013). The Study on the Application of TQM for the School-based Curriculum. The Journal of Learner-Centered Curriculum and Instruction, 13(3): 113-132.
- Lawshe CH(1975). A quantitative approach to content validity. Personnel psychology, 28(4): 563~575.
- Lim YK, Bae ES and Lee MS(2019). A study for evaluation of liberal arts education. Korean Journal of General Education, 13(1): 117~140.
- McCoach DB, Gable RK, and Madura J(2013). Instrument design in the affective domain: School and corporate applications(3rd ed.). New York, NY: Springer.
- Noh YS and Lee SS(2013). A Study on Developing and Validating the Instrument for Diagnosing the Competency of University Students : A Case Study of D Women`s University. The Korean Journal of Human Resource Development Quarterl, 15(3): 273~305. [https://doi.org/10.18211/KJHRDQ.2013.15.3.011]
- Rowe G and Wright G(2001). Expert opinions in forecasting: the role of the Delphi technique. Principles of forecasting: A handbook for researchers and practitioners, 125~144.
- Son DH(2010). Balance, Convergence and Integration of General Education and Major Education. Korean Journal of General Education, 4(2): 19~27.
- Tag JG(2007). Psychological Testing: Understanding Development and Evaluation Methods. Seoul: Hakjisa.
- Uhm WY(2014). Operational plan of a qualification system for a culture tour guide utilizing the Delphi techniques. Unpublished doctoral disseration, University of Keimyung.