BAB I
PENDAHULUAN
Latar Belakang
Test merupakan salah satu alat ukur keberhasilan suatu proses pembelajaran dan proses pendidikan. Dalam posisinya sebagai alat ukur keberhasilan, maka test harus disusun sedemikian rupa sehingga benar-benar mencerminkan kualitas dari suatu pembelajaran dan pendidikan.
Mahasiswa tarbiyah merupakan calon guru di masa yang akan datang. Kiprahnya sebagai guru kelak harus menunjukkan sebagai guru yang profesional dan dapat diandalkan. Diantara kompetensi yang harus dikuasai oleh guru adalah bagaimana seorang guru menyusun soal test dan mengukur sejauh mana efektivitas test tersebut digunakan untuk mengukur keberhasilan proses pembelajaran dan proses pendidikan.
Berdasarkan paparan di atas maka penulis tertarik untuk menjabarkan tentang bagaimana cara menyusun test yang baik yang meliputi bagaimana mengukur ketepatan pada sasaran suatu test(valid), keajegan dan konsistensi, daya pembeda dan tingkat kesukaran suatu test, karena itu penulis mengambil judul makalah "Kriteria Test yang Baik".
Tujuan
Penguasaan terhadap materi-materi yang berhubungan dengan proses pembelajaran merupakan hal mutlak yang harus dilakukan oleh mahasiswa tarbiyah, karena itu penulisan makalah ini didasarkan kepada tujuan-tujuan berikut ini :
Untuk memperdalam penguasaan materi penulis tentang evaluasai pembelajaran khususnya yang berhubungan dengan kriteria test yang baik.
Menjelaskan tentang validitas, reliabilitas, daya pembeda dan tingkat kesukaran suatu test dan bagaimana cara mengukurnya.
Menjelaskan interpretasi dari setiap skala pengukuran.
Menambah pengalaman penulis dalam menentukan validitas, reliabilitas, daya pembeda dan tingkat kesukaran suatu test melalui praktek yang dibimbing langsung oleh dosen.
Untuk memenuhi salah satu tugas Mata Kuliah Evaluasi Pembelajaran.
BAB II
PEMBAHASAN
Sebuah tes dikatakan sebagai test yang baik jika memenuhi kriteria di bawah ini :
Kesahihan/ Validitas
Suatu instrumen evaluasi dikatakan valid jika instrumen yang digunakan dapat mengukur apa yang hendak diukur. Jadi jika test tersebut adalah test pencapaian hasil belajar maka hasil test tersebut apabila diinterpretasikan secara intensif, hasil yang dicapai memang benar menunjukkan ranah evaluasi pencapaian hasil belajar.
Sebelum soal test ini dipakai harus diuji coba dahulu, selanjutnya dilakukan pengujian validitas yang terdiri dari :
Validitas isi atau kontruk. Validitas ini dilakukan bertujuan untuk menentukan kesesuaian antara soal dengan materi ajar dan dengan tujuan yang ingin diukur atau dengan kisi-kisi yang kita buat. Validitas ini dilakukan dengan meminta pertimbangan dari para ahli (pakar) dalam bidang evaluasi atau ahli dalam bidang yang sedang diuji.
Validitas prediksi, validitas ini dimaksudkan agar hasil test mampu memprediksi keberhasilan peserta didik di kemudian hari, misalnya ujian masuk atau test seleksi.
Validitas empiris (kriterium), validitas ini bertujuan untuk menentukan tingkat kehandalan soal. Dalam penentuan tingkat validitas butir soal digunakan korelasi product moment Pearson dengan mengkorelasikan antara skor yang didapat siswa pada suatu butir soal dengan skor total yang didapat. Rumus yang digunakan :
Keterangan :
rxy = Koefisien korelasi antara variable X dan variable Y
N = Banyaknya peserta test
X = Nilai hasil uji coba
Y = Nilai rata-rata harian (Ruseffendi, 1991)
Interprestasi terhadap nilai koefisien korelasi
rxy digunakan kriteria Nurgana (Ruseffendi, 1994:144) berikut ini :
0,8 <
rxy ≤ 1,0 : sangat tinggi
0,6 <
rxy ≤ 0,8 : tinggi
0,4 <
rxy ≤ 0,6 : cukup
0,2 <
rxy ≤ 0,4 : rendah
rxy ≤ 0,2 : sangat rendah
Banyak faktor yang mempengaruhi validitas sebuah test, diantaranya :
Faktor dari dalam test :
Arahan test yang disusun dengan makna tidak jelas sehingga dapat mengurangi validitas test.
Kata-kata yang digunakan dalam struktur instrumen evaluasi terlalu sulit.
Item-item test dikonstruksikan dengan jelek.
Tingkat kesulitan test tidak tepat dengan materi pembelajaran yang diterima siswa.
Waktu yang dialokasikan tidak tepat, hal ini mungkin terlalu kurang atau terlalu longgar.
Jumlah test terlalu sedikit sehingga tidak mewakili sampel materi pembelajaran.
Jawaban masing-masing item bisa diprediksi oleh siswa.
Faktor yang berasal dari administrasi dan skor :
Waktu pengerjaan tidak cukup sehingga siswa memberikan jawaban dalam situasi tergesa-gesa.
Adanya kecurangan dalam test sehingga tidak bisa dibedakan mana yang belajar dan mana yang curang.
Pemberian petunjuk dari pengawas yang tidak dapat dilakukan pada semua siswa.
Teknik pensekoran yang tidak konsisten, misalnya pada test essay.
Siswa tidak dapat mengikuti arahan yang diberikan dalam test baku.
Adanya joki yang masuk dan menjawab item yang diberikan.
Keajegan Reliabilitas
Reliabilitas dapat diartikan dengan sama dengan konsistensi atau keajegan. Suatu instrumen evaluasi, dikatakan mempunyai nilai reliabilitas tinggi apabila test yang dibuat mempunyai hasil yang konsisten dalam mengukur yang hendak diukur. Ini berarti semakin reliabel suatu test, semakin yakin kita dapat menyatakan bahwa dalam hasil suatu test mempunyai hasil yang sama ketika dilakukan test kembali.
Reliabilitas suatu test pada umumnya dapat diekspresikan secara numerik dalam bentuk koefisien yang besarnya -1 > 0 > +1. Koefisien tinggi menunjukkan reliabilitas tinggi. Sebaliknya koefisien rendah maka reliabilitas rendah.
Reliabilitas soal merupakan ukuran yang menyatakan tingkat keajegan atau kekonsistenan suatu soal test. Untuk mengukur tingkat keajegan soal ini digunakan perhitungan Alpha Crombach. Rumus yang digunakan dinyatakan dengan :
Keterangan :
n = banyaknya butir soal
Si 2 = jumlah varians skor tiap item
St 2 = varians skor total
Rumus untuk mencari varians adalah :
Interpretasi nilai r11 mengacu kepada pendapat Guilford (Ruseffendi, 1991b:191) :
r11 ≤ 0,2 reliabilitas : sangat rendah
0,2 < r11 0,4 reabilitas : rendah
0,4 < r11 0,7 reabilitas : sedang
0,7 < r11 0,9 reabilitas : tinggi
0,9 < r11 1,0 reabilitas : sangat tinggi
Daya Pembeda
Untuk perhitungan daya pembeda (DP), dilakukan langkah-langkah sebagai berikut :
Para siswa didaftarkan dalam peringkat pada sebuah tabel.
Dibuat pengelompokkan siswa dalam dua kelompok, yaitu kelompok atas terdiri atas 50 % dari seluruh siswa yang mendapat skor tinggi dan kelompok bawah terdiri atas 50 % dari seluruh siswa yang mendapat skor rendah.
Daya pembeda ditentukan dengan :
Keterangan :
SA = jumlah skor kelompok atas pada butir soal yang diolah
SB = jumlah skor kelompok bawah pada butir soal yang diolah
IA = jumlah skor ideal salah satu kelompok pada butir soal yang diolah
Interpretasi nilai DP mengacu kepada pendapat (Ruseffendi, 1991:203-204) :
0,4 atau lebih : sangat baik
0,3 – 0,39 : cukup baik, mungkin perlu diperbaiki
0,2 – 029 : minimun, perlu diperbaiki
0,19 ke bawah : jelek, dibuang atau dirombak.
Tingkat Kesukaran
Tingkat kesukaran (TK) pada masing-masing butir soal dihitung dengan menggunakan rumus :
Keterangan :
TK = Tingkat Kesukaran
SA = jumlah skor kelompok atas
SB = jumlah skor kelompok bawah
n = jumlah siswa kelompok atas dan kelompok bawah
maks = skor maksimal soal yang bersangkutan
Sementara kriteria interpretasi tingkat kesukaran digunakan pendapat Sudjana (1993:137) :
0,00 – 0,30 : sukar
0,31 – 0,70 : sedang
0,71 – 1,00 : mudah
Langkah-langkah Menguji Soal
Untuk lebih praktisnya akan diberikan beberapa langkah praktis untuk menguji soal, misalnya diketahui data test sebagai berikut :
No | Nama | Item Soal | Jml |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
1 | Aa Navis | 0 | 0 | 3 | 0 | 6 | 0 | 0 | 0 | 0 | 0 | 9 |
2 | Adi Ilham | 3 | 2 | 3 | 0 | 3 | 0 | 0 | 5 | 0 | 0 | 16 |
3 | Aditya | 0 | 8 | 0 | 0 | 0 | 5 | 0 | 5 | 0 | 0 | 18 |
4 | Aditya Andriana | 3 | 5 | 0 | 0 | 9 | 5 | 0 | 5 | 0 | 0 | 27 |
5 | Ayi Jauhar | 0 | 5 | 3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 8 |
6 | Dindin | 3 | 2 | 3 | 0 | 6 | 0 | 0 | 5 | 0 | 15 | 34 |
7 | Dita Aulia Utami | 0 | 2 | 0 | 0 | 0 | 5 | 0 | 0 | 0 | 0 | 7 |
8 | Ebin Malik MY | 0 | 5 | 3 | 0 | 9 | 0 | 0 | 5 | 0 | 15 | 37 |
9 | Elvira | 0 | 2 | 3 | 0 | 6 | 5 | 0 | 5 | 15 | 0 | 36 |
10 | Fahmi Alfiannur | 3 | 0 | 0 | 0 | 9 | 5 | 0 | 5 | 0 | 15 | 37 |
11 | Fajar Ismi C | 0 | 5 | 3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 8 |
12 | Farhan | 3 | 2 | 0 | 0 | 9 | 5 | 0 | 5 | 0 | 0 | 24 |
13 | Hendrik S | 3 | 0 | 0 | 0 | 3 | 5 | 0 | 5 | 0 | 0 | 16 |
14 | Husni M | 0 | 5 | 0 | 0 | 6 | 5 | 5 | 0 | 15 | 0 | 36 |
15 | Iis | 3 | 5 | 3 | 0 | 0 | 5 | 0 | 5 | 0 | 0 | 21 |
16 | Imas Masfufah | 3 | 0 | 3 | 0 | 0 | 0 | 0 | 15 | 15 | 0 | 36 |
17 | Lora M S | 3 | 0 | 0 | 0 | 6 | 5 | 0 | 5 | 0 | 0 | 19 |
18 | M. Risdan | 3 | 0 | 0 | 0 | 9 | 5 | 0 | 5 | 0 | 0 | 22 |
19 | Nijar Fauji | 3 | 5 | 3 | 0 | 6 | 5 | 0 | 5 | 15 | 0 | 42 |
20 | Rafiq | 0 | 2 | 3 | 0 | 6 | 0 | 0 | 0 | 0 | 0 | 11 |
21 | Rifa | 0 | 5 | 0 | 0 | 6 | 5 | 0 | 5 | 15 | 0 | 36 |
22 | Risal | 0 | 0 | 3 | 0 | 6 | 0 | 0 | 0 | 0 | 0 | 9 |
23 | Sansa | 3 | 0 | 0 | 0 | 9 | 5 | 0 | 5 | 0 | 15 | 37 |
24 | Sara | 0 | 5 | 3 | 0 | 6 | 0 | 0 | 0 | 0 | 0 | 14 |
25 | Tina | 0 | 0 | 3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 3 |
26 | Yosef | 3 | 5 | 5 | 0 | 6 | 5 | 0 | 5 | 15 | 0 | 44 |
Jumlah | 39 | 70 | 47 | 0 | 126 | 75 | 5 | 80 | 90 | 75 | 607 |
∑X 2 | 117 | 338 | 151 | 0 | 900 | 375 | 25 | 400 | 1350 | 1125 | 18239 |
Kesahihan/ Validitas
Untuk menguji validitas soal, maka hasil pekerjaan siswa cantumkan seperti di atas, selanjutnya cari nilai-nilai yang dibutuhkan, untuk menghitungnya bisa digunakan kalkulator, program komputer seperti Excel, SPSS, Disrel, dan sebagainya. Selanjutnya hitung korelasi antara nilai hasil uji coba dengan nilai rata-rata harian. Korelasi ini dihitung menggunakan rumus produk momen dari Pearson dengan formula sebagai berikut :
Proses perhitungan sebagai berikut, dengan N = 26 :
Soal Nomor 1
Berdasarkan kriteria nilai rxy = 0,44 termasuk kategori cukup.
Soal Nomor 2
Berdasarkan kriteria nilai rxy = 0,15 termasuk kategori sangat rendah.
Soal Nomor 3
Berdasarkan kriteria nilai rxy = -0,04 termasuk kategori sangat rendah.
Soal Nomor 4
Berdasarkan kriteria nilai rxy = termasuk kategori sangat rendah.
Soal Nomor 5
Berdasarkan kriteria nilai rxy = 0,51 termasuk kategori cukup.
Soal Nomor 6
Berdasarkan kriteria nilai rxy = 0,49 termasuk kategori cukup.
Soal Nomor 7
Berdasarkan kriteria nilai rxy = 0,20 termasuk kategori rendah.
Soal Nomor 8
Berdasarkan kriteria nilai rxy = 0,58 termasuk kategori cukup.
Soal Nomor 9
Berdasarkan kriteria nilai rxy = 0,66 termasuk kategori tinggi.
Soal Nomor 10
Berdasarkan kriteria nilai rxy = 0,50 termasuk kategori cukup.
Reliabilitas
Reliabilitas tes dihitung dengan menggunakan rumus reliabilitas untuk tes uraian sebagai berikut :
Rumus untuk mencari varians adalah :
Varian soal no. 1
| Varian soal no. 6
|
Varian soal no. 2
| Varian soal no. 7
|
Varian soal no. 3
| Varian soal no. 8
|
Varian soal no. 4
| Varian soal no. 9
|
Varian soal no. 5
| Varian soal no. 10
|
Sehingga Si 2 = 2,25 + 5,75 + 2,6 + 0 + 11,1 + 6,1 + 0,92 + 5,9 + 39,9 + 34,1 = 108,62
Untuk varians totalnya adalah :
Koefisien realibilitas 0,396 menyatakan bahwa soal yang dibuat reliabilitasnya rendah.
Tingkat Kesukaran
Tingkat kesukaran tes dihitung dengan menggunakan rumus tingkat kesukaran untuk tes uraian, sebagai berikut :
Hasil uji coba kelompok atas
No | Nama | Item Soal | Jml |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
1 | Yosef | 3 | 5 | 5 | 0 | 6 | 5 | 0 | 5 | 15 | 0 | 44 |
2 | Nijar Fauji | 3 | 5 | 3 | 0 | 6 | 5 | 0 | 5 | 15 | 0 | 42 |
3 | Ebin Malik MY | 0 | 5 | 3 | 0 | 9 | 0 | 0 | 5 | 0 | 15 | 37 |
4 | Fahmi Alfiannur | 3 | 0 | 0 | 0 | 9 | 5 | 0 | 5 | 0 | 15 | 37 |
5 | Sansa | 3 | 0 | 0 | 0 | 9 | 5 | 0 | 5 | 0 | 15 | 37 |
6 | Elvira | 0 | 2 | 3 | 0 | 6 | 5 | 0 | 5 | 15 | 0 | 36 |
7 | Husni M | 0 | 5 | 0 | 0 | 6 | 5 | 5 | 0 | 15 | 0 | 36 |
8 | Imas Masfufah | 3 | 0 | 3 | 0 | 0 | 0 | 0 | 15 | 15 | 0 | 36 |
9 | Rifa | 0 | 5 | 0 | 0 | 6 | 5 | 0 | 5 | 15 | 0 | 36 |
10 | Dindin | 3 | 2 | 3 | 0 | 6 | 0 | 0 | 5 | 0 | 15 | 34 |
11 | Aditya Andriana | 3 | 5 | 0 | 0 | 9 | 5 | 0 | 5 | 0 | 0 | 27 |
12 | Farhan | 3 | 2 | 0 | 0 | 9 | 5 | 0 | 5 | 0 | 0 | 24 |
13 | M. Risdan | 3 | 0 | 0 | 0 | 9 | 5 | 0 | 5 | 0 | 0 | 22 |
Jumlah | 27 | 36 | 20 | 0 | 90 | 50 | 5 | 55 | 90 | 75 | 448 |
Hasil Uji Coba Kelompok Bawah
No | Nama | Item Soal | Jml |
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
1 | Iis | 3 | 5 | 3 | 0 | 0 | 5 | 0 | 5 | 0 | 0 | 21 |
2 | Lora M S | 3 | 0 | 0 | 0 | 6 | 5 | 0 | 5 | 0 | 0 | 19 |
3 | Aditya | 0 | 8 | 0 | 0 | 0 | 5 | 0 | 5 | 0 | 0 | 18 |
4 | Adi Ilham | 3 | 2 | 3 | 0 | 3 | 0 | 0 | 5 | 0 | 0 | 16 |
5 | Hendrik S | 3 | 0 | 0 | 0 | 3 | 5 | 0 | 5 | 0 | 0 | 16 |
6 | Sara | 0 | 5 | 3 | 0 | 6 | 0 | 0 | 0 | 0 | 0 | 14 |
7 | Rafiq | 0 | 2 | 3 | 0 | 6 | 0 | 0 | 0 | 0 | 0 | 11 |
8 | Aa Navis | 0 | 0 | 3 | 0 | 6 | 0 | 0 | 0 | 0 | 0 | 9 |
9 | Risal | 0 | 0 | 3 | 0 | 6 | 0 | 0 | 0 | 0 | 0 | 9 |
10 | Ayi Jauhar | 0 | 5 | 3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 8 |
11 | Fajar Ismi C | 0 | 5 | 3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 8 |
12 | Dita Aulia Utami | 0 | 2 | 0 | 0 | 0 | 5 | 0 | 0 | 0 | 0 | 7 |
13 | Tina | 0 | 0 | 3 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 3 |
Jumlah | 12 | 34 | 27 | 0 | 36 | 25 | 0 | 25 | 0 | 0 | 159 |
Tingkat Kesukaran
No Soal | n | SKA | SKa | SKA + SKa | Tingkat Kesukaran |
Indek | Keterangan |
1 | 26 | 27 | 12 | 39 | 0,125 | Sukar |
2 | 26 | 36 | 34 | 70 | 0,179 | Sukar |
3 | 26 | 20 | 27 | 47 | 0,129 | Sukar |
4 | 26 | 0 | 0 | 0 | 0 | Sukar |
5 | 26 | 90 | 36 | 126 | 0,538 | Sedang |
6 | 26 | 50 | 25 | 75 | 0,576 | Sedang |
7 | 26 | 5 | 0 | 5 | 0,038 | Sukar |
8 | 26 | 55 | 25 | 80 | 0,615 | Sedang |
9 | 26 | 90 | 0 | 90 | 0,231 | Sukar |
10 | 26 | 75 | 0 | 75 | 0,192 | Sukar |
Daya Pembeda
Daya pembeda dihitung dengan menggunakan rumus DP untuk tes uraian sebagai berikut :
Daya Pembeda
No Soal | n | SKA | SKa | SKA - SKa | Tingkat Kesukaran |
Indek | Keterangan |
1 | 26 | 27 | 12 | 0,09 | 0,09 | Jelek |
2 | 26 | 36 | 34 | 0,01 | 0,01 | Jelek |
3 | 26 | 20 | 27 | -0,11 | -0,11 | Sangat Jelek |
4 | 26 | 0 | 0 | 0 | 0 | Sangat Jelek |
5 | 26 | 90 | 36 | 0,46 | 0,46 | Baik |
6 | 26 | 50 | 25 | 0,38 | 0,38 | Cukup |
7 | 26 | 5 | 0 | 0,08 | 0,08 | Jelek |
8 | 26 | 55 | 25 | 0,46 | 0,46 | Baik |
9 | 26 | 90 | 0 | 0,46 | 0,46 | Baik |
10 | 26 | 75 | 0 | 0,38 | 0,38 | Cukup |
BAB III
KESIMPULAN
Sebuah tes dikatakan sebagai test yang baik jika memenuhi kriteria di bawah ini :
Kesahihan/ Validitas
Suatu instrumen evaluasi dikatakan valid jika instrumen yang digunakan dapat mengukur apa yang hendak diukur. Dalam penentuan tingkat validitas butir soal digunakan korelasi product moment Pearson. Rumus yang digunakan :
Keajegan Reliabilitas
Reliabilitas dapat diartikan dengan sama dengan konsistensi atau keajegan. Suatu instrumen evaluasi, dikatakan mempunyai nilai reliabilitas tinggi apabila test yang dibuat mempunyai hasil yang konsisten dalam mengukur yang hendak diukur.
Untuk mengukur tingkat keajegan soal ini digunakan perhitungan Alpha Crombach. Rumus yang digunakan dinyatakan dengan :
Daya Pembeda
Daya pembeda ditentukan dengan rumus :
Tingkat Kesukaran
Tingkat kesukaran (TK) pada masing-masing butir soal dihitung dengan menggunakan rumus :
DAFTAR PUSTAKA
Asep Jihad, Drs., M.Pd., Abdul Haris, Dr., M.Sc., 2009, Evaluasi Pembelajaran, Multi Pressindo, Yogyakarta
Sukardi, Prof., H.M., M.S., Ph.D, 2009, Evaluasi Pendidikan, Prinsip dan Operasionalnya, Bumi Aksara, Jakarta.