VALIDITAS DAN RELIABILITAS TES
By: Furing, Stefanus and Inany
Setelah
menentukan jenis pengukuran untuk mengevaluasi tujuan, memilih atau
mengembangkan instrument menjadi tugas berikutnya. Penting untuk memastikan
bahwa instrument tersebut memiliki dua kualitas yang diperlukan: Validitas dan
Reliabilitas
1. Validitas
Uji
validitas dibutuhkan setelah ada indikasi hubungan langsung antara tujuan
pembelajaran dan butir soal evaluasi. Tes dianggap valid ketika dapat mengukur
dengan spesifik apa yang telah dipelajari sebagaimana ditentukan oleh tujuan
pembelajaran untuk setiap unit atau topik. Menurut Arikunto (2002:59) sebuah
tes disebut valid apabila tes itu dapat tepat mengukur yang hendak diukur.
Salah
satu cara memastikan tinggi rendahnya tingkat uji validitas adalah merencanakan
sebuah tabel spesifikasi kedua.Tabel memiliki dua tujuan. Pertama, tabel
tersebut membantu memverifikasi hasil pada level belajar tingkat tinggi
(aplikasi, analisis, sintesis, dan evaluasi) mendapat perhatian memadai. Kedua,
tabel ini menunjukkan jumlah pertanyaan yang diperlukan untuk mengukur tujuan
pembelajaran individu atau kelompok. Nilai-nilai frekuensi ini mencerminkan
pentingnya setiap tujuan yang diberikan selama pembelajaran.
Tabel 1 menunjukkan sifat dan jumlah pertanyaan tes untuk tujuan pembelajaran dalam
unit berbasis pengetahuan. Tabel 2 menunjukkan jumlah butir soal tes
berkaitan dengan tujuan pembelajaran pada tugas yang melibatkan berbagai
tingkat kognitif dan kinerja psikomotorik. Dengan mendesain seperti tabel
tersebut dapat membuat yakin dalam menguji semua tujuan pembelajaran dan memberi
masing-masing banyaknya perhatian yang tepat.
Meskipun
validitas biasanya berhubungan dengan
tes pengetahuan, tetapi juga memiliki peran yang sama pentingnya untuk semua
jenis pengukuran evaluasi. Ide kuncinya adalah bahwa tes menilai apa yang
seharusnya untuk diukur. Dengan demikian, survey sikap perlu digunakan untuk
mengukur respon mata pelajaran (bukan mengutamakan popularitas guru atau
beberapa variabel insidental lainnya). Uji kinerja perlu untuk menilai proses
dan hasil yang berkaitan dengan keahlian khusus. Pengamatan pembelajaran perlu
untuk menggambarkan peristiwa secara akurat untuk menangkap apa yang terjadi
ketika proses pembelajaran.
Validitas
tidak selalu mudah untuk diukur atau dihitung. Berbagai jenis yang ada dan
dibahas dalam kebanyakan teks pengukuran
(misalnya: validitas “face”,
validitas isi, validitas prediksi, validitas “ada sekarang”, dan validitas
konstruksi). Arikunto (2002:67-69) menjelaskan macam-macam validitas yaitu:
a.
Validitas Isi (content
validity)
Sebuah
tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus yang
sejajar dengan materi atau isi pelajaran yang diberikan. Validitas isi dapat
diusahakan tercapainya sejak saat penyusunan dengan cara memerinci materi
kurikulum atau materi buku pelajaran.
b.
Validitas Konstruksi (construct validity)
Sebuah
tes dikatakan memiliki validitas konstruksi apabila butir soal yang membangun
tes tersebut mengukur setiap aspek berpikir yang disebutkan dalam tujuan
pembelajaran.
c.
Validitas “ada sekarang” (concurrent validity)
Validitas
ini lebih umum dikenal dengan validitas empiris. Sebuah tes dikatakan memiliki validitas
empiris jika hasilnya sesuai dengan pengalaman. Data pengalaman tersebut
sekarang sudah ada (ada sekarang, concurrent).
Hasil tes dibandingkan dnegan alat banding yaitu hasil tes sebelumnya.
d.
Validitas Prediksi (predictive
validity)
Sebuah
tes dikatakan memiliki validitas prediksi apabila mempunyai kemampuan
meramalkan apa yang akan terjadi di masa yang akan datang.
Kemp
(1994:165) menyatakan “Dua jenis yang paling penting bagi para perancang
pembelajaran adalah validitas “face”
dan validitas isi, keduanya melibatkan proses pengambilan keputusan.” Validitas
“face” didukung oleh penilai
(biasanya seorang ahli) yang pada kenyataannya untuk menilai pengukuran minat.
Validitas isi adalah serupa dengan validitas keadaan luar, tapi biasanya
melibatkan sebuah pemeriksaan yang lebih
spesifik terhadap individu atau memastikan bahwa setiap ranah isi sudah
sepantasnya ditujukan. Sebagai contoh ujian akhir yang mencapai 90% dari butir
soal hanya satu dari empat unit matapelajaran utama yang memiliki validitas isi
dipertanyakan. Tabel spesifikasi (lihat tabel 9-1 dan 9-2) terutama berguna
dalam membuat penilaian validitas isi.
Arikunto
(2002:185-186) menjelaskan bahwa tabel spesifikasi diperlukan untuk menjaga
agar tes yang disusun tidak menyimpang dari bahan (materi) serta aspek kejiwaan
(tingkah laku) yang akan dicakup dalam tes. Tabel spesifikasi dapat disebut
juga sebagai grid, kisi-kisi atau blue
print. Wujudnya adalah sebuah tabel yang memuat tentang perincian materi
dan tingkah laku beserta proporsi yang dikehendaki oleh penilai. Tiap kotak
diisi dengan bilangan yang menunjukkan jumlah soal.
Langkah-langkah membuat
tabel spesifikasi yaitu:
1. Menentukan pokok-pokok materi dan bobot
untuk masing-masing pokok materi yang akan dimasukkan dalam tes evaluasi. Penentuan
imbangan bobot dilakukan oleh penyusun soal berdasarkan atas luasnya materi
atau kepentingannya untuk dites. Penentuan imbangan dilakukan atas perkiraan
saja. Pada waktu menuliskan angka tidka perlu dihitung-hitung bahwa jumlahnya
harus 10 karena semuanya akan diubah menjadi angka dlaam bentuk presentase.
2. Pokok-pokok materi dapat dipindahkan ke
dalam tabel dan mengubah indeks (bobot pokok materi) menjadi presentase.
3. Memerinci banyaknya butir soal untuk
tiap-tiap pokok materi dan angka ini dituliskan pada kolom paling kanan. Caranya
membagi jumlah butir soal yang ditentukan dengan banyaknya pokok materi
berdasarkan imbangan bobot yang tertera sebagai presentase. Banyaknya butir
soal sangat ditentukan oleh: waktu yang tersedia dan bentuk soal.
Langkah selanjutnya merupakan langkah
khusus,antara lain
·
Untuk
materi yang seragam, maka banyaknya butir soal untuk setiap kotak (tingkat
ranah pada taksonomi Bloom yang diharapkan) diperoleh dengan cara menghitung
persentase dari banyaknya soal bagi tiap pokok materi yang sudah tertulis di
kolom paling kanan. Ada lagi cara lain yang diambil yaitu mulai dari pengisian
kotak-kotak kemudian baru diperoleh jumlah soal tiap pokok materi.
·
Untuk materi yang tidak seragam, tidak perlu mencantumkan
angka persentase di kepala kolom.
Apabila tabel spesifikasi
sudah jadi, maka guru sudah melakukan hal yang betul dan aman dalam rangkaian
tugas menyusun tes. Penyusunan tes yang disertai dengan melalui tabel
spesifikasi dapat dijamin bahwa tesnya cukup mempunyai validitas isi dan
validitas tingkah laku. Berikut ini contoh
pembuatan tabel spesifikasi:
Langkah 1
Pokok-pokok materi: (Bobot)
a. Pengertian (2)
b. Fungsi Evaluasi (3)
c. Macam-macam cara evaluasi (5)
d. Persyaratan evaluasi (4)
Langkah 2 dan 3
Aspek yang diungkap
|
Ingatan
|
Pemahaman
|
Aplikasi
|
Jumlah
|
Pokok Materi
|
||||
Pengertian evaluasi (14%)
|
7
|
|||
Fungsi evaluasi (21%)
|
10
|
|||
Macam-macam cara evaluasi (36%)
|
18
|
|||
Persyaratan evaluasi (29%)
|
15
|
|||
Jumlah
|
50 butir soal
|
Langkah Khusus untuk materi yang seragam
Aspek yang diungkap
|
Ingatan
(50%)
|
Pemahaman
(30%)
|
Aplikasi
(20%)
|
Jumlah
(100%)
|
Pokok Materi
|
||||
Pengertian evaluasi (14%)
|
(A)
|
(B)
|
(C)
|
7
|
Fungsi evaluasi (21%)
|
(D)
|
(E)
|
(F)
|
10
|
Macam-macam cara evaluasi (36%)
|
(G)
|
(H)
|
(I)
|
18
|
Persyaratan evaluasi (29%)
|
(J)
|
(K)
|
(L)
|
15
|
Jumlah
|
50 butir soal
|
Cara menentukan banyak butir soal tiap kotak dengan cara:
Kotak A = 50/100 x 7 soal = 3,5 soal (4 soal)
dan seterusnya.
Langkah Khusus untuk materi yang tidak seragam
Aspek yang diungkap
|
Ingatan
(I)
|
Pemahaman
(P)
|
Aplikasi
(A)
|
Jumlah
|
Pokok Materi
|
||||
BAB 1 (25%)
|
(A)
|
(B)
|
(C)
|
10
|
BAB 2 (40%)
|
(D)
|
(E)
|
(F)
|
16
|
BAB 3 (35%)
|
(G)
|
(H)
|
(I)
|
14
|
Jumlah
|
40 butir soal
|
Cara menentukan banyak butir soal tiap kotak dengan cara:
Untuk BAB 1, Ingatan 60%, pemahaman 30%, dan aplikasi (10%) maka:
Kotak A = 60/100 x 10 soal = 6 soal
dan seterusnya
Untuk BAB 2, Ingatan 20%, pemahaman 50%, dan aplikasi (30%) maka:
Kotak D = 20/100 x 16 soal = 3 soal
dan seterusnya
Di bawah ini contoh tabel
spesifikasi yang telah jadi (Kemp, 1994).Tabel spesifikasi ini telah mengalami
langkah-langkah yang telah dijelaskan di atas:
Tabel
1
Spesifikasi
berkaitan jumlah butir soal tes dengan tingkat tujuan pembelajaran pada level
kognitif.
Topik:
Pelayanan masyarakat untuk orang tua.
No
|
Tujuan
|
Pengetahuan
|
Pemahaman
|
Aplikasi
|
Analisis
|
Sintesis
|
Evaluasi
|
1.
|
Mengenali kesalahpahaman
dan mitos tentang orang tua.
|
3
|
|||||
2.
|
Membedakan antara fakta
dan opini tentang perilaku sosial dan fisik orang tua.
|
2
|
|||||
3.
|
Menggambarkan sikap orang
tua sebagai praktik dari berbagai kelompok etnis.
|
2
|
|||||
4.
|
Menempatkan informasi
keluarga dengan program-program komunitas untuk orang tua.
|
4
|
|||||
5.
|
Mengklasifikasikan
organisasi masyarakat sesuai jenis layanan yang ditawarkan untuk orang tua.
|
2
|
|||||
6.
|
Mengembangkan rencana untuk menilai program individu
masyarakat untuk orang tua.
|
3
|
|||||
7.
|
Menilai manfaat program komunitas untuk orang tua.
|
2
|
|||||
8.
|
Mengingat situasi nyata,
menganalisis kebutuhan warga negara senior&merekomendasikan satu/lebih
program komunitas.
|
4
|
Tabel
2
Spesifikasi
berkaitan dengan jumlah butir soal tes untuk tujuan belajar pada tingkat
kognitif dan kinerja psikomotorik.
Tugas:
Mengukur nilai-nilai listrik dalam susunan seri
No
|
Tujuan
|
Pengetahuan
|
Pemahaman
|
Aplikasi
|
Psikomotorik
|
1.
|
Daftar simbol-simbol yang
digunakan untuk komponen dalam susunan listrik
|
2
|
|||
2.
|
Mengenal komponen-
komponen dari susunan seri lengkap
|
3
|
|||
3.
|
Mengidentifikasi susunan
seri di diagram skematis
|
1
|
2
|
||
4.
|
Merakit sebuah susunan seri
pada komponen yang menggunakan papan
|
2
|
|||
5.
|
Mengatur dan menyesuaikan
sebuah multimeter untuk mengukur
masing-masing dari tiga nilai listrik
|
1
|
|||
6.
|
Mengukur
dan menghitung tegangan, arus dan perlawanan di susunan seri.
|
3
|
3
|
2. Reliabilitas
Reliabilitas
mengacu pada tes kemampuan untuk mendapatkan hasil yang konsisten kapanpun
digunakan. Jika siswa-siswa yang sama, tanpa perubahan dalam persiapan mereka,
mengambil tes yang sama atau bentuk tes yang sama, pasti ada sedikit variasi
dalam nilai. Arikunto (2002:59-60) menyatakan bahwa reliabilitas diambil dari
kata reliability dalam bahasa
Inggris, berasal dari kata asal reliable
yang artinya dapat dipercaya. Sebuah tes dikatakan reliabel apabila hasil-hasil
tes tersebut menunjukkan ketepatan yaitu jika para siswa diberikan tes yang sama
pada waktu yang berlainan, maka setiap siswa akan tetap berada dalam urutan
(ranking) yang sama dalam kelompoknya. Beberapa hal yang dapat mempengaruhi reliabilitas tes:
·
Lebih banyak pertanyaan yang digunakan menghubungkan
setiap tujuan pembelajaran, tes akan lebih reliabel. Jika hanya satu pertanyaan
yang bertanya tentang tujuan yang utama, hal itu dapat menyulitkan untuk
menetapkan apakah seorang siswa telah memperoleh pengetahuan atau menjawab
dengan benar. Arikunto (2002:87) menyatakan bahwa semakin panjang tes, maka
reliabilitasnya tinggi. Kualitas butir-butir soal ditentukan oleh:
a)
Jelas tidaknya rumusan soal.
b)
Baik tidaknya pengarahan soal kepada jawaban sehingga
tidak menimbulkan salah jawab.
c)
Petunjuknya jelas sehingga mudah dan cepat dikerjakan.
·
Tes harus diurus dalam cara yang standar. Jika
lebih dari satu orang mengikuti ujian langsung, pembelajaran yang serupa harus
diberikan kepada setiap kelompok individu yang mengambil tes selama periode
waktu. Menurut Arikunto (2012:89) suatu tes yang dicobakan kepada kelompok yang
terdiri dari banyak siswa akan mencerminkan keragaman hasil yang menggambarkan
besar-kecilnya reliabilitas tes.
·
Setiap orang harus diuji dalam kondisi yang sama
sehingga gangguan tidak memberikan pengaruh perbedaan nilai.
·
Ujian harus memiliki waktu yang sama untuk semua
siswa.
·
Mungkin faktor yang paling penting yang dapat mempengaruhi
uji reliabilitas adalah metode penskoran, terutama ketika menandai tes esai
atau menilai kinerja pada skala peringkat. Meskipun usaha menstandarkan
berbedanya skor tes individu, kriteria dapat dilihat dalam berbagai cara, dan
variasi tidak dapat dihindari. Mengurangi kesubjektifitasan menskor, maka hasil
tes akan menjadi lebih realibel.
·
Hal-hal yang berhubungan dengan penyelenggaraan
tes juga menentukan hasil tes (petunjuk yang diberikan sebelum tes dimulai,
pengawas yang tertib, suasana lingkungan dan tempat tes)
Ada beberapa
metode yang berbeda untuk menilai reliabilitas:
·
Metode test-retest
(Metode Tes Ulang)
Dalam
menggunakan metode ini, pengetes hanya memiliki satu seri tes tetapi dicobakan
dua kali. Untuk tes yang banyak mengungkap pengetahuan (ingatan) dan pemahaman,
cara ini kurang mengena karena siswa masih ingat dnegan butir-butir soalnya.
Oleh karena itu tenggang waktu antara pemberian tes pertama dengan tes kedua
harus diperhatikan.
·
Metode parallel
forms (Metode Bentuk Paralel)
Metode
ini dalam bahasa Indonesia disebut juga tes parallel atau tes ekuivalen yaitu
dua buah tes yang mempunyai kesamaan tujuan, tingkat kesukaran dan susunan
tetapi butir-butir soalnya berbeda. Pengetes harus menyiapkan dua buah tes dan
masing-masing dicobakan pada kelompok siswa yang sama.
·
Metode split-half
(Metode Belah Dua)
Dalam
menggunakan metode itu pengetes hanya menggunakan sebuah tes dan dicobakan satu
kali.Banyak pemakai metode ini salah membelah hasil tes pada waktu
menganalisis, yaitu mereka mengelompokkan hasil separuh subjek siswa dan
separuh yang lain kemudian hasil kedua kelompok ini dikorelasikan. Memakai
metode ini yang benar harus ingat bahwa banyaknya butir soal harus genap agar
dapat dibelah. Ada dua cara membelah butir soal ini, yaitu:
1)
Membelah atas butir-butir soal genap dan butir-butir
soal yang ganjil (Belahan ganjil-genap)
2)
Membelah atas butir-butir soal awal dan butir-butir
soal akhir, yaitu separuh jiwa pada nomer awal dan separuh pada nomer akhir
(Belahan awal-akhir)
·
Ketika dihitung dengan rumus popular menggunakan
formula seperti KR 20 dan koefisien alfa, internal
consistency reliabilitas sebanding dengan melakukan semua korelasi split-half yang unik. Internal consistency yang tinggi berarti
bahwa butir soal tes yang berbedam engukur kemampuan atau sifat yang sama.
3. Hubungan antara Validitas dan
Reliabilitas
Pertanyaan
terakhir untuk pertimbangan adalah hubungan antara validitas dan reliabilitas.
Apakah validitas memerlukan reliabilitas? Apakah reliabilitas memerlukan
validitas? Jawaban atas dua pertanyaan ini adalah ya dan tidak.
Agar
tes menjadi valid, tes harus reliabel. Berpikir tentang hal ini: Bagaimana bisa
tes mengukur apa yang sebenarnya, jika skor bervariasi dari ujian ke ujian
(tanpa ada perubahan apapun dalam kondisi ujian atau Negara siswa)? Di sisi
lain, bisa memiliki realibitas tanpa validitas. Misalnya, seorang guru mungkin
mencoba menilai kemampuan siswa untuk merancang pembelajaran dengan memberi
mereka 50 butir soal benar/salah yang menguji teori-teori pembelajaran. Nilai
mungkin tetap konsisten dari ujian satu ke ujian berikutnya, tetapi mereka
sulit mencerminkan keterampilan rancangan pembelajaran, hasil dari minat yang
utama. Scarvia B. Anderson (dalam Arikunto, 2002) menyatakan bahwa persyaratan
tes adalah validitas dan reliabilitas. Validitas lebih penting dan reliabilitas
itu perlu untuk mendukung terbentuknya validitas. Sebuah tes mungkin reliabel
tetapi tidak valid. Sebaliknya, sebuah tes yang valid biasanya reliabel.
DAFTAR RUJUKAN
Arikunto,
Suharsimi. 2002. Dasar-dasar Evaluasi
Pendidikan. Jakarta: Bumi Aksara
Kemp,J.E,
Morrison, G.R., and Ross, S.M. 1994. Designing
Effective Instruction. New York: Maxwell Macmilan International.
Video Tutorial Uji Validitas dan Reliabilitas STATA 16 Lengkap
BalasHapus(Dilengkapi File Materi Dan Software STATA 16)
Merupakan Panduan Yang Lengkap Dan Detail
Klik Link Dibawah Untuk Mendapatkannya
https://bit.ly/UjiSTATA