Nur Sholeh

Belum menuliskan informasi profilenya.

Selengkapnya
Navigasi Web

Contoh Laporan Evaluasi Menyusun Tes Yang Baik

Laporan Teknik Menyusun Tes Yang Baik

Latar Belakang

Tes adalah kegiatan atau proses sistematis mengukur kemampuan atau kondisi seseorang. Kegiatan tes (testing) selalu menggunakan alat yang juga disebut tes (test). Dalam tulisan ini pengertian tes lebih mengacu kepada "alat" bukan pada "kegiatan". Oleh sebab itu tes diartikan sebagai sejumlah pertanyaan yang oleh subyek dijawab benar atau salah, atau sejumlah tugas yang oleh subyek dilaksanaan dengan berhasil atau gagal, sehingga kemampuan subyek dapat dinyatakan dengan skor atau dinilai berdasarkan acuan tertentu.

Analisis tes adalah salah satu kegiatan yang perlu dilakukan dalam rangka meningkatkan mutu suatu tes, baik mutu keseluruhan tes maupun mutu tiap butir soal. Analisis kualitas tes merupakan suatu tahap yang harus ditempuh untuk mengetahui derajat kualitas suatu tes, baik tes secara keseluruhan maupun butir soal yang menjadi bagian dari tes tersebut. Analisis kualitas tes digunakan untuk menjawab pertanyaan apakah tes sebagai alat ukur benar-benar mampu mengukur apa yang sebenarnya hendak diukur dan apakah tes tersebut dapat diandalkan dan berguna bagi dunia pendidikan.

Analisis tes dilaksanakan untuk mengetahui baik-buruknya suatu tes yang meliputi dua hal yaitu: Pertama, analisis tes secara keseluruhan yang meliputi: analisis validitas tes dan analisis reliabilitas tes. Kedua, Analisis tiap butir soal yang meliputi: analisis daya pembeda tiap butir soal, analisis tingkat kesukaran tiap butir soal, analisis pengecoh (distraktor) pada setiap butir soal, dan analisis homogenitas tiap butir soal.

Dalam makalah ini membatasi pada pembahasan analisis tes secara keseluruhan. Tes yang baik adalah tes yang telah mengalami proses standardisasi, yaitu proses validasi dan keandalan (reliability) untuk suatu tujuan dan bagi suatu kelompok tertentu.[1] Tes standart biasanya disusun oleh satu tim ahli atau lembaga khusus menyelenggarakan pendidikan secara profesional.

PEMBAHASAN

A. Pengertian Analisis Tes ( Item Analysis )

Analisis tes adalah salah satu kegiatan dalam rangka mengkonstruksi tes untuk mendapatkan gambaran tentang mutu tes, baik mutu keseluruhan tes maupun mutu tiap butir soal/tugas. Analisis dilakukan setelah tes disusun dan dicobakan kepada sejumlah subyek dan hasilnya menjadi umpan balik untuk perbaikan/peningkatan mutu tes bersangkutan. Oleh karena itu kegiatan analisis tes merupakan keharusan dalam keseluruhan proses mengkonstruksi tes. Analisis soal dilakukan untuk mengetahui berfungsi atau tidaknya sebuah soal. Analisis pada umumnya dilakukan melalui dua cara, yaitu analisis kualitatif (qualitatif control) dan analisis kuantitatif (quantitatif control).[2]

Analisis soal (item analysis) berkaitan dengan proses mengumpulkan, meringkas, dan menggunakan informasi tentang tiap butir soal tes, terutama informasi tentang jawaban siswa terhadap butir soal tersebut. Dengan pengertian demikian, maka yang perlu diketahui mengenai kualitas soal dengan analisis itu adalah tingkat kesukarannya, daya pembedanya, pola jawaban soal, dan hubungan tiap butir soal dengan skor keseluruhan.

Untuk menilai obyektifitas dan tujuannya, tes dikelompokkan menjadi tes tersetandar ( standard direct tes ) dan tes buatan guru ( teacher made test ), analisis taraf kesukaran dan daya pembeda tes memiliki patokan tertentu, telah diuji validitas dan reliabilitasnya, meneliti secara jujur soal-soal yang sudah disusun.[3]Analisis soal (item analysis) adalah suatu prosedur yang sistematis, yang akan memberikan informasi-informasi yang sangat khusus terhadap butir tes yang kita susun. Checking validitas tes buatan guru adalah validitas kurikuler (content validity) dengan merumuskan tujuan setiap bagian pelajaran secara khusus dan jelas sehingga tingkat kesukaran item untuk tes sumatif berbeda dengan tingkat kesukaran pada tes diagnostik.[4]

Pengolahan test hasil belajar dalam rangka memperbaiki proses belajar-mengajar dapat dilakukan dengan berbagai cara, antara lain:

a. Dengan membuat analisis soal (item analysis)

b. Dengan mennghitung validitas dan keandalan tes (Reliabilitas).

c. Analisis interpretasi hasil tes

Teknik analisis dan interpretasi tes hasil belajar (Thorndike dan Hagen,1991) adalah analisis terhadap soal-soal ( items ) tes yang telah dijawab oleh para siswa mempunyai dua tujuan penting :[5]

1. Jawaban soal-soal itu merupakan informasi diagnostik untuk meneliti pelajaran dari kelas itu dan kegagalan-kegagalan belajarnya, serta selanjutnya untuk membimbing kearah cara belajar yang baik

2. Jawaban-jawaban terhadap soal-soal yang terpisah dan perbaikan (review) soal-soal yang didasarkan atas jawaban-jawaban itu merupakan basis bagi penyiapan tes-tes yang lebih baik untuk tahun berikutnya.

Jadi, tujuan khususnya dari items analysis ialah mencari soal tes mana yang baik dan mana yang tidak baik, dan mengapa items atau soal itu di katakan baik atau tidak baik. Analisis butir soal secara modern adalah penelaahan butir soal dengan menggunakan teori respon butir atau item response theory.[6]

B. Tujuan Analisis Tes dan Butir Soal

Analisis tes dan butir soal bertujuan untuk:

a. Mengetahui apakah tes atau soal yang digunakan untuk mengevaluasi sudah mampu mengukur apa yang sebenarnya ingin diukur melalui tes atau soal tersebut.

b. Mengetahui sejauh mana data atau informasi yang dihasilkan oleh tes maupun butir soal dapat diandalkan.

c. Mengetahui sejauh mana data yang dihasilkan oleh tes atau soal dapat berguna bagi proses pembelajaran.

Analisis butir soal atau analisis item adalah pengkajian pertanyaan-pertanyaan tes agar diperoleh perangkat pertanyaan yang memiliki kualitas yang memadai.[7] Ada tiga cara teknik analisis butir soal, yakni analisis tingkat kesukaran soal dan analisis daya pembeda, Analisis pengecoh ( efektifitas distractor ) disamping validitas dan reliabilitas.

1. Tingkat Kesukaran

Penganalisisan terhadap butir-butir item tes hasil belajar dapat dilakukan dari tiga segi, yaitu: (1) dari segi derajat kesukaran itemnya, (2) dari segi daya pembeda itemnya, (3) dari segi fungsi distraktornya. Dengan membuat analisis soal, sedikitnya kita dapat mengetahui tiga hal penting yang dapat di peroleh dari tiap soal, yaitu:

1. Sampai dimana tingkat atau taraf kesukaran soal itu (difficulty level of an item).

2. Apakah soal itu mempunyai daya pembeda (discriminating power) sehingga dapat membedakan kelompok siswa yang pandai dengan kelompok siswa yang bodoh.

3. Apakah semua alternatif jawaban (options) menarik jawaban-jawaban dan memiliki taraf kesukaran tinggi ataukah ada yang tidak menarik sehingga tidak perlu dimasukkan ke dalam soal.

Persoalan yanng penting dalam melakukan analisis tingkat kesukaran soal adalah penentuan proporsi dan kriteria soal yang termasuk mudah, sedang, dan sukar.[8] Tingkat kesukaran soal dipandang dari kesanggupan atau kemampuan siswa dalam menjawabnya. Soal yang baik adalah soal yang tidak terlalu mudah atau tidak terlalu sukar. Soal yang terlalu mudah tidak merangsang siswa untuk mempertinggi usaha memecahkannya.[9] Menganalisis tingkat kesukaran soal artinya mengkaji soal-soal mana yang termasuk mudah, sedang dan sukar. Sedangkan menganalisis daya pembeda artinya mengkaji soal-soal tes dari segi kesanggupan tes tersebut dalam membedakan siswa yang termasuk ke dalam kategori lemah atau rendah dan kategori kuat atau tinggi prestasinya. Sedangkan validitas dan reliabitas mengkaji kesulitan dan keajegan pertanyaan tes.[10]

Untuk menghitung taraf kesukaran soal dari suatu tes dipergunakan rumus sebagai berikut: [11]

TK = U + L

T

Keterangan:

U = jumlah siswa yang termasuk kelompok pandai (upper group) yang menjawab benar untuk tiap soal.

L = jumlah siswa yang termasuk kurang (lower group) yang menjawab benar untuk tiap soal.

T = jumlah siswa dari kelompok pandai dan kelompok kurang (jumlah upper group dan lower group)

Bilangan yang menunjukan sukar dan mudahnya sesuatu soal tersebut indeks kesukaran (difficulty index). Yang kita perlukan dalam analisis soal berdasarkan klasifikasi kelompok pandai ( uper group ) kelompok kurang ( lower group ) dan kelompok sedang ( middle group ). Taraf kesukaran soal ( Difficulty level ) adalah jumlah rata-rata murid yang termasuk kelompok pandai ( upper group ) yang menjawab benar untuk tiap soal ditambahkan jumlah murid yang termasuk kelompok kurang ( lower group ) yang mampu menjawab benar untuk tiap soal di bagi dengan jumlah murid dari kelompok pandai atau kurang dalam satu kelas. [12]

Contoh:

Jumlah siswa peserta tes dalam suatu kelas ada 40 siswa. Hasil tes kita susun dalam analisis tingkat kesukarannya dengan klasifikasi 25 % kelompok pandai, 25 % kelompok sedang, dan 25 % kelompok kurang. Tiap soal kita tabulasikan. Misalkan pada soal no. 1 kita peroleh yang menjawab benar dari kelompok pandai = 12 siswa, dan yang menjawab benar dari kelompok kurang = 6. Maka berapa indeks kesukarannya?

Jawab:

TK = U + L

T

= 12 + 6

40

= 0,30 atau 30 %

2. Daya Pembeda

Analisis daya pembeda mengkaji butir-butir soal dengan tujuan untuk mengetahui kesanggupan soal dalam membedakan siswa yang tergolong mampu (tinggi prestasinya) dengan siswa yang tergolong kurang atau lemah prestasinya. Artinya,kriteria derajat kesukaran tes ( degrees of deficulty ) adalah derajat kesukaran yang bergerak antara 25 % sampai 75%. Item yang mempunyai dengan tingkat kesukaran dibawah 25% berarti item soal itu mudah. Adapun kriteria daya beda tes ( discriminating Power ) yaitu daya beda kisaran 0,40 keatas.[13]

Daya pembeda suatu soal tes dapat dihitung dengan menggunakan rumus sebagai berikut:

DP = U – L

½ T

Keterangan:

DP = indeks DP atau daya pembeda yang dicari.

U = jumlah siswa yang termasuk dalam kelompok pandai yang mampu menjawab benar untuk tiap soa.

L = jumlah siswa yang termasuk kurang yang menjawab benar untuk tiap soal.

T = jumlah siswa keseluruhan.

Contoh:

Dari hasil tes bahasa arab kelas VIII MTs X, jumlah siswa yang dites adalah 40 siswa, sedangkan tes tersebut terdiri dari 20 soal. Setelah hasil tes tersebut diperiksa, kemudian disusun kedalam peringkat untuk menentukan 25% siswa yang termasuk kelompok pandai (upper group) dan 25% siswa yang termasuk kelompok kurang (lower group). Misalkan dari tabulasi soal no. 1 kita peroleh hasil sebagai berikut: yang menjawab benar dari kelompok pandai ada 10 siswa, dan yang menjawab benar dari kelompok kurang ada 9 siswa. Maka daya pembedanya adalah:

DP = U – L

½ T

= 10 – 9

½ x (20)

= 1/10

= 0,10

Jadi dapat disimpulkan bahwa indeks pembedanya adalah 0,10. [14]

3. Analisis pengecoh (Efektifitas Distraktor )

Instrumen evaluasi yang berbentuk tes dan objektif, selain harus memenuhi syarat-syarat yang telah disebutkan terdahulu, harus mempunyai distraktor yang efektif. Yang disebut dengan distraktor atau pengecoh adalah opsi-opsi yang bukan merupakan kunci jawaban (jawaban benar).[15] Butir soal yang baik pengecohnya akan dipilih secara merata oleh peserta didik yang menjawab salah. Sebaliknya, butir soal yang kurang baik, pengecohnya akan dipilih secara tidak merata. Pengecoh dianggap baik bila jumlah peserta didik yang memilih pengecoh itu sama atau mendekati jumlah ideal.[16]

Indeks pengecoh dihitung dengan rumus:

IP = P x 100%

(N - B) (n - 1)

Keterangan:

IP = indeks pengecoh

P = jumlah peserta didik yang memilih pengecoh

N = jumlah peserta didik yang ikut tes

B = jumlah peserta didik yang menjawab benar pada setiap soal

n = jumlah alternatif jawaban

1.= bilangan tetap

Catatan:

Jika semua peserta didik menjawab benar pada butir soal tertentu (sesuai kunci jawaban), maka IP = 0 yang berarti soal tersebut jelek. Dengan demikian pengecoh tidak berfungsi.

Contoh:

50 orang peserta didik dites dengan 10 soal bentuk pilihan ganda. Tiap soal memiliki alternatif jawaban (a, b, c, d, e). Kunci jawaban (jawaban yang benar) no. 8 adalah c. Setelah soal no.8 diperiksa untuk semua peserta didik, ternyata dari 50 orang peserta didik, 20 peserta didik menjawab benar dan 30 peserta didik menjawab salah. Idealnya, pengecoh dipilih secara merata. Berikut ini adalah contoh analisis pengecoh soal no.8.

Alternatif jawaban

A

B

C

D

E

Distribusi jawaban peserta didik

7

8

20

7

8

IP

93%

107%

**

93%

107%

Kualitas pengecoh

++

++

++

++

++

Keterangan:

** = kunci jawaban

++ = sangat baik

+ = baik

· = kurang baik

_ = jelek

_ _ = sangat jelek

Pada contoh diatas, IP butir a, b, c, d, dan e adalah 93%, 107%, 93%, dan 107%. Semuanya dekat dengan angka 100%, sehingga digolongkan sangat baik sebab semua pengecoh itu berfungsi.

B. VALIDITAS

1. Pengertian Validitas

Validitas berasal dari kata validity yang mempunyai arti sejauh mana ketepatan dan kecermatan suatu instrument pengukuran (tes) dalam melakukan fungsi ukurnya. Suatu tes dapat dikatakan mempunyai validitas yang tinggi apabila tes tersebut menjalankan fungsi ukurnya.[17]

Scarvia B. Anderson, dkk, dalam bukunya Encyclopedia Of Educational Evaluation yang dikutip oleh Suharsimi Arikunto, menyatakan, “A test is valid if it measures what it purpose to measure.” Atau jika diartikan lebih kurang demikian: sebuah tes dikatakan valid apabila tes tersebut mengukur apa yang hendak diukur.[18]

2. Bentuk-bentuk Validitas

Secara metodologis, di dalam literatur modern tentang evaluasi banyak dikemukakan tentang jenis-jenis validitas, antar lain: validitas permukaan (face validity), validitas isi (content validity), validitas empiris (empirical validity), validitas konstruk (construct validity), dan validitas faktor (factorial validity).[19]

a. Validitas Permukaan (face validity)

Validitas ini menggunakan kriteria yang sederhana karena hanya melihat dari sisi penampakan instrumen.[20] Dengan kata lain, validitas permukaan mencakup bentuk dari tes, bagaimana bentuk soalnya, apakah dapat dipahami oleh siswa, penggunaan bahasa operasional, komunikatif, bagaimana cara siswa dalam menjawab soal. Jangan sampai siswa tidak mampu menjawab soal karena tidak mengetahui cara menjawab soal padahal siswa mengetahui jawaban soal tersebut.

Tes yang tidak mengikuti kaidah penulisan butir soal akan tampak semrawut sehingga membingungkan siswa. Validitas permukaan masih tergolong analisis yang lemah, oleh karena itu perlu dilanjutkan dengan analisis selanjutnya.

b. Validitas isi (Content validity)

Sebuah tes dikatakan memiliki validitas isi apabila mengukur tujuan khusus tertentu yang sejajar dengan materi atau isi pelajaran yang diberikan.[21] Validitas isi menunjukkan sejauh mana item-item dalam tes mencakup keseluruhan kawasan isi yang hendak diukur oleh tes tersebut. Pengertian mencakup keseluruhan kawasan isi tidak saja berarti tes itu harus komprehensif akan tetapi isinya harus pula tetap relevan dan tidak keluar dari batasan tujuan pengukuran.[22]

c. Validitas Empiris (empirical validity)

Dinamakan demikian karena validitas tersebut ditentukan dengan menghubungkan performansi sebuah tes terhadap kriteria penampilan tes lainnya dengan menggunakan formulasi statistik.[23] Validitas ini biasanya menggunakan teknik statistik karena validitas empiris mencari hubungan antara skor tes dengan suatu kriteria tertentu yang merupakan suatu tolak ukur di luar tes yang bersangkutan dan kriteria harus relevan dengan apa yang akan diukur.[24]

Ada tiga macam validitas empiris, yaitu:

1) Validitas konkuren (Concurrent validity)

Validitas ini diketahui dengan cara empirik, yakni menghitung koefisien korelasi antara tes bersangkutan dengan tes lain sebagai kriterianya. Yang dapat digunakan sebagai kriteria adalah tes yang sudah dianggap valid atau nilai mata pelajaran yang dipandang cukup obyektif. Sebagai contoh, skor tes Bahasa Indonesia dikorelasikan dengan skor tes Bahasa Inggris.

2) Validitas sejenis (congruent validity)

Validitas konkruen adalah derajat dimana skor dalam suatu tes dihubungkan dengan skor lain yang telah dibuat. Tes dengan validitas konkruen biasanya diadministrasi dalam waktu yang sama atau dengan criteria valid yang sudah ada. Sering kali juga terjadi bahwa tes dibuat atau dikembangkan untuk pekerjaan yang sama seperti beberapa tes lainnya, tetapi dengan cara yang lebih mudah dan lebih cepat. Validitas konkruen ditentukan dengan membangun analisis hubungan dan perbedaan (Sukardi, 2008).

3) Validitas prediksi (Predictive validity)

Predictive validity menunjukkan hubungan antara tes skor yang diperoleh peserta tes dengan keadaan yang akan terjadi diwaktu yang akan datang. Sebuah tes dikatakan memiliki validitas prediksi apabila mempunyai kemampuan untuk memprediksikan apa yang akan terjadi di masa yang akan datang.[25]

Tepat-tidaknya ramalan tersebut dapat dilihat dari korelasi koefisien antara hasil tes itu dengan hasil alat ukur lain pada masa mendatang.[26]

Validitas ini menunjukkan sejauh mana skor tes bersangkutan dapat digunakan meramal keberhasilan siswa di masa mendatang dalam bidang tertentu. Misalnya antara nilai UAN (Ujian Akhir Nasional) di SMP, dengan prestasi belajar di SMA dalam mata pelajaran yang sama.

d. Validitas konstruk (Construct validity)

Validitas konstruk mengandung arti bahwa suatu alat ukur dikatakan valid apabila telah cocok dengan konstruksi teoritik dimana tes itu dibuat. Validitas konstruk berkenaan dengan pertanyaan hingga mana suatu tes betul-betul dapat mengobservasi dan mengukur fungsi psikologis yang merupakan deskripsi perilaku siswa yang akan diukur oleh tes tersebut.[27]

Validitas konstruk digunakan untuk mengetahui sejauh mana tes dapat mengobservasi dan mengukur fungsi psikologis.[28] Validitas konstruk digunakan untuk mengukur gejala perilaku yang abstrak seperti sikap, motivasi, emosi, minat, bakat, dan sebagainya. Analisis yang digunakan dalam validitas konstruk antara lain dengan analisis faktor sehingga dapat diketahui aspek apa saja yang diukur oleh setiap butir soal, berapa besar suatu butir soal berisi faktor-faktor tertentu, dan faktor-faktor apa saja yang diukur oleh suatu butir soal.

e. Validitas faktor (factorial validity)

Dalam evaluasi atau penilaian sering digunakan skala pengukuran tentang suatu variabel yang terdiri atas beberapa faktor. Faktor-faktor tersebut diperoleh dari indikator atau dimensi dari variabel yang diukur sesuai dengan apa yang terungkap dalam konstruksi teoritisnya. Dengan demikian, kriterium yang digunakan dalam validitas faktor ini dapat diketahui dengan menghitung homoginitas skor setiap faktor dengan total skor, dan antara skor dari faktor yang satu dengan skor dari faktor yang lain.

3. Faktor-faktor yang Mempengaruhi Validitas

Banyak faktor yang dapat mempengaruhi hasil tes evaluasi tidak valid. Beberapa faktor tersebut secara garis besar dapat dibedakan menurut sumbernya, yaitu:[29]

a. Faktor yang berasal dari dalam tes.

Beberapa sumber yang pada umumnya berasal dari faktor internal tes evaluasi di antaranya sebagai berikut:

1) Arahan tes yang disusun dengan makna tidak jelas sehingga dapat mengurangi validitas tes,

2) Kata-kata yang digunakan dalam struktur instrument evaluasi terlalu sulit,

3) Item-item tes dikonstruksi dengan jelek,

4) Tingkat kesulitan item tes tidak tepat dengan materi pembelajaran yang diterima siswa,

5) Waktu yang dialokasikan tidak tepat, hal ini termasuk kemungkinan terlalu kurang atau terlalu longgar,

6) Jumlah item tes terlalu sedikit sehingga tidak mewakili sample materi pembelajaran,

7) Jawaban masing-masing item evaluasi bisa diprediksi siswa.

b. Faktor yang berasal dari administrasi dan skor.

1) Waktu pengerjaan tidak cukup sehingga siswa dalam memberikan jawaban dalam situasi yang tergesa-gesa,

2) Adanya kecurangan dalam tes sehingga tidak bisa membedakan antara siswa yang belajar dengan yang melakukan kecurangan,

3) Pemberian petunjuk dari pengawas yang tidak dapat dilakukan pada semua siswa,

4) Teknik pemberian skor yang tidak konsisten, misalnya pada tes esai, juga dapat mengurangi validitas tes evaluasi,

5) Siswa tidak dapat mengikuti arahan yang diberikan dalam tes esai, juga dapat mengurangi validitas tes evaluasi,

6) Siswa tidak dapat mengikuti arahan yang diberikan dalam tes baku.

c. Faktor yang berasal dari jawaban siswa.

Seringkali terjadi bahwa interpretasi terhadap item-item tes evaluasi tidak valid, karena dipengaruhi oleh jawaban siswa daripada interpretasi item-item pada tes evaluasi.

4. Cara Mengukur Validitas Tes

Cara menghitungnya dengan menggunakan rumus korelasi Pearson's Product Moment.[30] Yaitu korelasi dengan simpangan dan korelasi dengan angka kasar.

Contoh perhitungan korelasi:

1.) Korelasi Product Moment dengan Angka Simpangan

Adapun rumus korelasi Product-Moment sebagai berikut:

r =

keterangan:

r = koefisien korelasi

N = jumlah sampel

∑ = jumlah

X = produk pertama

Y = produk kedua

X2 = pengkuadratan produk pertama (X)

Y2 = pengkuadratan produk kedua (Y)

Dalam statistika, koefisien korelasi dinotasikan dengan “r”. Besarnya nilai hasil koefisien korelasi tidak akan lebih kecil atau sama dengan -1.00 atau tidak akan lebih besar atau sama dengan +1.00. hal ini dinyatakan dengan: -1.00 < r > +1.00.[31]

r = +1.00, artinya korelasi sempurna positif

r = -1.00, artinya korelasi sempurna negatif

untuk menafsirkan koefisien korelasi dapat menggunakan kriteria sebagai berikut:

0,800 – 1,00 : sangat tinggi

0,600 – 0,79 : tinggi

0,400 – 0,59 : cukup

0,200 – 0,39 : rendah

0,000 – 0,19 : sangat rendah

Suatu tes yang baik biasanya memiliki angka validitas 0,50 atau lebih; tentu saja angka itu makin tinggi makin baik. Suatu tes dengan angka validitas kurang dari 0,50 belum tentu buruk. Mungkin kriterianya yang buruk atau keliru menentukan kriteria.

2.) Korelasi Perbedaan Peringkat (Rank Differences Correlation)

keterangan:

r = koefisien korelasi

1 dan 6 = bilangan tetap

D = perbedaan antara dua peringkat atau rank

n = jumlah sampel

Langkah-langkah:

o Cari peringkat dari tiap-tiapmata pelajaran dengan mengurutkan nilai-nilai dari yang terbesar sampai yang terkecil.

o Jika terdapat nilai yang sama, maka jumlahkan nilai peringkat pertama dengan kedua lalu bagi dua, maka kedua orang tersebut memiliki peringkat yang sama.

o Cari perbedaan peringkat dengan mengurangkan peringkat mata pelajaran X dengan Y

o Perbedaan peringkat kemudian dikuadratkan.

3) menghitung validitas item. Salah satu cara yang terkenal adalah menggunakan rumus gpbi yang rumus lengkapnya adalah sebagai berikut:

Mp – Mt

gpbi = ______

St Ö p/q

Ket:

gpbi = Koefisien korelasi biserial

Mp = Rerata skor dari subjek yang menjawab betul bagi item yang dicari validitasnya

Mt = Rerata skor total

St = Standar deviasi dari skor total

p = Proporsi siswa yang menjawab benar

q = Proporsi siswa yang menjawab salah

( q = 1 – p )

Persiapan Perhitungan Validitas (Korelasi Point Biserial):

Contoh pada illustrasi tabel berikut

· ΣXt = 97 ΣXt2 = 703

· Nilai p = jumlah yang menjawab benar pada butir tertentu dibagi jumlah siswa (pada butir 1, misalnya, yang menjawab benar 7 orang, berarti p = 7/ 15 = 0,47)

· q = 1 – p ( pada butir 1; q = 1 – 0,47 = 0,53)

· Demikian seterusnya >>> sehingga didapatkan nilai p dan q seperti pada tabel di atas.

Menghitung rata-rata skor total:

ΣXt 97

Mt = ----------- = ------- = 6,46

N 15

Menghitung Mp setiap butir soal (rata-rata hitung dari skor total yang dijawab dengan betul):

Contoh untuk butir 10:

Jumlah yang menjawab benar juga 7 orang (siswa No. 1, 2, 5, 6, 11, 12, dan 15). Skor total setiap siswa adalah: 4 + 7 + 8 + 4 + 8 + 9 + 12 = 52

• Jadi Mp = 52/7 = 7,43.

Ternyata meskipun yang menjawab benar pada butir tertentu sama jumahnya, tetapi Mp tidak sama, karena besarnya Mp ditentukan pula oleh skor total siswa yang menjawab benar pada butir tersebut.

Apabila item 6 tersebut dicari validitasnya dengan rumus ini maka perhitungannya melalui langkah sebagai berikut:

1. Mencari

8 + 3 + 5 + 6 + 7 + 8 = 37

Mp = 37/6 = 6,17

2. Mencari

8 + 5 + 3 + 5 + 6 + 4 + 7 + 8 = 46

Mt = 46/8 = 5,75

3. Dari kalkulator diperoleh harga standar deviasi, yaitu sn = 1,7139 atau sn-1 = 1,8323. Untuk n kecil, diambil standar deviasi yang sn = 1, 7139

4. Menentukan harga p, yaitu = 0,17, Menentukan harga q, yaitu = 0,25 atau 1 – 0,75 = 0,25

5. Memasukkan ke rumus:

Mp – Mt

gpbi = __________

Ö p/q St

6,17 – 5,75

= Ö 0.75/0,25 X 1,7139

0,42

= ______ 1,7321

1,7139

= 0,4244

3.) Teknik Diagram Pencar (Scatter Diagram)

Dalam statistika koefisien korelasi dinotasikan dengan “r” dimana -1,00 ≤ r ≥ 1,00, r = +1,00 artinya korelasi sempurna positif dan r = -1,00 artinya korelasi sempurna negative. Untuk menafsirkan koefisien korelasi dapat menggunakan criteria berikut:

0,81 – 1,00 = sangat tinggi

0,61 – 0,80 = tinggi

0,41 – 0,60 = cukup

0,21 – 0,40 = rendah

0,00 – 0,20 = sangat rendah

C. Reliabilitas

1. Pengertian Reliabilitas

Kata reliabilitas dalam bahasa Indonesia diambil dari kata reliability dalam bahasa Inggris, berasal dari kata reliable yang artinya dapat dipercaya.[32] Reliabilitas juga dapat diartikan sama dengan konsistensi atau keajegan,[33] ketetapan atau ketelitian.[34] Selain itu reliabilitas juga diartikan dengan keajegan dan stabilitas. Diartikan keajegan bilamana tes tersebut diujikan berkali-kali hasilnya relative sama, artinya setelah hasil tes pertama dengan tes berikutnya dikorelasikan terdapat hasil korelasi yang signifikan.

Nunally (1970), Allen dan Yen (1979) dan Anastasi (1986) menyatakan bahwa reliabilitas adalah kestabilan skor yang diperoleh orang yang sama ketika diuji ulang dengan tes yang sama pada situasi yang berbeda atau dari satu pengukuran ke pengukuran lainnya.[35]

Secara empirik, tinggi-rendahnya reliabilitas ditunjukkan oleh suatu angka yang disebut koefisien reliabilitas. Koefisien korelasi antara dua variabel dilambangkan oleh huruf “r”. apabila skor pada tes pertama diberi lambang X dan skor pada tes yang ke dua yang pararel diberi lambang X’, maka koefisien korelasi anatara kedua tes adalah rxx’. Simbol inilah yang digunakan sebagai symbol koefisien reliabilitas.

Besarnya koefisien reliabilitas berkisar antara 0,0 sampai dengan 1,0. Meskipun koefisien korelasi juga dapat bertanda negatif (-), namun koefisien reliabilitas selalu mengacu pada angka positif (+) dikarenakan angka yang negatif tidak ada artinya bagi interpretasi reliabilitas hasil ukur.[36]

2. Macam-macam Reliabilitas

Terdapat tiga macam reliabilitas tes yaitu koefisien stabilitas, koefisien ekuivalen, dan koefisien konsistensi internal.[37] Pada prinsipnya diperoleh dengan menghitung koefisien korelasi antara dua kelompok skor tes.

Tiga macam reliabilitas sebagai berikut:

a. Koefisien Stabilitas

Kefisien stabilitas adalah jenis reliabilitas yang menggunakan teknik test-retest method (metode tes ulang) yaitu suatu tes yang akan dihitung reliabilitasnya, diteskan terhadap kelompok siswa tertentu dua kali dengan jangka waktu tertentu, misalnya satu semester atau satu catur wulan. Skor hasil pengetesan pertama dikorelasikan dengan skor hasil pengetesan kedua. Koefisien korelasi yang diperoleh menunjukkan koefisien reliabilitas tes tersebut.

b. Koefisien Ekuivalen

Koefisien ekuivalen menggunakan metode paralel test method (metode tes paralel) yaitu metode yang mengharuskan adanya dua tes yang paralel, yakni dua tes yang disusun dengan kriteria dan tujuan yang sama hanya sedikit berbedaan redaksi, isi atau susunan kalimatnya. Dua tes tersebut diadministrasikan pada satu kelompok siswa dengan perbedaan waktu beberapa hari saja. Skor dari kedua macam tes tersebut dikorelasikan dengan teknik yang sama seperti pada metode test-retest. Koefisien korelasi yang diperoleh menunjukkan tingkat reliabilitas tes.

c. Koefisien Konsistensi Internal

Koefisien konsistensi internal menggunakan teknik split-half method (metode belah dua). Tehnik ini paling mudah dan seyogyanya diterapkan oleh para guru pada semua tes yang diberikan kepada siswanya. Tidak perlu mengulangi pelaksanaan tes atau menyusun tes yang paralel. Cukup satu tes dan diadministrasikan satu kali kepada sekelompok siswa (minimal 30 siswa).

Pada saat penyekoran, tes dibelah menjadi dua sehingga tiap siswa memperoleh dua macam skor, yakni skor yang diperoleh dari soal-soal bernomor ganjil dan skor dari soal-soal bernomor genap. Skor total diperoleh dengan menjumlah skor ganjil dan genap. Selanjutnya skor-ganjil dikorelasikan dengan skor-genap, hasilnya adalah koefisien korelasi “rgg”, atau koefisien korelasi ganjil-genap. Selain itu juga dapat dibelah menjadi dua bagian yaitu bagian awal dan bagian akhir, misalnya 30 soal maka nilai pertama soal 1-15 dan nilai kedua soal 16-30. Karena tes dibelah jadi dua, maka koefisien korelasi ganjil-genap tersebut dikoreksi sehingga menjadi koefisien reliabilitas. Rumusnya menggunakan dari Spearman Brown sebagai berikut:

rtt =

keterangan:

rtt = koefisien reliabilitas

rgg = koefisien korelasi produk moment ganjil genap

Untuk menghitung koefisien stabilitas, koefisien ekuivalen, dan koefisien konsistensi internal dapat menggunakan analisis korelasi seperti pada pengujian validitas yaitu korelasi Product-Moment. Khusus pada koefisien konsistensi internal dihitung berlanjut dengan menggunakan rumus koefisien reliabilitas oleh Spearman Brown.

3. Faktor-Faktor Yang Mempengaruhi Reliabilitas

Koefisien reliabilitas dapat dipengaruhi di antaranya oleh waktu penyelenggaraan tes-retes. Interval penyelenggaraan yang terlalu dekat atau terlalu jauh akan mempengaruhi koefisien reliabilitas. Faktor-faktor lain yang juga mempengaruhi reliabilitas instrument evaluasi di antaranya sebagai berikut:[38]

a. Panjang tes, semakin panjang suatu tes evaluasi, semakin banyak jumlah item materi pembelajaran diukur.

b. Penyebaran skor, koefisien reliabilitas secara langsung dipengruhi oleh bentuk sebaran skor dalam kelompok siswa yang diukur.

c. Kesulitan tes, tes normatif yang terlalu mudah atau terlalu sulit untuk siswa cenderung menghasilkan skor reliabilitas rendah.

d. Obyektivitas, yang dimaksud dengan obyektif yaitu derajat dimana siswa dengan kompetensi sama mencapai hasil sama.

Sedangkan menurut Ngalim Purwanto, faktor-faktor yang dapat mempengaruhi keandalan suatu tes adalah:[39]

a. Luas-tidaknya sampling yang di ambil. Makin luas suatu sampling, berarti tes semakin andal.

b. Perbedaan bakat dan kemampuan murid yang di tes. Makin variabel kemampuan peseta tes, berarti makin tinggi keadaan koefisien tes.

c. Suasana dan kondisi testing. Suasana ketika berlangsung testing, seperti tenang, gaduh, banyak gangguan, pengetes yang marah-marah dapat mengganggu mengerjakan tes sehingga dengan demikian mempengaruhi pula hasil dan keandalan tes.

D. Kepraktisan

Kepraktisan mngandung arti kemudahan suatu tes baik dalam mempersiapkan, menggunakan, mengolah, dan menafsirkan, maupun meng administrasikannya.[40]Dimyati dan Mudjiono yang dikutip Zaenal Arifin mengemukakan faktor-faktor yang mempengaruhi kepraktisan instument evaluasi meliputi: kemudahan mengadministrasi, waktu yang disediakan untuk melancarkan evaluasi, kemudahan menskor, kemudahan interpretasi dan aplikasi, tersedianya bentuk instrumen evaluasi yang ekuivalen dan sebanding.[41] Berikut penjelasaannya:

1. Kemudahan mengadministrasi

Kemudahan mengadministrasi instrumen evaluasi dapat dilakukan dengan cara memberi petunjuk yang sederhana dan jelas, subtes sebaiknya relatif sedikit, dan pengaturan tempo tes tidak menimbulkan kesulitan.

2. Waktu yang disediakan untuk melancarkan evaluasi

Waktu yang pas dan baik yang tersedia untuk melancarkan evaluasi akan memberikan kepraktisan tes. Waktu antara 20 menit sampai 60 menit merupakan waktu yang cukup memberikan kepraktisan.

3. Kemudahan menskor

Kemudahan menskor dapat dlakukan dengan cara memperbaiki petunjuk penskoran, penyediaan kunci penskoran, pemisahan lembar jawab dengan lembar soal, dan penskoran menggunakan mesin.

4. Kemudahan interpretasi dan aplikasi

Keberhasilan atau kegagalan evaluasi ditentukan oleh penggunaan hasil evaluasi. Jika hasil evaluasi ditafsirkan secara tepat dan diterapkan secara efektif maka hasil evaluasi akan mendukung terhadap keputusan-keputusan pembelajaran yang lebih tepat. Jadi untuk memudahkan menginterpretasi dan mengaplikasi hasil evaluasi maka dibutuhkan petunjuk yang jelas.

5. Tersedianya bentuk instrumen evaluasi yang ekuivalen dan sebanding

Bentuk-bentuk ekuivalen dari sebuah tes mengukur aspek-aspek perilaku melalui butir-butir tes yang memiliki kesamaan dalam isi, tingkat kesulitan, dan karakteristik lainnya. Sehingga satu bentuk tes dapat menggantikan yang lain.

Kesimpulan

Analisis tes adalah salah satu kegiatan dalam rangka mengkonstruksi tes untuk mendapatkan gambaran tentang mutu tes, baik mutu keseluruhan tes maupun mutu tiap butir soal/tugas.

Penganalisisan terhadap butir-butir item tes hasil belajar dapat dilakukan dari tiga segi, yaitu: (1) dari segi derajat kesukaran itemnya, (2) dari segi daya pembeda itemnya, (3) dari segi fungsi distraktornya.

Suatu tes dapat dikatakan mempunyai validitas yang tinggi apabila tes tersebut menjalankan fungsi ukurnya. jenis-jenis validitas, antar lain: validitas permukaan (face validity), validitas isi (content validity), validitas empiris (empirical validity), validitas konstruk (construct validity), dan validitas faktor (factorial validity)

Reliabilitas tes adalah tingkat keajegan (konsistensi) suatu tes, yakni sejauh mana suatu tes dapat dipercaya untuk menghasilkan skor yang ajeg/konsisten (tidak berubah-ubah).

DAFTAR PUSTAKA

Arifin, Zaenal. 2012. Evaluasi Pembelajaran: Prinsip Teknik dan Prosedur. Bandung: PT Remaja Rosdakarya.

Arikunto, Suharsimi. 2011. Dasar-dasar Evaluasi Pendidikan (Edisi Revisi). Jakarta: Bumi Aksara

Azwar, Syaifuddin. 2012. Reliabilitas dan Validitas. Yogyakarta: Pustaka Pelajar Offset.

Azwar, Syaifuddin. 2007. Tes Prestasi: Fungsi dan Pengembangan Pengukuran Prestasi Belajar (Edisi II). Yogyakarta: Pustaka Pelajar Offset.

Chabib Thoha.1996, Teknik Evaluasi Pendidikan, Jakarta: PT Raja Grafindo Persada

Daryanto.2008, Evaluasi Pendidikan, Jakarta: PT Rineka Cipta

Mulyadi,.2014, Evaluasi Pendidikan Pengembanan Model Evaluasi Pendidikan Agama Di Sekolah, Malang:Uin Maliki Press

Purwanto, Ngalim. 2009. Prinsip-Prinsip dan Teknik Evaluasi Pengajaran. Bandung: PT Remaja Rosdakarya.

Sudjana, Nana. 2009. Penilaian Hasil Proses Belajar Mengajar. Bandung: PT Remaja Rosda karya

Sukardi. 2010. Evaluasi Pendidikan : Prinsip dan Operasionalnya. Jakarta: Bumi Aksara.

Surapranata, Sumarna. 2005. Analisis, Validitas, Reliabilitas dan Interpretasi Hasil Tes: Implementasi Kurikulum 2004. Bandung: PT Remaja Rosdakarya.

Shodiq A bdullah.2012, Evaluasi Pembelajaran, Semarang : Pustaka Rizki Putra.

[1] Ngalim Purwanto, Prinsip-Prinsip dan Teknik Evaluasi Pengajaran, (Bandung: PT Remaja Rosdakarya, 2009), hlm. 33.

[2] Sumarna Surapranata, Analisis, Validitas, Reliabilitas, dan Interpretasi Hasil Tes, (Bandung: PT Remaja Rosdakarya, 2004), hlm. 1

[3] Arikunto, Suharsimi. 2012. Dasar-dasar Evaluasi Pendidikan. Jakarta: Bumi Aksara. hal 220

[4] Chabib Thoha, Teknik Evaluasi Pendidikan, (Jakarta: PT Raja Grafindo Persada, 1996), hlm. 145

[5] Thorndike,R.L., Hegen,E.P., A Measurement And Evaluation In Psychology And Education. New York: Macmillan Publishing Company, 1991. Dikutip Prof.Dr.H. Mulyadi, M.Pd.I., Evaluasi Pendidikan Pengembanan Model Evaluasi Pendidikan Agama Di Sekolah, Malang:Uin Maliki Press, 2014. Hal 109

[6] Kusaeri Suprananto, 2012. Pengukuran dan Penilaian Pendidikan. Yogyakarta: Graha Ilmu, hlm. 173

[7] Sudjana, Nana. 2009. Penilaian Hasil Proses Belajar Mengajar. Bandung: PT Remaja Rosda karya. hal 135

[8] Sudjana,Nana.Op.Cit.. hal 135

[9]Arikunto, Suharsimi. 2011. Dasar-dasar Evaluasi Pendidikan (Edisi Revisi). Jakarta: Bumi Aksara. hal 207

[10] Sudjana, Nana Ibid. hal 135

[11]Ngalim Purwanto, Prinsip Prinsip dan Teknik Evaluasi Pembelajaran, (Bandung:Rosdakarya, 2002), hlm. 119-120

[12] Daryanto, Evaluasi Pendidikan, (Jakarta: PT Rineka Cipta, 2008), hlm. 180-182

[13] Sudjana, Nana. 2009. Op.Cit. hal 141

[14] Ngalim Purwanto, Op.Cit., hlm. 120-122

[15] Shodiq A bdullah, Evaluasi Pembelajaran, Semarang : Pustaka Rizki Putra, 2012, hlm. 111

[16] Zainal Arifin, Evauasi Pembelajaran, (Bandung: PT Remaja Rosdakarya, 2012), hlm. 279

[17] Syaifuddin Azwar, Tes Prestasi: Fungsi dan Pengembangan Pengukuran Prestasi Belajar (Edisi II), (Yogyakarta: Pustaka Pelajar Offset, 2007), hlm. 173.

[18] Suharsimi Arikunto, Dasar-Dasar Evaluasi Pendidikan, (Jakarta: Bumi Aksara, 1991), hlm. 65.

[19] Zaenal Arifin, Evaluasi Pembelajaran: Prinsip Teknik dan Prosedur, (Bandung: PT Remaja Rosdakarya, 2012), hlm. 248.

[20] Ibid,.

[21] Suharsimi Arikunto, Loc. cit, hlm. 67.

[22] Syaifuddin Azwar, Op. cit, hlm. 175.

[23] Sukardi, Evaluasi Pendidikan : Prinsip dan Operasionalnya, (Jakarta: Bumi Aksara, 2010), hlm. 32.

[24] Zaenal Arifin, Op. cit, hlm. 249.

[25] Sumarna Surapranata, Analisis, Validitas, Reliabilitas dan Interpretasi Hasil Tes: Implementasi Kurikulum 2004, (Bandung: PT Remaja Rosdakarya, 2005), hlm. 54.

[26] Ngalim Purwanto, Op. cit, hlm. 138.

[27] Ngalim Purwanto. Ibid,. hlm 138

[28] Prof.Dr.H.Mulyadi,M.Pd.I.2014, Evaluasi Pendidikan, Pengembangan Model Evaluasi Pendidikan Agama di Sekolah, Malang:UIN Maliki Press, hlm. 40

[29] Mulyadi. Ibid, hlm. 247-248.

[30] Mulyadi., Ibid.hal. 42

[31] Zaenal Arifin, Op. cit, hlm. 257.

[32] Suharsimi Arikunto, Op. cit, hlm. 59.

[33] Sukardi, Op. cit, hlm. 43.

[34] Ngalim Purwanto, Op. cit, hlm. 139.

[35] Sumarna Surapranata, Op. cit, hlm. 69.

[36] Syaifuddin Azwar, Reliabilitas dan Validitas, (Yogyakarta: Pustaka Pelajar Offset, 2012), hal. 9.

[37] Zaenal Arifin, Op. cit, hlm. 259.

[38] Sukardi, Op. cit, hlm. 52.

[39] Ngalim Purwanto, Op. cit, hlm. 141.

[40] Ngalim Purwanto.Ibid, hlm. 264.

[41] Ibid,.

DISCLAIMER
Konten pada website ini merupakan konten yang di tulis oleh user. Tanggung jawab isi adalah sepenuhnya oleh user/penulis. Pihak pengelola web tidak memiliki tanggung jawab apapun atas hal hal yang dapat ditimbulkan dari penerbitan artikel di website ini, namun setiap orang bisa mengirimkan surat aduan yang akan ditindak lanjuti oleh pengelola sebaik mungkin. Pengelola website berhak untuk membatalkan penayangan artikel, penghapusan artikel hingga penonaktifan akun penulis bila terdapat konten yang tidak seharusnya ditayangkan di web ini.

Laporkan Penyalahgunaan

Komentar




search

New Post