Uji Reliabilitas Antar Penilai (Inter-Rater Reliability)
Pendahuluan
Uji reliabilitas antar penilai (inter-rater reliability) merupakan aspek penting dalam penelitian dan pengukuran dimana terdapat lebih dari satu penilai atau pengamat yang memberikan skor atau penilaian terhadap objek yang sama. Konsep ini menjadi sangat krusial dalam bidang pendidikan, psikologi, kesehatan, dan evaluasi kompetensi, karena apabila dua atau lebih penilai berbeda menghasilkan skor yang sangat berbeda untuk objek yang sama maka kredibilitas instrumen atau proses penilaian menjadi dipertanyakan. Oleh karena itu, sebelum suatu instrumen atau metode penilaian digunakan secara luas, penting dilakukan pengujian reliabilitas antar penilai agar dapat dipastikan bahwa hasil penilaian tersebut konsisten dan dapat dipercaya.
Dalam konteks pengembangan instrumen penelitian, penilaian kualitatif atau observasi keterampilan, penggunaan beberapa penilai (rater) sering kali menyebabkan variasi skor yang berasal bukan hanya dari peserta yang dinilai, tetapi juga dari interpretasi dan keputusan penilai. Dengan demikian, uji konsistensi antar penilai menjadi salah satu langkah kritis untuk memastikan bahwa perbedaan yang muncul adalah karena karakteristik objek yang dinilai, bukan karena bias atau ketidakkonsistenan penilai. Sebagai contoh, dalam suatu penelitian di Universitas Gadjah Mada ditemukan bahwa lembar penilaian OSCE (Objective Structured Clinical Examination) memiliki nilai Kappa = 0,427 dan persentase agreement (PA) = 82,60 % yang dinyatakan “memadai” untuk reliabilitas antar penilai. [Lihat sumber Disini - jurnal.ugm.ac.id]
Melalui artikel ini akan dibahas secara mendalam mengenai pengertian, definisi umum, definisi menurut KBBI, definisi menurut para ahli, kemudian dilanjutkan dengan pembahasan mengenai karakteristik, metode pengujian, faktor-faktor yang mempengaruhi, interpretasi, penggunaan, kelebihan dan keterbatasan, serta implikasi praktis dari uji reliabilitas antar penilai. Akhirnya akan disimpulkan secara komprehensif agar pembaca memiliki pemahaman yang utuh dalam konteks akademik dan aplikatif.
Definisi Uji Reliabilitas Antar Penilai (Inter-Rater Reliability)
Definisi Umum
Uji reliabilitas antar penilai atau inter-rater reliability (IRR) adalah proses atau teknik untuk mengukur sejauh mana dua atau lebih penilai (rater) memberikan hasil atau skor yang sama atau sangat mirip ketika menilai objek yang sama dengan instrumen atau kriteria yang sama. Secara sederhana, jika penilai A dan penilai B menilai serangkaian objek yang sama, maka instrumen dikatakan memiliki reliabilitas antar penilai yang baik apabila skor dari penilai A dan B sangat konsisten atau memiliki tingkat kesepakatan (agreement) yang tinggi. Hal ini sejalan dengan definisi yang menyebut bahwa proses pengujian reliabilitas antar penilai melibatkan beberapa peneliti yang menilai kelompok sampel dan membandingkan hasilnya. [Lihat sumber Disini - info.populix.co]
Pengertian ini menekankan bahwa aspek utama dalam IRR adalah konsistensi dan kesepakatan antar rater, bukan hanya reliabilitas internal instrumen atau stabilitas waktu. Dalam praktiknya, apabila perbedaan skor antar rater terlalu besar maka instrumen atau prosedur penilaian harus direvisi agar hasilnya dapat dipercaya.
Definisi dalam KBBI
Menurut laman daring dari Kamus Besar Bahasa Indonesia (KBBI), kata “reliabilitas” diartikan sebagai “perihal sesuatu yang bersifat reliabel (bersifat andal)”; “ketelitian dan ketepatan teknik pengukuran; keterandalan”. [Lihat sumber Disini - kbbi.web.id]
Dengan demikian, dalam konteks “antara penilai”, maka frasa “reliabilitas antar penilai” dapat diartikan sebagai keterandalan teknik pengukuran yang melibatkan beberapa penilai, yaitu seberapa andal penilaian yang diberikan oleh lebih dari satu penilai terhadap objek yang sama.
Definisi Menurut Para Ahli
Berikut ini adalah beberapa definisi dari para ahli yang telah dikutip dalam literatur penelitian:
- Anastasia Susana (1997) mendefinisikan reliabilitas sebagai “sesuatu yang merujuk pada konsistensi skor yang dicapai oleh orang yang sama ketika mereka diuji dengan tes yang sama pada kesempatan yang berbeda, atau dengan seperangkat butir-butir ekuivalen yang berbeda, atau di bawah kondisi pengujian yang berbeda”. [Lihat sumber Disini - liputan6.com]
Meski definisi tersebut memfokuskan pada reliabilitas secara umum, konsep dasar konsistensi yang dianut juga relevan untuk IRR karena melibatkan penilaian yang konsisten antar penilai. - Sugiharto & Situnjak (2006) menyatakan bahwa reliabilitas mengacu pada kemampuan instrumen untuk menghasilkan data yang dapat dipercaya dan menggambarkan informasi yang sesuai dengan kondisi lapangan. [Lihat sumber Disini - liputan6.com]
Dalam konteks IRR, “instrumen” dapat diperluas menjadi “prosedur penilaian oleh penilai” sehingga mengukur kemampuan penilai untuk menghasilkan penilaian yang konsisten. - Dalam penelitian pendidikan Indonesia oleh Kusaeri dkk. (2021) yang menguji instrumen penilaian proyek ditemukan: “Dari sisi reliabilitas inter-rater, instrumen penilaian proyek yang digunakan reliabel.” [Lihat sumber Disini - repository.uinsa.ac.id]
Pernyataan ini menggambarkan pemanfaatan istilah “reliabilitas antar penilai” sebagai ukuran keandalan prosedur penilaian yang melibatkan lebih dari satu penilai. - Mary L. McHugh dalam artikel tentang statistik kappa menyebut bahwa koefisien kappa digunakan untuk mengukur inter-rater reliability antara dua penilai yang masing-masing mengkategorikan objek yang sama. [Lihat sumber Disini - en.wikipedia.org]
Meski McHugh menyoroti aspek statistik, definisi dasarnya adalah konsistensi antar rater.
Berdasarkan definisi-definisi tersebut, maka dapat disimpulkan bahwa uji reliabilitas antar penilai adalah pengujian empiris untuk mengetahui sejauh mana penilai berbeda menghasilkan penilaian yang sejajar terhadap objek yang sama, sehingga kesimpulan atau keputusan yang diambil berdasarkan penilaian tersebut dapat dipertanggungjawabkan.
Konsep Utama Uji Reliabilitas Antar Penilai
Tujuan
Tujuan utama dari uji reliabilitas antar penilai adalah memastikan bahwa skor atau penilaian yang diberikan oleh lebih dari satu penilai terhadap objek yang sama dapat dipercaya, yaitu bahwa variasi skor antar penilai bukan disebabkan oleh bias penilai atau ketidakkonsistenan penilai, melainkan mencerminkan perbedaan objek yang nyata. Dengan kata lain, instrumen penilaian atau prosedur penilaian dianggap baik apabila variabilitas yang muncul terutama karena objek yang berbeda, bukan karena penilai yang berbeda.
Karakteristik
Beberapa karakteristik penting dari IRR meliputi:
- Kesepakatan (agreement) antar penilai: Seberapa banyak penilai memberikan skor/penilaian yang sama atau sangat mirip pada objek yang sama.
- Konsistensi antar penilai: Sejauh mana penilai berbeda menilai dengan interpretasi yang serupa terhadap kriteria yang sama.
- Stabilitas prosedur penilaian: Penilaian dilakukan dalam kondisi yang cukup serupa antar penilai untuk meminimalkan perbedaan yang disebabkan oleh waktu, tempat, atau konteks.
- Objektivitas penilaian (sebagai ideal): Meskipun penilaian melibatkan interpretasi manusia, prosedur yang jelas, kriteria yang terdefinisi dengan baik, dan pelatihan penilai dapat meningkatkan objektivitas dan menurunkan pengaruh bias penilai.
Metode Pengujian
Dalam literatur metode penelitian di Indonesia dan global, terdapat beberapa teknik yang umum digunakan untuk mengukur IRR, antara lain:
- Persentase kesepakatan (percent agreement, PA): Prosentase objek di mana semua penilai memberikan penilaian yang sama atau sama kategori. Sebagai contoh, penelitian di UGM menggunakan PA = 82,60 %. [Lihat sumber Disini - jurnal.ugm.ac.id]
- Koefisien Kappa (misalnya Cohen's Kappa): Digunakan ketika dua penilai memberikan kategori kepada objek; memperhitungkan kesepakatan yang terjadi secara kebetulan. [Lihat sumber Disini - en.wikipedia.org]
- Intraclass Correlation Coefficient (ICC): Digunakan ketika skala pengukuran bersifat kontinu atau ordinal dan ketika lebih dari dua penilai. Sebagai contoh, studi Kusaeri dkk. menggunakan ICC untuk reliabilitas inter-rater. [Lihat sumber Disini - repository.uinsa.ac.id]
- **Koefisien lain seperti Fleiss’s Kappa ketika lebih dari dua penilai dan data kategori nominal. [Lihat sumber Disini - en.wikipedia.org]
Prosedur Umum Pelaksanaan
- Menentukan penilai (rater) yang akan melakukan penilaian: jumlah penilai, kualifikasi, pelatihan penilai.
- Menentukan objek atau sampel yang akan dinilai oleh masing-masing penilai secara independen.
- Menentukan instrumen atau rubrik penilaian yang sama digunakan oleh semua penilai untuk meningkatkan peluang kesepakatan.
- Melakukan penilaian oleh semua penilai terhadap objek yang sama atau set objek, dalam kondisi yang serupa.
- Mengumpulkan data penilaian dari semua rater untuk masing-masing objek.
- Menghitung indeks kesepakatan atau reliabilitas antar penilai, seperti Kappa, ICC, persentase agreement.
- Menginterpretasi hasil menurut pedoman yang relevan dan menetapkan apakah reliabilitas antar penilai telah memadai atau harus dilakukan perbaikan instrumen/penilai.
Interpretasi
Interpretasi koefisien IRR tergantung pada ukuran statistik yang digunakan. Sebagai contoh, dalam literatur ditemukan bahwa untuk Cohen’s Kappa: nilai < 0,20 = sangat rendah, 0,21–0,40 = rendah, 0,41–0,60 = moderat, 0,61-0,80 = substansial, > 0,80 = hampir sempurna. [Lihat sumber Disini - eprints.uny.ac.id]
Sebagai contoh di UGM, Kappa = 0,427 dan PA = 82,60 % dikategorikan “memadai” atau “cukup”. [Lihat sumber Disini - jurnal.ugm.ac.id]
Namun, interpretasi ini juga harus disesuaikan dengan konteks pengukuran (jenis instrumen, bidang studi, jumlah penilai, skala penilaian) karena standar yang sama belum tentu berlaku untuk semua konteks.
Faktor-Faktor yang Mempengaruhi
Beberapa faktor yang dapat mempengaruhi hasil reliabilitas antar penilai antara lain:
- Kualifikasi dan pelatihan penilai: Penilai yang kurang terlatih atau berbeda interpretasi terhadap rubrik akan menurunkan kesepakatan.
- Kejelasan instrumen atau rubrik penilaian: Rubrik yang ambigu atau kurang spesifik mempersulit penilai untuk melakukan penilaian konsisten.
- Kompleksitas objek yang dinilai: Objek yang sulit dinilai (misalnya observasi perilaku kompleks) cenderung menghasilkan variabilitas antar penilai.
- Kondisi penilaian (waktu, tempat, tenaga penilai): Jika penilaian dilakukan dalam kondisi berbeda (kelelahan, suasana berbeda), bisa terjadi bias penilai.
- Jumlah penilai dan objek: Semakin banyak penilai dan objek, semakin kompleks pengaturan konsistensi antar penilai.
- Skala penilaian dan jumlah kategori: Skala yang sangat banyak kategori atau sangat subjektif cenderung menurunkan tingkat kesepakatan.
- Bias atau interpretasi pribadi penilai: Perbedaan interpretasi kriteria atau kecenderungan pribadi penilai akan mengganggu kesepakatan.
Kelebihan dan Keterbatasan
Kelebihan:
- Memberikan bukti empiris bahwa hasil penilaian yang melibatkan beberapa penilai adalah konsisten, sehingga meningkatkan kredibilitas instrumen atau prosedur.
- Membantu dalam memperbaiki rubrik penilaian, pelatihan penilai, dan prosedur penilaian agar menjadi lebih reliabel.
- Memperkuat validitas pengukuran secara tidak langsung: instrumen yang reliabel antar penilai lebih memungkinkan untuk menghasilkan data yang dapat diandalkan.
Keterbatasan:
- Hanya mengukur kesepakatan antar penilai, bukan berarti penilaian tersebut benar atau valid secara konseptual (validitas tetap harus diuji).
- Interpretasi koefisien IRR bisa berbeda antar bidang studi atau jenis instrumen; nilai “baik” dalam satu konteks belum tentu dianggap “baik” dalam konteks lain.
- Apabila objek sangat subjektif atau rubrik penilaian sangat terbuka interpretasi, mencapai reliabilitas antar penilai yang tinggi mungkin sangat sulit.
- Biaya dan waktu: Melibatkan beberapa penilai dan proses uji reliabilitas bisa membutuhkan waktu dan sumber daya lebih.
Penggunaan Praktis
Dalam praktik penelitian atau penilaian pendidikan/keterampilan, penting untuk:
- Menetapkan rubrik penilaian yang jelas dan terstandarisasi agar penilai memahami kriteria secara sama.
- Melakukan pelatihan penilai sebelum melakukan penilaian sebenarnya, agar interpretasi penilai dapat distandarisasi.
- Melakukan uji coba atau pilot penilaian oleh beberapa penilai terhadap beberapa objek dan lalu menghitung IRR. Jika nilai IRR masih rendah, lakukan perbaikan rubrik atau pelatihan ulang.
- Mencatat dan melaporkan hasil IRR (misalnya nilai Kappa, persentase kesepakatan) dalam laporan penelitian agar pembaca dapat menilai kualitas instrumen/penilaian.
- Jika IRR rendah: pertimbangkan mempersempit skala penilaian, menambahkan kategori yang lebih jelas, atau mengurangi subjektivitas penilaian.
Kesimpulan
Uji reliabilitas antar penilai (inter-rater reliability) merupakan alat ukur penting dalam penelitian dan evaluasi yang melibatkan lebih dari satu penilai. Dengan memastikan bahwa skor atau penilaian yang diberikan oleh berbagai penilai terhadap objek yang sama memiliki tingkat kesepakatan yang tinggi, maka data yang dihasilkan menjadi lebih konsisten dan dapat dipercaya. Definisi umum menekankan aspek konsistensi dan kesepakatan antar penilai; definisi KBBI menekankan keterandalan teknik pengukuran; dan definisi menurut para ahli memperjelas bahwa IRR adalah pengukuran spesifik terkait rater yang berbeda.
Dalam prakteknya, keberhasilan IRR sangat bergantung pada rubrik penilaian yang jelas, pelatihan penilai, serta kondisi penilaian yang terstandarisasi. Penggunaan statistik seperti persentase kesepakatan, Cohen’s Kappa, dan ICC menjadi metode populer untuk menghitung IRR. Meskipun memiliki kelebihan dalam meningkatkan kredibilitas instrumen, IRR juga memiliki keterbatasan dan tidak dapat menggantikan validitas pengukuran secara keseluruhan.
Dengan demikian, bagi peneliti atau praktisi yang akan menggunakan instrumen penilaian yang melibatkan lebih dari satu rater, sangat dianjurkan untuk menyertakan uji reliabilitas antar penilai sebagai bagian dari prosedur uji instrumen, serta melaporkan hasilnya secara transparan agar kualitas pengukuran dapat dievaluasi oleh pihak lain.
