Regresi Binomial Negatif !

7 min readDec 14, 2020

Pendahuluan.

Regresi Binomial Negatif (Negative Binomial Regression) merupakan salah satu bentuk dari Generalized Linear Model (GLM) yang sering digunakan dalam pemodelan regresi terkait dengan banyaknya suatu kejadian (selain Regresi Poisson). Misalnya ada suatu penelitian yang dilakukan oleh pihak sekolah dengan tujuan untuk mengetahui tingkat kehadiran para siswa di sekolah tersebut. Variabel prediktor pada kasus ini meliputi jurusan siswa/i dan ujian matematika.

Pada kenyataanya, para ilmuwan dan/atau praktisi data jarang menggunakan regresi Poisson. Hal ini dikarenakan pada model regresi tersebut terdapat asumsi equidispersi (nilai rata-rata dan varians dari variabel respon sama) yang harus dipenuhi. Sayangnya, seringkali data-data yang tersedia memiliki nilai varians dari variabel respon (y) yang lebih besar dibanding nilai rata-rata nya (overdispersi). Hal ini dapat disebabkan oleh beberapa hal, seperti adanya korelasi positif antar variabel respon, variasi antara nilai probablitas atau banyaknya kejadian dari variabel respon berlebihan, atau karena kesalahan pengelompokkan (clustering) data.

Overdispersi dapat menjadi masalah yang krusial bilamana kita mengira bahwa taksiran nilai standard error nya kecil atau sebuah variabel bisa saja terlihat signifikan, padahal kenyataannya tidak. Hal tersebut ditandai dengan rasio atau perbandingan antara nilai statistik chi-square dengan derajat kebebasan (degree of freedom) yang jauh lebih besar dari 1. Oleh karena itu, para ahli menggunakan model regresi Binomial Negatif sebagai alternatif dari model regresi Poisson.

Cermati bahwa karena model regresi ini termasuk model GLM, maka variabel respon (y) tidak harus berdistribusi normal dan fungsi rata-rata nya tidak harus linear.

Beberapa Teori terkait Model Regresi Negative Binomial.

Seperti yang telah dijelaskan sebelumnya, model regresi Negative Binomial dapat mengatasi permasalahan overdispersi yang sering terjadi pada model regresi Poisson. Pertanyaanya sekarang adalah bagaimana bisa? Sebenarnya distribusi Negative Binomial sendiri dapat dipandang sebagai distribusi Poisson dengan paramter peubah acak λ yang berdistribusi Gamma (λ bukan konstanta). Distribusi Gamma tersebut memiliki persamaan pdf,

dengan,

Untuk probabilitas bersyaratnya,

Sehingga fungsi marginal nya adalah,

Masukkan nilai-nilai yang berkesuaian untuk persamaan diatas,

Karena α, β, dan x merupakan konstanta pada intergral tersebut, sehingga dapat ditulis pula,

Persamaan integral tersebut akan kita bawa ke bentuk fungsi gamma. Ingat bentuk fungsi tersebut adalah,

Untuk bisa mendapatkan bentuk seperti itu, maka persamaan integral yang kita punya harus dilakukan substitusi dengan permisalan,

substitusi nilai-nilai diatas pada persamaan integral yang kita punya, akan didapat hasil sebagai berikut,

Perhatikan bahwa persamaan integral diatas telah memenuhi bentuk fungsi gamma dengan y = u sehingga dapat ditulis,

Atau bisa juga,

Sehingga akan didapat,

Cermati bahwa persamaan diatas merupakan pdf dari distribusi Binomial Negatif (Negative Binomial Distribution).

Dengan melakukan transformasi distribusi Gamma 1 parameter sebagai fungsi Poisson dengan nilai mean λi, akan diperoleh persamaan pdf sebagai berikut,

dengan nilai mean dan variansi nya,

Dapat dilihat bahwa nilai variansi nya lebih besar dibanding dengan nilai mean (overdispersi). Perhatikan bahwa ketika nilai ψ jauh lebih besar,

sehingga nilai variansi akan konvergen ke nilai ekspektasinya.

Model Regresi Binomial Negatif :

Dari bentuk GLM, model regresi Binomial Negatif dapat ditulis sebagai berikut,

atau bisa juga dinyatakan sebagai,

atau bisa juga,

dengan,

Asumsi Model Regresi Negatif Binomial.

Sebenarnya asumsi-asumsi model regresi ini mirip dengan asumsi yang ada pada model regresi Poisson. Hal ini dikarenakan pada dunia nyata, peneliti sebenarnya lebih sering menggunakan model regresi Poisson untuk mengetahui apakah ada hubungan antara banyaknya observasi yang menjadi perhatian dengan variabel prediktor/regressor (x) yang statistically useful atau signifikan pada model. Seringkali model regresi Binomial Negatif hanya menjadi alternatif jika asumsi equidispersi pada model regresi Poisson tidak terpenuhi.

Asumsi-asumsi yang dimaksud pada penjelasan sebelumnya, seperti adanya hubungan linearitas pada parameter-parameter model, observasi-observasi nya yang saling independen, dan efek multiplikatif pada variabel-variabel independen. Akan tetapi, jika dibandingkan dengan model regresi Poisson, model ini robust atau dapat mengatasi permasalahan overdispersi yang seringkali terjadi pada model regresi Poisson. Perlu diingat bahwa model regresi Binomial Negatif tidak dapat mengatasi permasalahan underdispersion(nilai varians lebih kecil dibanding dengan nilai mean nya).

Pengujian Keberadaan Overdispersi pada Model.

Pengujian ini sangat direkomendasikan apabila kita telah selesai menjalankan model regresi Poisson pada data yang kita punya. Hal ini untuk memastikan apakah asumsi equidispersi pada model tersebut terpenuhi atau tidak. Jika tidak, maka kita bisa menggunakan model regresi Binomial Negatif.

Z-Score Tests.

Pengujian ini dibuat oleh Dean dan Lawless (1989) untuk mengetahui adanya overdispersi pada model yang dapat dinyatakan dalam z-tests sebagai berikut,

Aturan Keputusan : H0 ditolak jika nilai dari z-tests nya > z-score atau p-value < α.

Untuk saat ini, kita akan gunakan dataset medpar yang ada di buku Negative Binomial Regression karya Hilbe yang diterbitkan pada tahun 2011. Awalnya kita akan mencoba untuk menerapkan model regresi Poisson pada data tersebut, lalu akan dilihat apakah ada overdispersi atau tidak. Dengan penginputan kode pada R, akan diperoleh hasil sebagai berikut,

(Sumber gambar : Hilbe, J. (2011). *Negative Binomial Regression* (2nd ed.). Cambridge: Cambridge University Press. doi:10.1017/CBO9780511973420)

Berdasarkan output diatas, kita dapat menolak H0 mengingat nilai p-value = 0.000 < α = 0.05 atau nilai z-tests = 9.39 > z-score = 3.7.

2. Boundary Likelihood Ratio Test.

Jika pada model regresi Poisson terdapat asumsi equidispersi (nilai mean sama dengan nilai variansi nya), maka pada model Binomial Negatif terdapat asumsi bahwa parameter heterogenitas nya bernilai nol. Hal ini dapat dikatakan pula bahwa asumsi equidispersi pada model regresi Poisson ekivalen dengan keadaan dimana nilai parameter heterogenitas nya nol di model regresi Binomial Negatif.

Kalau seandainya nilai parameter heterogenitas pada model Binomial Negatif lebih besar dari nol, maka ada indikasi kuat bahwa terdapat overdispersi pada pemodelan regresi Poisson. Perlu diperhatikan bahwa nilai parameter heterogenitas tidak bisa kurang dari nol. Hal ini dikarenakan model regresi Binomial Negatif tidak dapat memperkirakan eksistensi dari underdispersi, padahal mungkin saja underdispersi pada model regresi Poisson itu ada.

Nah, untuk menguji apakah nilai parameter heterogenitas nya lebih besar dari nol atau tidak, kita dapat menggunakan uji Boundary Likelihood Ratio Test yang dapat dinyatakan sebagai berikut,

Aturan penolakan H0 :

Jika situasi diatas tercapai, maka ada indikasi overdispersi pada data yang kita analisis.

Hilbe, J. (2011). Negative Binomial Regression (2nd ed.). Cambridge: Cambridge University Press. doi:10.1017/CBO9780511973420

Agresti, A. (2015). Foundations of linear and generalized linear models. ProQuest Ebook Central

Klugman S.A., Panjer H. H., Wilmot G. E. Loss Models, From Data to Decisions, Second Edition., Wiley-Interscience, a John Wiley & Sons, Inc., New York, 2004

View of The Negative Binomial regression | The Southwest Respiratory and Critical Care Chronicles. (2020). Retrieved 14 December 2020, from https://pulmonarychronicles.com/index.php/pulmonarychronicles/article/view/200/491