Ke dalam Regresi Logistik – Menuju AI – Teknologi, Sains, dan Teknik Terbaik

Penulis: Satsawat Natakarnkitkul

ILMU DATA, PEMBELAJARAN MESIN

Uraikan konsep regresi logistik dan pendekatan satu-vs-semua dan satu-vs-satu untuk klasifikasi kelas jamak

Sebelumnya saya telah menulis secara mendalam tentang regresi linier baik bentuk tertutup (persamaan) maupun penurunan gradien. Anda dapat membacanya dari URL di bawah ini.

Bentuk Tertutup dan Regresi Penurunan Gradien Dijelaskan dengan Python

Pada artikel ini, saya akan fokus pada algoritma Regresi Logistik, memecah konsep, berpikir seperti mesin, dan melihat konsep di balik pengklasifikasi kelas jamak menggunakan regresi logistik.

Regresi linier ditinjau kembali…

Sebelum beralih ke regresi logistik, mari kita rekap secara cepat tentang regresi linier.

Persamaan regresi linier

Model regresi linier bekerja dengan baik untuk masalah regresi, di mana variabel dependen kontinu dan gagal untuk klasifikasi karena memperlakukan kelas sebagai angka (0 dan 1) dan cocok dengan hyperplane terbaik yang meminimalkan jarak antara titik dan hyperplane, karenanya mengurangi kesalahan (Anda dapat menganggap hyperplane sebagai persamaan version demi kesederhanaan).

Regresi linier dalam masalah yang berbeda (a) gambar kiri dengan regresi (b) gambar kanan dengan masalah klasifikasi

Seperti yang terlihat, prediksi regresi linier dapat berjalan (-∞, ∞). Selain itu, tidak memberikan probabilitas sebagai outputsignal.

Di sinilah log-odds masuk.

Tapi apakah chances dan log-odds…

Seperti disebutkan sebelumnya, regresi linier tidak dapat menghitung probabilitas. Namun, jika kita melihat probabilitas, itu dapat dengan mudah dikonversi dari log-odds, dengan menghitung logaritma dari rasio chances are Probabilitas, rasio peluang, dan peluang log semuanya sama tetapi diekspresikan dengan cara yang berbeda.

Probabilitas adalah kemungkinan terjadinya suatu peristiwa (yaitu 60 percent kemungkinan siswa lulus ujian Matematika).

Peluang, atau peluang sukses atau rasio peluang, adalah ukuran hubungan antara eksposur dan hasil, atau sederhananya, ini adalah probabilitas keberhasilan dibandingkan dengan probabilitas kegagalan (dari contoh di atas, yaitu 0,6 / 0,4 = 1.5).

Log peluang adalah logaritma peluang (ln (1,5) ≅ 0,405).

Catatan: dalam perhitungan ordinary, Anda dapat menggunakan logaritma dalam foundation apapun, tetapi harus konsisten.

Persamaan dan konversi rasio probabilitas ke peluang dan log-peluang

Kita dapat memvisualisasikan rasio peluang terhadap probabilitas dan log-odds terhadap rasio peluang. Amati bagaimana rasio peluang dapat berkisar [0, ∞), whereas log odds can range between (-∞, ∞).

Visualization of (a) odds vs. probability and (b) log-odds vs. odds

Now let’s quickly see how we can interpret the odds ratio;

OR = 1, exposure does not affect odds of the outcome
OR > 1, exposure associated with higher odds of the outcome
OR < 1, exposure associated with lower odds of the outcome

Using the above example, the odds of students passed math exams are 1.5 times as large as the odds of students failed math exams. Remember this is not the same as being 1.5 times as probable!

Back to Logistic Regression

I assume that we all know the definition of logistic regression, logistic model (or logit model) is the statistical method to model the probability of a certain class or event (i.e. students passing the exam, customer churn). In this model, we assume a linear relationship between the independent variables and the log-odds for the dependent variable, which can then represent as below equation.

Logistic equation

The function that converts log-odds to probability is the logistic function and the unit of measurement for the log-odds scale is called logit, which is from logistic unit (hence, the name).

So from the equation above, ultimately, we try to predict the left path of the equation (not the right) because p(y=1|x) is what we want. So we can take the inverse of this logit function, then we will get something similar to us.

Inverse logit function

The above equation is the common sigmoid function, logistic sigmoid, which returns the class probability of p(y=1|x) from the inputs b0 + b1x1 + …

Logistic curve

As the logistic curve implied in the y-axis, this mapping is probabilities (0, 1). Ultimately, the reason we use the logarithm of an odds is it can take any positive or negative value (as previously plotted). Hence, logistic regression is a linear model for the log-odds.

Note that in the logistic equation, the parameters are chosen to maximize the likelihood of observing the sample values (or MLE — Maximize Likelihood Estimation) instead of minimizing the sum of squared errors (or LSE — Least Square Estimation).

Recap: comparison between linear and logistic regression

Key differences between linear and logistic regression

What if we have more than two classes to predict…

What I have discussed so far is only for binary logistic regression (dependent variable consists of only two classes — yes or no, 0 or 1). In this section, we will go through multinomial logistic regression, or we may know it as multi-class logistic regression.

Visualization of 4-class classification

To break this down, we already have a binary classification model (logistic regression), eventually, we can split the multi-class dataset into multiple binary classification datasets and fit the model to each.

How does it work then …

Well.. have you ever in a situation where you need to make a guess (let’s imagine in the examination — multiple choices exam). You read the question, compare the choice, cut out the non-sense, compare the remaining choices and pick one.

Actually, this can be applied to how the binary classification model works against multi-class problems. So it depends on how you make the comparison, assuming we have four classes: A, B, C, and D. You may choose to compare by A vs. [B, C, D] atau bandingkan A untuk setiap kelas individu (yaitu A vs B, A vs C). Kedua perbandingan ini sebenarnya memiliki nama dan merupakan strategi Satu-vs-Semua dan Satu-vs-Satu.

Strategi Satu vs Semua

One-vs-All, OvA (atau One-vs-Rest, OvR) adalah salah satu strategi penggunaan algoritma klasifikasi biner untuk klasifikasi kelas jamak.

Dalam pendekatan ini, kita akan fokus pada satu kelas sebagai kelas positif dan kelas lainnya diasumsikan sebagai kelas negatif (pikirkan untuk membandingkan satu kelas dengan kelas lainnya).

Visualisasi strategi satu lawan semua

Misalnya, diberikan masalah kelas jamak dengan empat kelas (sesuai dengan visualisasi di atas), maka kita dapat membaginya menjadi empat kumpulan information klasifikasi biner;

1: biru vs. [green, black, red]
Two: hijau vs. [blue, black, red]
3: Hitam vs. [blue, green, red]
4: merah vs. [blue, green, black]

Strategi ini mengharuskan setiap version memprediksi skor seperti probabilitas. Argmax dari skor ini kemudian digunakan untuk memprediksi kelas. Strategi ini biasanya digunakan untuk algoritma seperti;

Persepsi regresi logistik Jaringan neural dalam dengan fungsi softmax sebagai lapisan keluaran

Dengan demikian, pustaka scikit-learn mengimplementasikan OvA / OvR secara default option saat menggunakan algoritme ini untuk memecahkan masalah kelas jamak.

Beberapa kemungkinan kelemahan dari pendekatan ini adalah ketika menangani kumpulan information yang sangat besar.

Strategi satu lawan satu

Mirip dengan strategi One-vs-All, strategi one-vs-one adalah metode klasifikasi biner untuk masalah kelas jamak dengan cara memecah dataset menjadi dataset klasifikasi biner. Tidak seperti strategi satu-vs-semua, satu-vs-satu membagi kumpulan information menjadi dua kelas tertentu, contohnya diilustrasikan di bawah ini.

Visualisasi strategi satu lawan satu

Karena pemisahan ini, ada lebih banyak version klasifikasi biner daripada strategi satu vs semua;

Biru versus hijau biru versus merah biru versus hitam merah versus hijau merah versus hitam hijau vs hitam

Jumlah version yang dihasilkan = (n_classes * (n_classes -1)) / 2

Setelah semua version dibuat, poin akan diuji ke semua version dan dicatat berapa kali kelas lebih disukai dengan kelas lain. Kelas yang memiliki mayoritas suara menang.

Biasanya, strategi ini disarankan untuk mesin vektor dukungan dan algoritma berbasis kernel terkait karena kinerja metode kernel tidak berskala secara proporsional dengan ukuran dataset pelatihan, dan hanya menggunakan subset dari information pelatihan dapat melawan efek ini.

Jadi strategi mana yang lebih baik? )

Seperti yang diuraikan di atas, strategi satu lawan semua dapat menjadi tantangan untuk menangani kumpulan data yang besar karena kami masih menggunakan semua information tersebut beberapa kali. Namun, strategi satu lawan satu membagi kumpulan information lengkap menjadi klasifikasi biner untuk setiap pasangan kelas (lihat visualisasi pada OvA dan OvO di atas).

Strategi satu lawan semua melatih lebih sedikit pengklasifikasi, menjadikannya opsi yang lebih cepat. Namun, strategi satu lawan satu kurang rentan untuk menciptakan ketidakseimbangan dalam kumpulan data.

Kesimpulan

Dalam artikel ini, saya memiliki panduan;

meninjau regresi linier; konsep dasar log-odds dan mengapa itu digunakan; menyelami lebih dalam konsep regresi logistik; strategi satu-vs-semua dan satu-vs-satu untuk pengklasifikasi kelas jamak.

Mudah-mudahan, Anda mendapatkan lebih banyak pengetahuan dan latar belakang regresi logistik untuk memperluas pemikiran Anda dan mengembangkannya (daripada hanya mengimpor pustaka / paket regresi logistik dan menggunakannya).

Referensi dan Tautan Eksternal

Into the Logistic Regression awalnya diterbitkan di Limit AI on Moderate, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Towards AI