Prediksi Kelangsungan Hidup Titanic – Titanic II – Menuju AI – Teknologi, Sains, dan Teknik Terbaik

Penulis: Hira Akram

Ilmu Data

Prediksi Kelangsungan Hidup Titanic – II

Prediksi siapa yang selamat dari tenggelamnya!

Sumber Gambar

Pada artikel sebelumnya, kita membahas teknik dasar analisis information eksplorasi, visualisasi info, dan pra-pemrosesan information mentah. Kami juga membangun pemahaman tentang metode untuk merekayasa fitur baru yang kompleks dari kumpulan information asli. Selain itu, praktik persiapan information umum seperti pengkodean fitur dan penskalaan standar juga tercakup.

Pada artikel ini, mari kita bahas secara singkat sejumlah algoritma dengan banyak digunakan untuk klasifikasi biner bersama dengan kinerjanya pada dataset Titanic. Selain itu, kami akan melatih, menguji, dan mengevaluasi prediksi kelangsungan hidup kami berdasarkan metrik yang berbeda.

Seberapa benar “Sampah Masuk, Sampah Keluar “?

Sementara membangun version pembelajaran mesin tidak menekankan pada algoritma mana yang harus dipilih, lebih baik fokus pada EDA dan penambangan information karena mereka memainkan peran yang sangat penting. Akan ada kalanya version Anda terus-menerus memberikan kinerja yang sama meskipun memasukkan algoritme yang berbeda; alih-alih melompat dari satu algoritme ke algoritme lainnya, selalu disarankan untuk menggunakan praktik berikut:

Lakukan beberapa EDA dasar menggunakan SQL, Excel atau Python / R, bagaimanapun, lebih disukai. Hitung nilai-nilai yang hilang. Plot fitur yang dianggap penting dan coba temukan pola yang mendasarinya. Menyandikan fitur kategorikal dan menormalkan / membakukan fitur berkelanjutan. Pilih algoritme sederhana dan langsung latih modelnya. Jika Anda beruntung, Anda mungkin mendapatkan output yang Anda inginkan saat pertama kali pergi. Jika demikian, jalankan kembali version untuk memvalidasi hasil Anda. Jika Anda akhirnya kecewa dengan penggunaan pertama, amati bagaimana version berperilaku dan apakah Anda perlu mengumpulkan lebih banyak information atau menambahkan fitur baru, dll.

Catatan: Jika Anda memberikan info yang benar untuk algoritme apa pun, kemungkinan besar Anda akan mendapatkan hasil yang diinginkan tanpa harus bolak-balik.

Pengklasifikasi Biner

Tujuan kami adalah untuk mengidentifikasi penumpang berdasarkan fitur yang diberikan seperti Age, SibSp, Pclass, Fare, dll. Yang kemungkinan besar selamat dari kecelakaan kapal. Untuk masalah klasifikasi biner ini, mari latih lima pengklasifikasi dan bandingkan performanya pada put information pelatihan.

Kami akan menggunakan algoritme pembelajaran yang diawasi berikut yang dapat membantu kami membuat prediksi kelangsungan hidup pada kumpulan info Titanic:

Random Forest Classifier Logistic Regression Gradient Increasing Classifier Mendukung Mesin Vektor Naïve Bayes Classifier

Pengklasifikasi Hutan Acak

Random Forest adalah algoritma pembelajaran outfit yang sangat fleksibel yang dapat digunakan untuk menyelesaikan masalah klasifikasi dan regresi menggunakan paradigma bagging. Algoritme melakukan pengambilan sampel secara acak dengan penggantian dan membuat banyak salinan dari kumpulan data. Hasilnya, prediksi baru dapat diperoleh dengan mengambil rata-rata prediksi sampling untuk pohon regresi atau dengan pemungutan suara terbanyak jika terjadi masalah klasifikasi.

Dalam kasus kami, performa keseluruhan version ini tampak cukup bagus pada put data pelatihan. Dengan jumlah prediksi yang cukup tepat, kami dapat mencapai angka yang memuaskan untuk remember dan skor f1. Diilustrasikan di bawah ini adalah matriks konfusi yang diperoleh dari pengklasifikasi ini:

https://medium.com/media/73fb6cb6e742182f07fef7cc410af427/href

Regresi logistik

Regresi Logistik termasuk dalam kelas algoritma pembelajaran yang diawasi. Bertentangan dengan namanya, algoritme ini secara khusus digunakan untuk membuat prediksi klasifikasi. Ini bertujuan untuk menghasilkan dua nilai yang mungkin berdasarkan kelas yang ditentukan. Salah satu fungsi matematika yang memberikan nilai antara period yang kami inginkan yaitu [0, 1] disebut sigmoid. Jika fungsi ini mengembalikan prediksi yang mendekati 0, kami mendeklarasikannya sebagai kelas negatif sedangkan, jika prediksi lebih dekat ke 1, itu dianggap positif dan karenanya kelas yang kami targetkan.

Dengan version ini kami sampai pada hasil yang agak mirip. Namun, akurasinya memang menunjukkan sedikit penurunan. Memiliki jumlah positif benar yang lebih tinggi, presisi version kami meningkat secara signifikan. Gambar di bawah ini menunjukkan matriks konfusi yang diperoleh dari version ini:

https://medium.com/media/40717ec6fcc02932a458ea5f467804ac/href

Pengklasifikasi Peningkatan Gradien

Pindah ke pengklasifikasi berikutnya yang merupakan algoritma pembelajaran outfit yang efektif tetapi tidak seperti random woods, algoritma ini menggunakan teknik boosting.

Seperti dapat dilihat dari gambar di bawah ini, kami memprediksi dengan benar sejumlah negatif benar dan positif benar dan version ini juga mengungguli dalam hal berharga. Selain itu, ini juga memberikan jumlah positif palsu yang sangat rendah:

https://medium.com/media/49e2f576f52a5fcb775b59b739d66d69/href

Mendukung Mesin Vektor

Karena itu mesin vektor dukungan prinsip matematika yang mendasari juga dikenal sebagai Pengklasifikasi Margin Besar. Ada jarak yang signifikan antara contoh positif dan negatif yang dipisahkan oleh batasan keputusan. Akibatnya, batasan keputusan ini berkontribusi pada generalisasi yang lebih baik dari contoh-contoh masa depan.

Seperti gambar di bawah ini menunjukkan bahwa ada sejumlah besar tag yang diprediksi salah sehingga version ini gagal membuat prediksi yang dapat diterima dalam kasus kami:

https://medium.com/media/7f45a1bc794e7e8621fe552112afbd01/href

Pengklasifikasi Naïve Bayes

Terakhir, kami melatih information menggunakan pengklasifikasi Naïve Bayes yang merupakan algoritme supervised learning ultra sederhana. Konsep yang mendasari di balik teknik klasifikasi ini adalah yang mengasumsikan bahwa setiap fitur secara statistik mencerminkan teorema Bayes, yaitu setiap fitur dalam kelas tidak bergantung satu sama lain.

Berdasarkan hasil yang diambil dari version ini, kami mengamati bahwa tidak hanya tidak dapat menjaga keakuratan tetapi juga paling tidak efisien dalam hal metrik lainnya. Yang terbukti dari matriks konfusi dan Gambar-1:

https://medium.com/media/2e9157a0293dfa205533124ae43e25bb/href

Perbandingan Performa

Biasanya, pengklasifikasi dievaluasi pada berbagai metrik seperti Biography, Remember, F1-Score, Accuracy, dan sebagainya. Ini membantu kami memutuskan seberapa baik version berperilaku. Konkretnya, jika kita hanya mempertimbangkan satu metrik sebagai faktor penentu kita, maka kita mungkin berakhir dengan kesimpulan yang berbeda dan akan selalu ada trade-off.

Selain itu, penting untuk menganalisis klasifikasi melalui beberapa faktor penentu sehingga kami lebih yakin tentang pilihan kami. Sebelumnya, kami memeriksa matriks kebingungan setiap version secara person untuk mendapatkan tampilan intuitif tentang tag yang diprediksikan dengan benar. Sekarang mari kita juga melihat beberapa faktor lain untuk menarik kesimpulan yang lebih akurat. Seperti yang dapat dilihat pada gambar di bawah ini bahwa kami telah memperhitungkan akurasi dataset train and evaluation, presisi, remember, dan skor f1 dari masing-masing version. Akan tetapi, hasil ini menunjukkan bahwa angka akurasi relatif dapat diterima di setiap skenario tetapi ketika faktor-faktor lain dipertimbangkan, maka jelas ‘Pengklasifikasi Hutan Acak’ mengungguli semuanya.

Gambar di bawah ini menunjukkan perbandingan lengkap antara kelima version yang telah kami latih sejauh ini:

Gambar 1

Kesimpulan

Sekarang setelah kita menyelesaikan pemilihan version kita, mari kita lanjutkan dengan tahap pengujian. Hutan acak juga memberi kita opsi untuk membatasi diri pada fitur-fitur yang menambah nilai signifikan untuk menentukan tren data. Di bawah ini adalah daftar fitur penting:

attributes = pd.Series (rfc.feature_importances_, indicator = X_train. Columns ) .sort_values ​​() features.plot (type =’barh’,’ cmap =’Pastel1′)

Mari kita gunakan hanya yang memiliki nilai ≥ 0,06 sehingga kita melatih kembali version kita berdasarkan fitur yang memiliki dampak lebih tinggi dalam mencari pola tersembunyi dalam kumpulan information kita. Berikut tautan ke proyek GitHub untuk referensi.

Terima kasih sudah membaca! ^ _ di

Prediksi Kelangsungan Hidup Titanic – II awalnya diterbitkan di Limit AI on Moderate, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Towards AI