Mempercepat EDA Dengan Intelligent Lux – Menuju AI – Teknologi, Sains, dan Teknik Terbaik

Penulis: Pranavi Duvva

Gambar oleh Colin Behrens dari Pixabay

Analisis data

Otomatiskan eksplorasi data visual Anda dengan pustaka python baru, Lux ?.

Pernahkah Anda lelah menulis banyak baris kode bahkan untuk grafik sederhana selama EDA?

Pernahkah Anda menginginkan grafik interaktif berbasis rekomendasi dalam notebook jupyter itu sendiri?

Jika itu ya besar!

Syukurlah! Kami sekarang memiliki perpustakaan python baru, Lux.

Artikel ini didasarkan pada sesi Doris Jung-Lin Lee di WiCDS 2021.

Lux adalah API python untuk penemuan visual cerdas, yang dilengkapi dengan widget jupyter interaktif bawaan.

Lux bisa menjadi asisten cerdas Anda yang dapat mengotomatiskan aspek visual dari analisis data eksplorasi. Ini memberikan abstraksi visualisasi yang kuat segera setelah bingkai data ditampilkan di notebook jupyter hanya dengan satu klik. Lux adalah bahasa berbasis niat pengguna yang sangat kaya.

Tujuan utama dari Perpustakaan Lux adalah, untuk membuat visualisasi sesederhana memuat kerangka data.

Widget Lux interaktif membantu pengguna dengan cepat menelusuri data dan melihat tren dan pola penting. Ini memberikan rekomendasi bagi pengguna untuk menganalisis lebih lanjut. Lux, juga dapat membuat visualisasi untuk bagian data tersebut, yang tidak Anda ketahui dengan jelas.

Sumber: Gambar oleh Penulis

Lux bekerja cukup baik dengan panda dan Anda tidak perlu khawatir tentang memodifikasi kodenya. Faktanya, Lux dikembangkan sedemikian rupa sehingga mempertahankan semantik bingkai data panda. Ini berarti ia menyinkronkan perilakunya dengan instruksi panda itu sendiri.

Itu Benar-benar Luar Biasa!

Mari kita mulai dan bawa asisten visual cerdas kami yang diberdayakan oleh Lux.

Persyaratan instalasi

Lux dapat diinstal melalui PyPI. pip instal lux-api

2. Jika Anda menggunakan conda, Lux dapat dipasang oleh,

conda install -c conda-forge lux-api

3. Untuk penyetelan di notebook jupyter, Anda perlu menambahkan ekstensi berikut juga.

jupyter nbextension install –py luxwidget
jupyter nbextension aktifkan –py luxwidget

Itu dia! kami siap untuk pergi…

Studi kasus

Mari pertimbangkan contoh kumpulan data untuk menjelajahi fitur pustaka Lux.

Saya akan menggunakan dataset Graduate Admission yang diambil dari repositori data Kaggle.

Dataset ini berisi beberapa parameter yang dianggap penting selama aplikasi untuk Program Magister.

Kamus data

Skor GRE (dari 340) Skor TOEFL (dari 120) Peringkat Universitas (dari 5) Pernyataan Tujuan dan Kekuatan Surat Rekomendasi (dari 5) IPK Sarjana (dari 10) Pengalaman Penelitian (baik 0 atau 1) Kesempatan dari Mengakui (mulai dari 0 hingga 1)

1. Mengimpor semua perpustakaan yang diperlukan

Sekarang paket telah berhasil diinstal. Kami hanya perlu mengimpor perpustakaan lux ke notebook jupyter kami.

https://medium.com/media/a6193862250242f58a1f140fa4719a6e/href

2. Memuat kumpulan data dan memeriksa ringkasan singkat

Mari muat dataset dan periksa 5 baris teratas.

https://medium.com/media/2e45ab5eb657c6f262ca0a359ac01a32/href

Sumber: Gambar oleh Penulis

Memeriksa bentuk kumpulan data.

https://medium.com/media/68bc0f31084164dde7ea75606929dbb6/href

(400, 9)

Ada total 400 baris dan 9 kolom.

Menghapus kolom pertama No. Seri dan memeriksa ringkasan singkat dari kumpulan data dengan info ()

https://medium.com/media/68914899a926a678906375089761aef1/href

Sumber: Gambar oleh Penulis

Kami mengamati bahwa tipe data dari semua 8 kolom dalam dataset adalah numerik.

3. Eksplorasi Data Visual dengan Lux ?

Sekarang mari kita tampilkan bingkai data dan jelajahi widget Lux.

Sumber: Gambar oleh Penulis

Ketika data frame ditampilkan, Lux secara default menyediakan 3 tab yaitu Correlation, Distribution, dan Occurrence.

Mari mengenal masing-masingnya

Korelasi
Sumber: Gambar oleh Penulis

Tab korelasi menampilkan hubungan antara variabel kuantitatif yang ada dalam dataset.

Urutan yang ditampilkannya adalah yang paling berkorelasi dengan yang paling tidak berkorelasi.

Sumber: Gambar oleh Penulis

2. Distribusi

Sumber: Gambar oleh Penulis

Tab distribusi menampilkan histogram dari variabel kuantitatif dalam dataset.

Urutan yang ditampilkannya adalah yang sangat miring ke yang paling tidak miring.

Sumber: Gambar oleh Penulis

3. Kejadian

Sumber: Gambar oleh Penulis

Tab kejadian menampilkan diagram batang dari atribut kategori.

Urutan yang diikutinya adalah distribusi yang paling tidak merata hingga distribusi yang merata.

Meskipun dataset kami tidak berisi fitur apa pun dengan tipe data kategorikal. Itu memang merekomendasikan grafik batang untuk fitur-fitur yang menurutnya mungkin berguna untuk analisis kami.

4. Visualisasi dan Rekomendasi berdasarkan maksud pengguna.

Katakanlah Anda ingin tahu lebih banyak tentang fitur tertentu atau beberapa fitur secara bersamaan. Anda bisa mendapatkan semua visualisasi yang terkait dengan atribut tersebut dengan bantuan maksud

Widget lux tidak hanya menampilkan visualisasi untuk fitur yang dimaksudkan. Tetapi juga akan memberi Anda rekomendasi tambahan untuk analisis lebih lanjut dengan bantuan opsi Filter dan Tingkatkan.

Menambah

Fitur Enhance dari lux menambahkan atribut tambahan ke atribut yang dimaksudkan yang ditentukan oleh pengguna untuk visualisasi.

Ini memungkinkan pengguna membandingkan efek dari atribut yang ditambahkan dengan visualisasi yang diinginkan. Ini mirip dengan menambahkan corak.

2. Filter

Filter memungkinkan pengguna memvisualisasikan atribut yang dimaksudkan untuk subkumpulan data yang berbeda.

Mari kita pahami lebih baik dengan contoh berikut.

Pertimbangkan satu atribut CGPA,

df.intent =[“CGPA”]
df

1. Rekomendasi Peningkatan untuk satu atribut

Rekomendasi Enhance Tab ketika atribut yang dimaksud adalah CGPA, Sumber: Gambar oleh Penulis

Tab Enhance ketika input yang diberikan adalah salah satu fitur “CGPA” memperbaiki variabel “CGPA” yang diinginkan pada sumbu x dan memberi kami rekomendasi dengan membandingkannya dengan atribut yang berbeda.

2. Filter Rekomendasi untuk satu atribut

Rekomendasi Tab Filter bila atribut yang dimaksud adalah CGPA, Sumber: Gambar oleh Penulis

Tab Filter memperbaiki variabel yang dimaksud “CGPA” pada sumbu x dan memberi kami rekomendasi dengan membandingkannya dengan subbagian yang berbeda dari kumpulan data.

Pertimbangkan dua atribut “Skor TOEFL” dan “Skor GRE”,

df.intent =[“TOEFL Score”,”GRE Score”]
df

1. Rekomendasi Peningkatan untuk dua atribut

Rekomendasi Enhance Tab ketika atribut yang dimaksud adalah TOEFEL Score dan GRE Score, Sumber: Gambar oleh Penulis

Tab Enhance ketika input yang diberikan adalah dua atribut “TOEFL Score”, “GRE Score”. Ini memperbaiki variabel yang dimaksud “Skor TOEFL” pada sumbu x dan “Skor GRE” pada sumbu y. Ini kemudian memberi kami rekomendasi dengan membandingkan dengan atribut yang berbeda.

2. Filter Rekomendasi untuk dua atribut

Rekomendasi Tab Filter bila atribut yang dimaksud adalah Skor TOEFEL dan Skor GRE, Sumber: Gambar oleh Penulis

Tab Filter ketika input yang diberikan adalah dua atribut “TOEFL Score”, “GRE Score”. Ini memperbaiki variabel yang dimaksud “Skor TOEFL” pada sumbu x dan “Skor GRE” pada sumbu y. Ini kemudian memberi kami rekomendasi dengan membandingkan keduanya bersama-sama dengan sub-bagian data yang berbeda.

Sumber: Gambar oleh Penulis

5. Mengekspor Visualisasi.

Lux membuatnya sangat mudah untuk membagikan visualisasi. Untuk mengekspor visualisasi menjadi HTML statis, perintah berikut harus digunakan.

df.save_as_html (“Nama file.html”)

Kesimpulan

Lux pustaka open-source python baru pasti membuat eksplorasi data jauh lebih mudah. Artikel ini telah mendemonstrasikan bagaimana Lux dapat mengotomatiskan sebagian besar visualisasi kami dengan kode yang sangat minimal. Ini juga menjelaskan beberapa fitur menonjol dari perpustakaan Lux.

Status Proyek Lux: Saat ini, Lux dalam tahap pengembangan awal.

Sumber daya

Untuk mengetahui lebih banyak tentang perpustakaan Lux Anda dapat menemukan detailnya di lux-API.

Anda juga dapat mencoba latihan Hands-on atau tutorial mereka tentang Binder.

Semoga Anda menikmati membaca artikel ini!

Silakan periksa artikel saya yang lain tentang pranaviduvva di medium.

Terima kasih sudah membaca!

Mempercepat EDA With the Intelligent Lux awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Towards AI