Python dan Power BI – Menuju AI – Teknologi, Sains, dan Teknik Terbaik

Penulis: Jayant Kumar Kodwani

Pemrosesan Bahasa Alami

Ekstraksi dan Visualisasi Frase Kunci: Python dan Microsoft Power BI

Temukan wawasan dalam teks tidak terstruktur

Menerapkan algoritma RAKE dalam integrasi Python dan Power BI

Ekstraksi Frase-Kunci, Foto oleh Rabie Madaci di Unsplash

Kita hidup di zaman di mana data adalah mata uang baru! Hal ini membuat raksasa teknologi menjadi perusahaan terkaya di dunia. Investasi terbaik untuk beberapa dekade mendatang adalah investasi data. Jadi, apa yang dilakukan perusahaan-perusahaan ini dengan data ini? Bagaimana orang bisa menangani bagian data tekstual dan tidak terstruktur dari posting Facebook, Twitter atau Linkedin? Bagi orang awam, memindai atau mengambil sampel mungkin terdengar seperti ide yang bagus, namun, data scientist mengetahui risiko pengambilan sampel dan kesulitan memindai teks demi teks, baris demi baris, dan kata demi kata ?. Di sinilah para ahli data menggunakan “Ekstraksi frase-kunci”.

Ekstraksi frase kunci adalah keterampilan untuk mengevaluasi teks tidak terstruktur dan mengembalikan daftar frase kunci. Misalnya, dengan teks input “Makanannya enak dan stafnya luar biasa”, layanan mengembalikan poin pembicaraan utama: “makanan” dan “staf yang luar biasa”.

Apa yang Akan Kita Bahas?

Dalam cerita ini, kami akan mengekstrak frase kunci menggunakan algoritma RAKE dengan Python pada kumpulan sampel data dan kemudian memvisualisasikannya di Microsoft Power BI.

Berikut link untuk sample data yang akan kita gunakan: Sample Data

Apa itu RAKE?

RAKE adalah kependekan dari Algoritma Ekstraksi Kata Kunci Otomatis Cepat, ini adalah algoritma ekstraksi kata kunci tanpa domain yang mencoba menentukan frase kunci dalam tubuh teks dengan menganalisis frekuensi kemunculan kata dan kemunculannya bersama kata lain dalam teks.

Sumber Daya Diperlukan

Contoh Python (yaitu Spyder) Microsoft Power BI Desktop (Lisensi Pro) (OPSIONAL) Langganan Microsoft Azure (Uji Coba Gratis atau Berbayar) untuk menghubungkan frasa kunci bersama dengan sentimen.

Apakah kamu siap?? Ini dia ?

Langkah 1: Instal paket RAKE dan simpan daftar kata stop

1.1 Instalasi: Buka instance Python (yaitu Spyder ?) dan jalankan perintah di bawah ini untuk menginstal paket rake.

! pip install python-rake == 1.4.4
Menginstal paket algoritma RAKE dalam instance Spyder Python

1.2 Membuat daftar kata berhenti: Kata-kata berhenti adalah kata-kata yang umumnya tidak membantu dalam analisis teks dan biasanya dibuang dalam semua sistem informasional dan juga tidak termasuk dalam berbagai analisis teks karena dianggap tidak berarti. Kata-kata yang dianggap mengandung makna yang berkaitan dengan teks digambarkan sebagai bantalan isi dan disebut kata-kata isi. Anda dapat mengunduh daftar stopwords di sini dan menyesuaikannya sesuai kebutuhan Anda. Simpan di lokasi yang diinginkan dan salin jalur untuk mengkonfigurasi skrip Python.

Contoh stopwords

Langkah 2: Buka Power BI, Impor Data & Konfigurasi skrip Python

2.1 Impor Data Power BI: Buka instance baru desktop Power BI >> Impor Data dari Excel (Data Sampel) >> Jelajahi file data sampel >> Impor data >> Memanggil “Jalankan skrip Python” di Power Query Editor (Di Bawah Transformasi )

Memanggil “Jalankan skrip Python” di Power Query Editor

2.2 Siapkan Skrip Python Anda: Anda dapat menggunakan skrip Python di bawah ini dan menyesuaikannya dengan mengganti jalur untuk daftar stopwords di baris 11.

Selain itu, Anda dapat menentukan / membatasi # dari frasa kunci yang akan diekstraksi dengan mengubah jumlah di baris 31 (yaitu mengganti [-1:] untuk [-5:] untuk mendapatkan hingga 5 frasa kunci dari 1 masukan teks)

https://medium.com/media/e494935653379821616b3ed2ad76d8a6/href

Setelah selesai dengan kustomisasi, Anda dapat menerapkan skrip dan memperluas kumpulan data “Rake_Final_Output”. Anda bisa menyimpan dan menutup editor Power query untuk menerapkan skrip. Beginilah tampilan kumpulan data Anda setelah kolom baru ditambahkan untuk frasa kunci dan skornya.

Power BI Dataset dengan Key-phrases dan Scores

Langkah 3: Integrasi dan Visualisasi Power BI

Sekarang sampai pada bagian menyenangkan yang kita semua sukai, visualisasi! ?

Untuk memvisualisasikan frasa kunci, saya akan merekomendasikan untuk menggunakan Word Cloud ☁️ bersama dengan tabel sebaiknya dengan analisis sentimen ?, sehingga Anda dapat menghubungkan frasa kunci dengan sentimen positif, netral dan negatif.

Anda dapat mengunduh contoh templat Power BI yang mengintegrasikan analisis sentimen serta ekstraksi frase kunci yang semuanya dikemas bersama dalam Power BI.

Seperti yang Anda lihat pada contoh di bawah, kami memiliki “10 Frase kunci teratas dengan sentimen negatif” di mana frasa seperti “Koneksi Lebih Lambat” dan “mulai ulang 10 kali” berkorelasi langsung dengan sentimen negatif ?

Awan kata dengan korelasi Sentimen Negatif

Demikian pula, kami memiliki “10 Frase Utama dengan sentimen positif” di mana frasa seperti “dijelaskan dengan rapi” dan “pengetahuan mendalam yang hebat” secara langsung berkorelasi dengan sentimen positif ?.

Word Cloud dengan korelasi Sentimen Positif

Kesimpulan

Kami mempelajari ? cara menerapkan algoritme RAKE untuk mengekstrak frasa kunci dan mengintegrasikan analisis di Microsoft Power BI untuk mengembangkan visualisasi.

Anda dapat menggunakan kumpulan data lain dan menyesuaikan kodenya untuk melihat mana yang paling sesuai dengan kasus penggunaan Anda! ?

Menemukan pendekatan yang berbeda untuk ekstraksi frase kunci? Silakan letakkan di komentar!

Referensi

[1] https://docs.microsoft.com/en-us/azure/cognitive-services/text-analytics/tutorials/tutorial-power-bi-key-phrases

[2] https://towardsdatascience.com/analyzing-and-visualizing-sentiments-from-unstructured-raw-data-c263ba96cc2c

[3] Sumber data: disiapkan secara manual oleh Penulis

Ekstraksi dan Visualisasi Frasa Kunci: Python dan Power BI awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Towards AI