Apa, Mengapa, dan Bagaimana?

– Menuju AI – Teknologi, Sains, dan Teknik Terbaik


Penulis: Daksh Trehan

Pembelajaran Mesin, Pemrosesan Bahasa Alami

Buku pegangan pemula lengkap untuk NLP

Daftar Isi:

Apa itu Natural Language Processing (NLP)? Bagaimana cara kerja Natural Language Processing? Tokenisasi Stemming & Lemmatization Stop Words Regex bag of sayings N-gram TF-IDF

Pernah bertanya-tanya bagaimana pencarian Google menunjukkan dengan tepat apa yang ingin Anda lihat? “Puma” dapat berupa perusahaan hewan atau sepatu, tetapi bagi Anda, sebagian besar adalah perusahaan sepatu dan google mengetahuinya!

Bagaimana ini bisa terjadi? ) Bagaimana mesin pencari memahami apa yang ingin Anda katakan?

Bagaimana chatbots menjawab pertanyaan yang Anda ajukan dan tidak pernah menyimpang? Bagaimana Siri, Alexa, Cortana, Bixby bekerja?

Foto oleh Lazar Gugleta di Unsplash

Ini semua adalah keajaiban Natural Language Processing (NLP).

Apa itu Natural Language Processing?

Komputer terlalu bagus untuk bekerja dengan information tabel / terstruktur, mereka dapat dengan mudah mengambil fitur, mempelajarinya dan menghasilkan keluaran yang diinginkan. Tetapi, untuk menciptakan dunia virtual yang kuat, kita membutuhkan beberapa teknik yang dengannya kita dapat membiarkan mesin memahami dan berkomunikasi seperti yang dilakukan manusia, yaitu melalui bahasa alami.

Pemrosesan Bahasa Alami adalah subbidang Kecerdasan Buatan yang berhubungan dengan mesin dan bahasa manusia. Ini digunakan untuk memahami makna logis dari bahasa manusia dengan memperhatikan berbagai aspek seperti morfologi, sintaksis, semantik, dan pragmatik.

Beberapa aplikasi NLP adalah:

Transliterasi Mesin. Pengenalan suara. Analisis Sentimen. Peringkasan Teks. Chatbot. Klasifikasi Teks. Pengakuan Karakter. Pengecekan ejaan. Deteksi Spam. Pelengkapan Otomatis. Pengakuan Entitas Bernama.

Bagaimana cara kerja Natural Language Processing?

Bahasa manusia tidak mengikuti seperangkat aturan yang jelas, kami berkomunikasi secara ambigu. “Oke” dapat digunakan beberapa kali dan tetap memberikan arti yang berbeda dalam kalimat yang berbeda.

Jika kita ingin mesin kita akurat dengan bahasa alami, kita perlu memberi mereka seperangkat aturan tertentu dan harus mempertimbangkan berbagai faktor lain seperti struktur tata bahasa, semantik, sentimen, pengaruh kata-kata di masa lalu dan masa depan.

Tahapan NLP, Sumber

Analisis Leksikal: Bertanggung jawab untuk memeriksa struktur kata, dilakukan dengan memecah kalimat dan paragraf menjadi sekumpulan teks.

Analisis Sintaksis: Ini berperan ketika kita mencoba memahami hubungan gramatikal antara kata-kata. Ini juga membutuhkan bantuan pengaturan kata-kata untuk menghasilkan makna yang benar dan logis.

Misalnya”pergi ke sekolah that he”, ini secara logis benar tetapi secara tata bahasa, pengaturan kata yang lebih baik akan banyak membantu.

Analisis Semantik: Kita tidak bisa benar-benar mendapatkan arti sebuah kalimat hanya dengan menggabungkan arti kata-kata di dalamnya. Kita perlu mempertimbangkan faktor-faktor lain seperti pengaruh kata-kata di masa lalu dan masa depan. Inilah cara analisis Semantik membantu.

Misalnya”api dingin” mungkin tampak benar secara tata bahasa tetapi secara logis tidak relevan, sehingga akan dibuang oleh Semantic Analyzer.

Integrasi Pengungkapan: Ini mengikuti pendekatan yang didefinisikan dengan baik untuk memperhitungkan pengaruh pernyataan masa lalu untuk menghasilkan arti dari pernyataan berikutnya.

misalnya “Tom menderita keracunan makanan karena dia makan sampah”. Sekarang dengan menggunakan kalimat ini kita dapat menyimpulkan bahwa Tom telah mengalami sebuah tragedi dan itu adalah kesalahannya, tetapi jika kita menghapus beberapa frase atau hanya mempertimbangkan beberapa frase, artinya dapat diubah.

Analisis Pragmatis: Ini membantu untuk menemukan makna tersembunyi dalam teks yang membutuhkan pemahaman yang lebih dalam tentang pengetahuan bersama dengan konteksnya.

misalnya, “Tom tidak dapat membeli mobil karena dia tidak punya uang.”

“Tom tidak akan mendapatkan mobil karena dia tidak membutuhkannya.”

Arti”that he” dalam two kalimat tersebut sangat berbeda dan untuk mengetahui perbedaannya, kita membutuhkan pengetahuan dunia dan konteks dimana kalimat dibuat.

Tokenisasi

Tokenisasi dapat didefinisikan sebagai pemutusan kalimat atau kata-kata dalam bentuk yang lebih pendek. Ide yang diikuti bisa jadi, jika kita mengamati tanda baca dalam kalimat, hancurkan segera, dan untuk kata-kata jika kita melihat karakter spasi membagi kalimat.

Tokenisasi Kalimat

https://medium.com/media/aa1cf67500058f03baabd0e9620bb0f7/href

Sebagai keluaran, kami mendapatkan dua kalimat terpisah.

Google adalah mesin pencari hebat yang mengungguli Yahoo dan Bing. Itu ditemukan pada tahun 1998

Tokenisasi Kata

https://medium.com/media/ec5bac56b8389bd547f7a1e4a52938a6/href

Keluaran:

[‘Google’, ‘is’, ‘a’, ‘great’, ‘search’, ‘engine’, ‘that’, ‘outperforms’, ‘Yahoo’, ‘and’, ‘Bing’, ‘.’]
[‘It’, ‘was’, ‘found’, ‘in’, ‘1998’]

Stemming & Lemmatization

Secara gramatikal, berbagai bentuk kata dasar memiliki arti yang sama dengan variasi stressed, use instance. Sebagai ilustrasi, drive, driving, drive, push semua cara yang sama secara logis tetapi digunakan dalam skenario yang berbeda.

Untuk mengubah kata tersebut menjadi bentuk generiknya, kami menggunakan Stemming dan Lemmatization.

Stemming:

Teknik ini cenderung menghasilkan akar kata dengan memformatnya menjadi kata dasar menggunakan algoritme yang dihasilkan mesin.

misalnya”mempelajari”,”mempelajari”,”mempelajari”,”mempelajari” semuanya akan diubah menjadi”studi” dan bukan”belajar” (yang merupakan akar kata yang akurat).

Keluaran Stemming mungkin tidak selalu sejalan dengan logika tata bahasa dan semantik dan itu karena Stemming sepenuhnya didukung oleh algoritme.

Berbagai jenis Stemmer adalah:

Porter Voices Snowball Voices Lovin Voices Dawson Voices

Lemmatisasi:

Lemmatization mencoba untuk mencapai theme dari Stemming tetapi bukan algoritma yang dihasilkan komputer itu didasarkan pada kamus kata yang dibuat manusia dan mencoba untuk menghasilkan kata-kata berbasis kamus.

Ini seringkali lebih akurat.

misalnya”mempelajari”,”mempelajari”,”mempelajari”,”mempelajari” semuanya akan diubah menjadi”mempelajari” (yang merupakan akar kata yang akurat).

Keluaran:

Suara: belajar
Lemmatizer: belajar

Stemming vs Lemmatization

Baik Stemming dan Lemmatization berguna untuk kasus penggunaan sentris mereka tetapi secara umum, jika tujuan version kami adalah untuk mencapai akurasi yang lebih tinggi tanpa tenggat waktu, kami lebih suka lemmatisasi. Tetapi jika theme kami adalah keluaran cepat, Stemming lebih disukai.

Hentikan Kata-kata

Cease words adalah kata-kata yang perlu disensor oleh dokumen kami. Ini adalah kata-kata yang tidak relevan yang biasanya tidak berkontribusi pada makna logis teks tetapi membantu dalam penataan tata bahasa. Saat menerapkan version matematika kami ke teks, kata-kata ini dapat menambahkan banyak sound sehingga mengubah hasilnya.

Kata berhenti biasanya mencakup kata-kata yang paling umum seperti”a”,”the”,”at”,”he”,”Id”,”me”,”myself”.

https://medium.com/media/5840f682bb772369cb871e1f73a96820/href

Keluaran:

[‘i’, ‘me’, ‘my’, ‘myself’, ‘we’, ‘our’, ‘ours’, ‘ourselves’, ‘you’, “you’re”, “you’ve”, “you’ll”, “you’d”, ‘your’, ‘yours’, ‘yourself’, ‘yourselves’, ‘he’, ‘him’, ‘his’, ‘himself’, ‘she’, “she’s”, ‘her’, ‘hers’, ‘herself’, ‘it’, “it’s”, ‘its’, ‘itself’, ‘they’, ‘them’, ‘their’, ‘theirs’, ‘themselves’, ‘what’, ‘which’, ‘who’, ‘whom’, ‘this’, ‘that’, “that’ll”, ‘these’, ‘those’, ‘am’, ‘is’, ‘are’, ‘was’, ‘were’, ‘be’, ‘been’, ‘being’, ‘have’, ‘has’, ‘had’, ‘having’, ‘do’, ‘does’, ‘did’, ‘doing’, ‘a’, ‘an’, ‘the’, ‘and’, ‘but’, ‘if’, ‘or’, ‘because’, ‘as’, ‘until’, ‘while’, ‘of’, ‘at’, ‘by’, ‘for’, ‘with’, ‘about’, ‘against’, ‘between’, ‘into’, ‘through’, ‘during’, ‘before’, ‘after’, ‘above’, ‘below’, ‘to’, ‘from’, ‘up’, ‘down’, ‘in’, ‘out’, ‘on’, ‘off’, ‘over’, ‘under’, ‘again’, ‘further’, ‘then’, ‘once’, ‘here’, ‘there’, ‘when’, ‘where’, ‘why’, ‘how’, ‘all’, ‘any’, ‘both’, ‘each’, ‘few’, ‘more’, ‘most’, ‘other’, ‘some’, ‘such’, ‘no’, ‘nor’, ‘not’, ‘only’, ‘own’, ‘same’, ‘so’, ‘than’, ‘too’, ‘very’, ‘s’, ‘t’, ‘can’, ‘will’, ‘just’, ‘don’, “don’t”, ‘should’, “should’ve”, ‘now’, ‘d’, ‘ll’, ‘m’, ‘o’, ‘re’, ‘ve’, ‘y’, ‘ain’, ‘aren’, “aren’t”, ‘couldn’, “couldn’t”, ‘didn’, “didn’t”, ‘doesn’, “doesn’t”, ‘hadn’, “hadn’t”, ‘hasn’, “hasn’t”, ‘haven’, “haven’t”, ‘isn’, “isn’t”, ‘ma’, ‘mightn’, “mightn’t”, ‘mustn’, “mustn’t”, ‘needn’, “needn’t”, ‘shan’, “shan’t”, ‘shouldn’, “shouldn’t”, ‘wasn’, “wasn’t”, ‘weren’, “weren’t”, ‘won’, “won’t”, ‘wouldn’, “wouldn’t”]

Regex

Regex adalah kependekan dari Frequent yang, yang dapat didefinisikan sebagai sekelompok series yang mendefinisikan pola pencarian.

W – cocok dengan semua kata d – cocok dengan semua angka W – kata tidak cocok dengan kata D – kata tidak cocok dengan angka S – kata tidak cocok dengan spasi
[abc] – cocok dengan salah satu dari a, alpha, atau c
[^abc] – tidak cocok dengan a, alpha, atau c
[a–z] – mencocokkan karakter antara huruf a & z yaitu
[1-100] – mencocokkan karakter antara 1 & 100

https://medium.com/media/790deed5c898e7a2784c41892acb7647/href

Keluaran:

Google adalah mesin pencari hebat yang mengungguli Yahoo dan Bing. Itu ditemukan di.

bag of expressions

Algoritme Pembelajaran Mesin sebagian besar didasarkan pada komputasi matematika, mereka tidak dapat langsung bekerja dengan information tekstual. Untuk membuat algoritme kami kompatibel dengan bahasa alami, kami perlu mengonversi information tekstual mentah kami ke angka. Teknik ini dikenal sebagai Ekstraksi Fitur.

BoW (Bag of expressions ) adalah contoh teknik Ekstraksi Fitur, yang digunakan untuk menentukan kemunculan setiap kata dalam teks.

Teknik kerjanya sesuai namanya, kata-katanya disimpan di kantong tanpa ada pesanan. Motifnya adalah untuk memeriksa apakah kata masukan yang diumpankan ke version kita ada dalam korpus kita atau tidak.

misalnya

Daksh, Lakshay, dan Meghna adalah teman baik. Daksh itu keren. Lakshay itu kutu buku. Meghna gila. Membuat struktur dasar:
Menemukan frekuensi setiap kata:
Menggabungkan keluaran dari langkah sebelumnya:

d. Hasil akhir:

Ketika korpus masukan kita meningkat, ukuran kosakata bertambah sehingga meningkatkan representasi vektor yang mengarah ke banyak nol di vektor kita, vektor ini dikenal sebagai vektor renggang dan lebih kompleks untuk dipecahkan.

Untuk membatasi ukuran representasi vektor, kita dapat menggunakan beberapa teknik pembersihan teks:

Abaikan tanda baca. Hapus kata Berhenti. Mengonversi kata menjadi bentuk generiknya (Stemming and Lemmatization) Ubah teks masukan menjadi huruf kecil untuk keseragaman.

N-gram

N-gram adalah teknik yang ampuh untuk membuat kosakata sehingga memberikan kekuatan lebih pada version BoW. N-gram adalah kumpulan thing”n” yang dikelompokkan.

Unigram adalah kumpulan satu kata, bigram adalah kumpulan dua kata, trigram terdiri dari tiga thing, dan seterusnya. Mereka hanya berisi urutan yang sudah tersedia dan tidak semua kemungkinan urutan sehingga membatasi ukuran korpus.

Contoh
Dia akan pergi ke sekolah besok.

TF-IDF

Period Frequency-Inverse Document Frequency (TF-IDF) adalah ukuran untuk menghasilkan skor untuk menentukan relevansi setiap istilah dalam dokumen.

TF-IDF didasarkan pada gagasan Term Frequency (TF) dan Inverse Document Frequency (IDF).

TF menyatakan bahwa jika sebuah kata diulang beberapa kali, itu berarti kata tersebut sangat penting dibandingkan dengan kata lain.

Menurut IDF, jika kata yang lebih sering muncul bahkan ada di dokumen lain, maka kata itu tidak memiliki relevansi yang tinggi.

Kombinasi TF dan IDF menghasilkan skor untuk setiap kata, membantu version pembelajaran mesin kami mendapatkan teks relevan tinggi yang tepat dari dokumen.

Skor TF-IDF berbanding lurus dengan frekuensi kata, tetapi berbanding terbalik dengan frekuensi kata yang tinggi dalam dokumen lain.

TF-IDF untuk expression tertentu x dalam dokumen y, SourceTerm Frequency (TF): Memeriksa frekuensi kata.
Inverse Term Frequency (ITF): Memeriksa kelangkaan kata.

Menggabungkan rumus di atas, kita dapat menyimpulkan:

Kesimpulan

Artikel ini membantu kami menjelaskan Pemrosesan Bahasa Alami dan semua terminologi dan teknik dasarnya. Jika Anda ingin menggali lebih dalam di NLP menggunakan Jaringan Neural, Anda dapat membaca lebih lanjut tentang Jaringan Neural Berulang, LSTM & GRU.

Referensi:

[1] NLP – Zero to Hero dengan Python. Buku pegangan untuk mempelajari NLP dengan dasar-dasar… | oleh Amit Chauhan | Menuju AI

[2] Pemrosesan Bahasa Alami (NLP): Apa Artinya & Bagaimana Cara Kerjanya? (monkeylearn.com)

[3] Pengantar Pemrosesan Bahasa Alami untuk Teks | oleh Ventsislav Yordanov | Menuju Ilmu Data

[4] Pemrosesan Bahasa Alami (NLP) dengan Python – Tutorial | oleh Menuju Tim AI | Menuju AI

Jangan ragu untuk terhubung:

Portofolio ~ https://www.dakshtrehan.com

LinkedIn ~ https://www.linkedin.com/in/dakshtrehan

Ikuti untuk website Machine Learning / Deep Learning lebih lanjut.

Sedang ~ https://medium.com/@dakshtrehan

Ingin mempelajari lebih lanjut? )

Apakah Anda Siap Menyembah Dewa AI? )
Mendeteksi COVID-19 Menggunakan Deep Learning
Algoritma AI yang Tak Terelakkan: TikTok
GPT-3 Dijelaskan kepada anak berusia 5 tahun.
Tinder + AI: How Jodoh yang sempurna? )
Panduan orang dalam untuk Kartunisasi menggunakan Machine Learning
Memperkuat Ilmu Dibalik Pembelajaran Penguatan
Ilmu decoding di balik Generative Adversarial Networks
Memahami LSTM dan GRU
Jaringan Neural Berulang untuk Dummies
Convolution Neural Network for Dummies

Bersulang

Pemrosesan Bahasa Alami: Apa, Mengapa, dan Bagaimana? Awalnya diterbitkan di Limit AI on Moderate, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Towards AI