NLP- Pemrosesan Bahasa Alami – Menuju AI – Teknologi, Sains, dan Teknik Terbaik

Penulis: Buse Yaren Tekin

Pemrosesan Bahasa Alami

Foto oleh Edurne Chopeitia di Unsplash

Halo semuanya, dalam artikel ini, saya akan berbicara tentang konsep yang telah terjadi dalam hidup kita dengan perkembangan linguistik dan jaringan saraf tiruan. NLP adalah bahwa mesin masuk akal dengan memahami dan menurunkan bahasa manusia. Mesin dikenal sebagai masalah NP-Hard yang umum terjadi dalam masalah pengoptimalan karena mereka tidak tahu cara menerjemahkan secara khusus selama penerjemahan. Sama seperti pekerjaan banyak program terjemahan, ia memahami kata dan membuat perkiraan dengan cara menganalisis elemen seperti subjek, kata sifat, dan predikat dalam hal tata bahasa.

? Ada beberapa fitur yang harus saya sebutkan, tentunya. Pada hari-hari awal NLP dalam hidup kita, logika kerja didasarkan pada metode berbasis aturan. Namun, dalam pemrosesan bahasa alami, tidak selalu cukup bekerja dengan aturan. Misalnya, ada perbedaan arti antara kata datang dan kata saya datang. Sayangnya, dalam beberapa bahasa tambahan, pekerjaan berbasis aturan tidaklah cukup. Untuk menghilangkan masalah ini, kalimat harus dipecah menjadi blok bangunan terkecil dan dianalisis. Dan dengan membuat estimasi probabilitas antar kata, diberikan integritas makna antar kata.

Gambar oleh Ref[4]

? Dalam Linguistik Komputasi, itu berisi semua aturan tata bahasa dalam bahasa, dan bahasa diformalkan dan diekspresikan dengan model matematika. Pustaka NLTK yang saya gunakan di bawah ini mencakup banyak model dan aturan. Untuk memberi Anda beberapa contoh kecil untuk lebih memahami NLP, asisten pintar (Asisten Google, Siri, Cortana, dll.) Adalah contoh terbaik dari ini. Misalnya, “Apakah maksud Anda?” Bagian, yang mengembalikan Anda sebagai umpan balik dalam pencarian Anda yang hilang di mesin pencari, adalah salah satu contoh bagus dari pemrosesan bahasa alami. Pada area ini search engine melihat relasi makna dari kata-kata tersebut dengan menggunakan metode n-gram dengan memisahkan seluruh kalimat dalam pencarian yang sedang Anda lakukan. Karenanya, ia berhasil mengembalikan kata yang salah eja kepada pengguna.

Gambar oleh penulis

? Mari kita periksa layer bersama jika Anda ingin menganalisis NLP dengan lebih baik. Seperti yang Anda ketahui, bahasa diberikan dari dua sumber, suara dan teks. Perangkat lunak yang memeriksa data teks biasanya bekerja di bidang OCR / Tokenisasi. Namun, dalam beberapa kasus, persepsi teks tidak mencukupi (perlu penekanan, dll.). Ilmu yang mempelajari bunyi disebut fonetik (ilmu bunyi).

Gambar oleh Ref[2]

? Melihat pada lapisan, Morfologi, yang disebut lapisan ke-2, adalah lapisan yang sangat sering digunakan NLP. Dalam lapisan yang disebut morfologi, artinya disimpulkan dengan melakukan pemisahan sufiks dan akar kata. Ekspresi Reguler (Regular Expressions), yang sering dijumpai dalam Teori Automata, banyak digunakan dalam Morfologi.

? Pada lapisan ketiga, lapisan Sintaks (Segmentasi Kata), di mana kata-kata yang muncul dalam kalimat ditentukan, dan arti kata dapat berubah sesuai dengan analisis ini. Dengan kata lain, struktur kalimat menjadi bermakna dengan analisis. Pada tahap ini, kita dapat memikirkan kesalahan sintaks dari bahasa pemrograman apa pun. Setiap bahasa memiliki struktur Sintaks yang unik. Misalnya pada bahasa pemrograman C; Kesalahan sintaks terjadi bahkan saat tidak digunakan. Di sini, juga, aturan kerja masing-masing bahasa pada pemrosesan bahasa alami dikedepankan. Dalam beberapa bahasa tingkat tinggi, situasi ini bahkan dapat memberikan kesalahan selama pengkodean tanpa menunggu operasi.

Gambar oleh penulisGambar oleh penulis

? Terdapat inferensi makna berbasis kata pada layer Semantic, yaitu 4 layer. Seperti diketahui dari Semantic UI, makna kata semantik diekspresikan sebagai Analisis Semantik. Ini menganalisis secara morfologis dengan memisahkan elemen yang diekstraksi satu per satu. Hubungan konsep-konsep ini satu sama lain diperiksa. Konsep Pragmatis dan Wacana di lapisan lain sepenuhnya bergantung pada penggunaan bahasa. Misalnya, konsep Wacana mengungkapkan konteks di mana kata tersebut digunakan. Mari pertimbangkan sebuah bola. Ketika kalimat tersebut dibacakan, kita dapat menyimpulkan apakah bola tersebut adalah bola basket atau bola voli. Ini disebut wacana.

Saya akan mengerjakan Python, bahasa pemrograman yang cocok untuk ilmu data dan kecerdasan buatan. Mereka yang ingin dapat melihat perpustakaan bahasa alami NLTK.

https://medium.com/media/890952d79e8de2db75e180828b9f63cc/href

? Seperti yang Anda lihat pada gambar di atas, kami telah menginstal pustaka NLTK, yang merupakan Natural Language Toolkit, dan mengaktifkan Antarmuka Grafis NLTK untuk dicetak di layar. Anda dapat memiliki semua perpustakaan yang akan kami gunakan melalui antarmuka ini.

Gambar oleh penulis

Kata dan Kalimat Tokenizer??‍♀️

Di antara pustaka yang diunduh ada fungsi yang dapat memisahkan kata dan kalimat satu per satu. Di konsol Python, kami memisahkan kata-kata sebagai berikut.

https://medium.com/media/55eab74ea0681873db117277b4e1111a/href

Gambar oleh penulis

Saya tunjukkan sedikit analisis NLTK untuk memastikan apa yang dikatakan lebih baik dalam pikiran. Ada banyak paket yang dapat Anda unduh dengan Antarmuka Grafis NLTK, dan Anda dapat mengunduhnya sesuai permintaan dan bekerja pada pemrosesan bahasa alami. Saya berharap semua orang melakukan coding dengan baik. ✨

Referensi

https://www.nltk.org

2. Yudhanjaya Wijeratne, Nisansa de Silva, Yashothara Shanmugarajah, Natural Language Processing for Government: Problems and Potential, April 2009.

3. https://towardsdatascience.com/recurrent-neural-networks-and-natural-language-processing-73af640c2aa1

4. https://www.blumeglobal.com/learning/natural-language-processing/

5. Dari Wikipedia, Ensiklopedia Gratis, https://en.wikipedia.org/wiki/Natural_language_processing

NLP- Natural Language Processing awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Towards AI