ℂ ℝ! – Menuju AI – Teknologi, Sains, dan Teknik Terbaik

Penulis: Ananya Banerjee

Pemrosesan Bahasa Alami

Mengurai Resolusi Coreference di NLP!

Resolusi Coreference

Resolusi Inti adalah salah satu tugas Pemrosesan Bahasa Alami (NLP) yang paling penting. Namun, sebelum kita mulai memahami Resolusi Inti, penting untuk memahami definisi wacana.

Wacana dalam konteks NLP mengacu pada urutan kalimat yang terjadi satu demi satu. Jelas akan ada entitas yang dibicarakan dan kemungkinan rujukan ke entitas tersebut dalam wacana. Kami menggunakan kata “menyebutkan” untuk merujuk pada referensi ini.

Contoh wacana:

Ana adalah Mahasiswa Pascasarjana di UT Dallas. Dia suka bekerja di Natural Language Processing di institut tersebut. Hobinya termasuk ngeblog, menari dan menyanyi.

Di sini, “Ana”, “Pemrosesan Bahasa Alami”, dan “UT Dallas” adalah entitas yang mungkin.

“She” dan “Her” adalah referensi ke entitas “Ana” dan “the institute” adalah referensi ke entitas “UT Dallas”.

Referensi, dalam NLP, adalah proses linguistik di mana satu kata dalam kalimat atau wacana dapat merujuk ke kata atau entitas lain. Tugas menyelesaikan referensi semacam itu dikenal sebagai Resolusi Referensi. Dalam contoh di atas, “She” dan “Her” yang mengacu pada entitas “Ana” dan “the institute” yang mengacu pada entitas “UT Dallas” adalah dua contoh Reference Resolution.

Mari kita rangkum:

Wacana dalam konteks NLP mengacu pada urutan kalimat yang terjadi satu demi satu

Referensi adalah proses linguistik dimana satu kata dalam kalimat atau wacana mengacu pada kata atau entitas lain

Tugas menyelesaikan referensi semacam itu dikenal sebagai Resolusi Referensi.

Resolusi Inti khususnya, adalah proses menyelesaikan kata ganti untuk mengidentifikasi entitas mana yang mereka maksud. Ini juga semacam Resolusi Referensi. Entitas yang diselesaikan dapat berupa orang, tempat, organisasi, atau acara.

Referent adalah obyek yang dirujuk. Misalnya, “Ana” adalah referensi dalam contoh di atas.

Ekspresi rujukan adalah sebutan atau ungkapan linguistik yang diberikan dalam wacana.

Dua atau lebih ekspresi rujukan yang merujuk pada entitas wacana yang sama dikatakan sebagai corefer[1].

Sekarang, mari kita lihat contoh lain untuk memahami hal ini dengan lebih baik.

Contoh Wacana:

“Elon Musk lahir pada 28 Juni 1971. Dia adalah pendiri, CEO, kepala teknisi, dan desainer SpaceX. Pria berusia 49 tahun ini dikenal luas sebagai otak di balik Neuralink. “

Mengacu Ekspresi: Elon Musk, He, The 49 year old

Referensi: Elon Musk

Ekspresi Corefering: {Elon Musk, He}, {Elon Musk, The 49 year old}

Sekarang, setelah kita memahami dasar-dasar resolusi coreference, penting untuk memahami referensi apa yang mungkin ada dalam teks. Pengetahuan tentang jenis referensi membantu kami menyusun strategi untuk menyelesaikannya, jika dan ketika ditemukan.

Referensi biasanya terdiri dari dua jenis: Exaphor dan Endophor. Endophor mengacu pada entitas yang muncul dalam wacana. Sedangkan Exaphor mengacu pada entitas yang tidak muncul dalam wacana.

Contoh Endophor

Kalimat: “Ana suka membaca. Dia baru saja membaca cerita yang luar biasa. ”

Di sini “She” mengacu pada “Ana” yang muncul sebagai kemungkinan rujukan yang disebutkan secara eksplisit dalam wacana.

Contoh Exaphor

Kalimat: “Ambil itu.” (Menunjuk ke suatu objek)

Di sini “itu” mengacu pada objek yang muncul sebagai kemungkinan rujukan untuk objek yang tidak disebutkan secara eksplisit dalam wacana

Ada dua jenis Endophors: Anaphor dan Cataphor. Anafora mengacu pada situasi di mana entitas referensial atau referensi muncul sebelum kata ganti referensi dalam wacana.

Contoh Anaphor

Kalimat: “Ana membeli gaun. Dia menyukainya.”

Di sini “She” merujuk pada “Ana” yang kemunculannya mendahului kemunculan kata ganti referensi “She” dalam wacana.

Sedangkan Cataphor mengacu pada situasi di mana entitas atau referensi muncul lebih lambat dari kata ganti referensi dalam wacana.

Contoh Cataphor

Kalimat: “Saat dia membeli gaun itu, Ana tidak tahu kalau itu robek.”

Di sini “dia” muncul sebelum entitas referensial atau referensi “Ana” dalam wacana. Jadi, ini adalah contoh katafora.

Himpunan ekspresi corefering juga disebut rantai coreference atau cluster. Sekarang, setelah kita memahami jenis referensi apa yang lazim dalam sastra, penting untuk memahami sifat linguistiknya juga.

Memahami sifat linguistik dari hubungan coreference membantu kami memahami cara terbaik melakukan resolusi coreference dan meminimalkan tingkat kesalahan dalam proses.[1]. Hal penting untuk diingat adalah bahwa properti ini dapat berbeda dari satu bahasa ke bahasa lain tergantung pada aturannya. Jadi, harap pastikan bahwa Anda menguasai aturan gramatikal suatu bahasa sebelum mencoba melakukan resolusi coreference. Demi kejelasan artikel ini, kami akan mempertimbangkan bahasa Inggris sebagai bahasa utama kami.

Beberapa sifat linguistik yang akan kita bicarakan adalah:

Nomor dan Kesepakatan Gender

Kebaruan

Peran Tata Bahasa

Kata Kerja Semantik

Pembatasan Seleksi

Sebutan Berulang

Paralelisme

Sekarang, izinkan saya menjelaskan properti ini satu per satu. Kesepakatan Angka pada dasarnya berarti bahwa ekspresi referensi harus setuju dalam angka. Sedangkan Kesepakatan Gender menyiratkan bahwa ekspresi referensi setuju dalam gender. Mari kita lihat contoh masing-masing.

Contoh Perjanjian Gender dan Nomor:

“Analisa bekerja di Google. Dia menyukai pekerjaannya. “

Perjanjian Gender

Di sini, “Analisa” dan “Dia” setuju dengan jenis kelamin Wanita dan jumlahnya setuju, yaitu, hanya satu orang “Analisa” yang bekerja di Google dan karenanya kami menggunakan “Dia” untuk merujuknya daripada menggunakan kata ganti lain seperti “dia”, ” mereka ”, dll. Ini adalah kesepakatan gender dan nomor.

Perjanjian Nomor

Di sini, “kuda” berbentuk jamak. Oleh karena itu, referensi yang digunakan adalah “mereka” untuk merujuk pada entitas “kuda”. Jadi, mereka sepakat dengan angka. Ini adalah kesepakatan nomor.

Properti lain yang perlu diingat adalah peran Gramatikal. Properti ini memanfaatkan sifat gramatikal yang melekat pada kalimat yang memberikan lebih banyak nilai saliency pada entitas subjek dibandingkan dengan entitas objek. Dengan kata lain, kami berasumsi bahwa entitas yang merupakan subjek biasanya lebih penting daripada entitas objek.

Contoh Peran Tata Bahasa

“Ana bekerja di MNC bersama Tia. Dia biasanya bekerja lebih keras. ”

Peran Tata Bahasa

Dalam kalimat ini, kita memiliki “Ana” dan “Tia” sebagai calon referensi untuk kata “Dia”. Di sini “Ana” adalah subjeknya sedangkan “Tia” adalah objeknya. Jadi, dengan mengingat arti-penting, kami menganggap “Ana” lebih mengacu pada “Dia” daripada “Tia”.

Faktor berikutnya yang perlu dipertimbangkan adalah Semantik Kata Kerja. Beberapa kata kerja cenderung memberi lebih banyak arti pada salah satu argumen mereka dibandingkan dengan yang lain saat melakukan analisis semantik.

Contoh Semantik Kata Kerja

“Ana membantu Christa. Dia adalah arsitek di balik proyek tersebut. “

“Ana mengutuk Christa. Dia adalah arsitek di balik proyek tersebut. “

Di sini, pada kalimat pertama, penggunaan kata kerja “membantu” menyiratkan bahwa kemungkinan Ana menjadi arsitek di balik proyek tersebut lebih tinggi daripada Christa. Jadi, “Dia” mengacu pada “Ana” di kalimat pertama.

Namun, pada kalimat kedua, penggunaan kata kerja “mengutuk” menyiratkan bahwa kemungkinan Christa menjadi arsitek di balik proyek tersebut lebih tinggi daripada Ana. Jadi, “Dia” mengacu pada “Christa” di kalimat kedua.

Hal berikutnya yang perlu dipahami adalah Pembatasan Seleksi. Ini menggunakan pengetahuan semantik tentang sebuah kalimat untuk menentukan preferensi rujukan.

Contoh Pembatasan Seleksi

“Saya makan ayam panggang dengan piyama setelah memanggangnya selama tiga jam di dalam oven.”

Pembatasan Seleksi

Di sini, dua kemungkinan referensi untuk “itu” adalah “piyama” dan “ayam”. Penggunaan kata kerja “makan” (“makan” adalah bentuk lampau untuk “makan”) menyiratkan bahwa entitas referensi harus dapat dimakan, sehingga memilih “ayam” sebagai referensi untuk “itu”.

Fitur penting lainnya yang perlu dipahami adalah Penyebutan Berulang. Fitur atau properti ini mengatakan bahwa jika suatu entitas atau sekumpulan entitas dirujuk berulang kali dalam wacana, maka kemungkinan mereka menjadi referensi yang mungkin meningkat secara eksponensial.

Contoh Penyebutan Berulang[2]

“John membutuhkan sebuah mobil untuk mendapatkan pekerjaan barunya. Dia memutuskan bahwa dia menginginkan sesuatu yang sporty. Bill pergi ke dealer Acura bersamanya. Dia membeli Integra. ”

Sebutan Berulang

Di sini, penyebutan “John” yang berulang kali dibandingkan dengan “Bill” karena titik fokusnya menyiratkan bahwa “He” merujuk pada “John” dan bukan “Bill”.

Terakhir, kami berbicara tentang Paralelisme. Properti ini lebih mementingkan referensi jika dapat menarik properti serupa dalam hal informasi sintaksis dan semantik dari kalimat lain.

Contoh Paralelisme[2]

Mary pergi bersama Sue ke dealer Acura.

Sally pergi bersamanya ke dealer Mazda.

Paralelisme

Di sini, “dia” mengacu pada Sue karena kedua kalimat tersebut menyiratkan struktur sinataktik dan semantik yang serupa dan kita dapat menarik kesejajaran di antara keduanya.

Harap perhatikan bahwa sebagian besar faktor ini lebih valid saat melakukan resolusi referensi anaphoric daripada bentuk resolusi referensi lainnya. Secara khusus, resolusi coreference Exaphoric biasanya jauh lebih sulit untuk dihadapi dan membutuhkan taktik yang sangat berbeda.

Sekarang, setelah Anda memahami apa itu resolusi inti dan cara menyelesaikan referensi jika terjadi ambiguitas, izinkan saya juga menyebutkan secara singkat dua pustaka terkenal yang dapat digunakan untuk resolusi inti referensi. Yang pertama adalah StanfordCoreNLP dan neuralcoref oleh Huggingface. Anda dapat menggunakan salah satu dari mereka untuk membantu memudahkan perjalanan Anda menuju resolusi coreference. Anda juga dapat menguji sistem coreference ini secara online tanpa perlu mengunduh apa pun, di sini dan di sini.

Beberapa dari aplikasi resolusi inti yang paling terkenal dapat ditemukan dalam Terjemahan Mesin, teks, atau tugas pemahaman bahasa alami seperti ekstraksi informasi, menjawab pertanyaan, meringkas, dll.

Saya harap artikel ini membantu Anda memahami dengan lebih baik konsep yang mendasari di balik Resolusi Inti.

Terima kasih telah membaca!

Referensi:

Pemrosesan Pidato dan Bahasa, Edisi ke-3 oleh Dan Jurafsky dan James H. Martin Coreference Resolution dan Discourse Coherence oleh Dr Mithun Balakrishnan

??????????? ℂ?????????? ℝ?????????! awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Towards AI