NLP Cypher | 05.23.21 – Menuju AI – Teknologi, Sains, dan Teknik Terbaik

Penulis: status kuantum

Foto oleh Timothy Eberly di Unsplash

PENGOLAHAN BAHASA ALAM (NLP) WEEKLY NEWSLETTER

Lembur

Hai Selamat datang kembali, satu minggu lagi telah berlalu dan begitu banyak kode / penelitian telah dirilis ke alam liar.

Oh dan btw, Indeks NLP aktif ???, dan saya ingin berterima kasih kepada semua kontributor!

Berikut sekilas tentang kontribusi yang luar biasa: Kumpulan kumpulan data NLP Medis Spanyol yang dipersembahkan oleh Salvador Lima di Barcelona untuk Anda. ?? Akan memperbarui Indeks NLP dengan aset ini dan aset lainnya besok.

Cantemist (kasus klinis onkologi untuk penambangan teks kanker): https://zenodo.org/record/3978041

PharmaCoNER (Zat Farmakologis, Senyawa dan protein dalam laporan kasus klinis Spanyol): https://zenodo.org/record/4270158

CodiEsp (Abstrak dari Lilacs dan Ibecs dengan kode ICD10): https://zenodo.org/record/3606662

MEDDOCAN (Anonimisasi Dokumen Medis): https://zenodo.org/record/4279323

MESINESP2 (Pengindeksan Semantik Medis): https://zenodo.org/record/4722925

Wav2vec-U: Pengenalan Ucapan Tanpa Pengawasan ?

Model FAIR baru ini tidak memerlukan transkripsi untuk mempelajari pidato. Itu hanya membutuhkan rekaman dan teks pidato tanpa pengawasan. Mereka menggunakan GAN untuk membantu membedakan fonem (bunyi bahasa). Meskipun Wav2vec-U tidak mencapai SOTA pada benchmark Librispeech, Wav2vec-U masih mendapatkan skor yang cukup bagus mengingat fakta tidak memerlukan 960 jam data ucapan yang ditranskrip. ?

Blog:

wav2vec Tanpa pengawasan: Pengenalan ucapan tanpa pengawasan

Kode:

pytorch / fairseq

Polars Dataframes ?

Jika Anda sering menggunakan kerangka data, Anda harus memeriksa Polars. Ini adalah pustaka kerangka data mengagumkan yang ditulis dalam Rust (termasuk binding Python). Hadir dengan dukungan Arrow dan semua kemegahannya termasuk file parket dan dukungan AWS S3 IO.

rs-bidang / kutub

Dokumen:

Polars – Panduan Pengguna

Universitas Amsterdam | Notebook dan Tutorial

University of Amsterdam memiliki koleksi notebook colab yang memadukan berbagai domain termasuk GNN, Transformers, dan computer vision.

Berikut TOC mereka:

Tutorial 2: Pengantar PyTorch

Tutorial 3: Fungsi aktivasi

Tutorial 4: Optimasi dan Inisialisasi

Tutorial 5: Inception, ResNet dan DenseNet

Tutorial 6: Transformers dan Perhatian Multi-Kepala

Tutorial 7: Membuat Grafik Jaringan Neural

Tutorial 8: Model Energi Dalam

Tutorial 9: Autoencoder

Tutorial 10: Serangan Musuh

Tutorial 11: Normalisasi Arus

Tutorial 12: Pemodelan Gambar Autoregressive

Selamat datang di Tutorial Pembelajaran Mendalam UvA! – Dokumentasi UvA DL Notebooks v1.0

KELM | Mengonversi WikiData ke Bahasa Alami

Google memperkenalkan kumpulan data KELM dalam kemenangan besar bagi para kutu buku factoid. Datasetnya adalah grafik pengetahuan Wikidata yang diubah menjadi bahasa alami dengan gagasan menggunakan korpus untuk meningkatkan pengetahuan faktual dalam model yang telah dilatih sebelumnya! Sebuah T5 digunakan untuk konversi ini. Korpus terdiri dari ~ 18 juta kalimat yang mencakup ~ 45 juta tripel dan ~ 1500 relasi.

KELM: Mengintegrasikan Grafik Pengetahuan dengan Korpora Pra-pelatihan Model Bahasa

Berbicara tentang grafik pengetahuan…

Pengantar Grafik Pengetahuan

Tidak Ada Pencarian Sampah!

Tidak Ada Pencarian Sampah

LabML.AI Annotated PyTorch Papers

Belajar dari makalah akademis yang dianotasi dengan kode yang sesuai. Cukup keren jika Anda ingin menguraikan penelitian.

labml.ai Implementasi Kertas PyTorch Beranotasi

Tugas yang Sepenuhnya Normal (alias tidak mencurigakan)

applicationaai / kleister-charity

Repo Cypher ?‍?

Koleksi repo yang baru-baru ini dirilis yang menangkap our kami

Mengukur Kompetensi Coding Challenge Dengan APPS

Tolok ukur untuk pembuatan kode.

Simak hasil GPT-Neo jika dibandingkan dengan GPT-2/3, sangat menarik.

kertas

hendrycks / apps

Makalah Terhubung ?

wikipiifed – Pembuatan Kumpulan Data Otomatis dan Pembelajaran Gabungan

Repo untuk mengotomatiskan pembuatan set data dari halaman biografi wikipedia dan memanfaatkan set data untuk pembelajaran federasi dari pengenal entitas bernama berbasis BERT.

ratmcu / wikipiifed

Makalah Terhubung ?

Tolok Ukur OpenMEVA

OpenMEVA adalah tolok ukur untuk mengevaluasi pembuatan cerita terbuka.

thu-coai / OpenMEVA

Makalah Terhubung ?

KLUE: Evaluasi Pemahaman Bahasa Korea

Tolok ukur KLUE terdiri dari 8 tugas:

Klasifikasi Topik (TC) Kalimat Kesamaan Tekstual (STS) Natural Language Inference (NLI) Named Entity Recognition (NER) Relation Extraction (RE) (Part-Of-Speech) + Dependency Parsing (DP) Machine Reading Comprehension (MRC) Pelacakan Status Dialog (DST)

KLUE-benchmark / KLUE

Makalah Terhubung ?

Terjemahan Mesin Kontekstual

Model peka konteks untuk terjemahan mesin tingkat dokumen. Juga termasuk SCAT, kumpulan data Inggris-Prancis yang terdiri dari kata-kata konteks pendukung untuk terjemahan 14K yang menurut penerjemah profesional berguna untuk disambiguasi kata ganti.

Sebagian besar model MT berada di level kalimat, jadi ini adalah repo yang menarik bagi mereka yang ingin naik ke level dokumen.

neulab / kontekstual-mt

Makalah Terhubung ?

Set Data Minggu Ini: Beberapa NERD

Apa itu?

Few-NERD adalah kumpulan data pengenalan entitas berskala besar dan terperinci yang dianotasi secara manual, yang berisi 8 jenis berbutir kasar, 66 jenis berbutir halus, 188.200 kalimat, 491.711 entitas, dan 4.601.223 token. Tiga tugas benchmark dibangun, satu diawasi: Few-NERD (SUP) dan dua lainnya adalah few-shot: Few-NERD (INTRA) dan Few-NERD (INTER).

Sampel (dalam format NER umum)

Antara O
1789 O
dan O
1793 O
a O
duduk O
adalah O
ke
komite O
meninjau O
yang O
administrasi MISC-hukum
konstitusi MISC-hukum
MISC-hukum
Hukum Galicia MISC
ke O
sedikit O
efek O
. HAI

Dimana itu?

thunlp / Few-NERD

Setiap hari Minggu kami melakukan pengumpulan mingguan berita NLP dan penurunan kode dari para peneliti di seluruh dunia.

Untuk liputan lengkap, ikuti Twitter kami: @Quantum_Stat

keadaan kuantum

https://medium.com/media/1f3e87f6aa06bee149000ccc2396c977/href

NLP Cypher | 05.23.21 awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyorot dan menanggapi cerita ini.

Diterbitkan melalui Towards AI