NLP Cypher | 05.02.21 – Menuju AI – Teknologi, Sains, dan Teknik Terbaik

Penulis: status kuantum

Waspadai Penyihir Cantik | O’Malley

PENGOLAHAN BAHASA ALAM (NLP) WEEKLY NEWSLETTER

Indeks NLP

Sebagai insinyur pembelajaran mesin terapan (alias peretas ?‍? alias ninja terbang ?‍?), saya secara konsisten mencari cara yang lebih baik dan lebih cepat untuk tetap berada di atas sirkuit pembelajaran mendalam dan pengembangan perangkat lunak. Setelah membandingkan berbagai sumber untuk penelitian, kode, dan aplikasi. Saya telah menemukan bahwa sejumlah besar kode NLP yang mengagumkan tidak ada di arXiv dan tidak semua penelitian NLP ada di GitHub. Untuk mendapatkan cakupan yang lebih luas dari penelitian dan kode NLP saat ini, saya telah membuat Indeks NLP! Mesin telusur sesuai jenis yang Anda ketik yang berisi lebih dari 3.000 repositori NLP (diperbarui setiap minggu) ?. Indeks berisi makalah penelitian, tautan ConnectedPapers untuk grafik makalah terkait, dan repo GitHub-nya.

Indeks NLP

Maksud dari platform ini adalah agar para peneliti dan hacker dapat memperoleh informasi secara cepat dan komprehensif tentang segala hal tentang NLP. Dan tidak hanya dari makalah penelitian, tetapi dari aplikasi luar biasa yang dibuat di atas penelitian ini.

Kami telah menyertakan opsi pencarian terbuka (sebagai lawan hanya melayani kategori yang telah ditentukan sebelumnya) karena saling ketergantungan di antara bidang subjek. Artinya, terkadang makalah / repo bisa berisi tentang “grafik pengetahuan” dan “kumpulan data” secara bersamaan dan sulit untuk membedakan topik. Kami lebih suka memberi pengguna opsi untuk mencari database secara terbuka di semua domain / sektor secara bersamaan. Kami juga menyertakan kueri yang telah ditentukan sebelumnya dengan lusinan topik di NLP melalui bilah sisi untuk kenyamanan.

Indeks memiliki beberapa atribut seperti: pencarian saat Anda mengetik, toleransi kesalahan ketik, dan deteksi sinonim.

Deteksi Sinonim

Misalnya, jika Anda mencari “dataset”, database juga akan mencari teks “corpus” dan “corpora” secara bersamaan untuk memastikan setiap aset dicari. ?

Toleransi Ketik

Jika Anda menelusuri “gpt2”, itu juga akan menyertakan “gpt-2”

Telusuri saat Anda mengetik

Ini akan menampilkan hasil pada setiap karakter saat Anda mengetik dalam waktu nyata hanya dalam beberapa milidetik. (terima kasih pemetaan memori ?)

Juga ingin menyebutkan bahwa Big Bad NLP Database telah digabungkan dengan Indeks NLP! Untuk ringkasan paling mutakhir dari kumpulan data NLP, Anda dapat membuka bagian “data” di bilah sisi dan mengeklik kumpulan data atau secara terbuka mencari kumpulan data / tugas tertentu. Akhirnya, saya akan menghentikan URL BBND dan akhirnya mengalihkannya ke Indeks.

Ingin berterima kasih kepada semua dukungan yang saya terima selama seminggu terakhir setelah menjalankan Indeks NLP secara langsung. Terima kasih kepada Philip Vollet karena telah membagikan datasetnya dengan ratusan repo NLP. Anda dapat menemukan postingannya di bagian “Belum Dipetakan”.

Lebih banyak fitur segera hadir. Tetap disini. ?

BERT, Jelaskan Dirimu!

Temukan mengapa BERT membuat kesimpulan menggunakan SHAP (SHapley Additive exPlanations); pendekatan teori permainan untuk menjelaskan keluaran dari model pembelajaran mesin apa pun. Ini memanfaatkan pipa Transformers.

ml6team / quick-tip

Colab of the Week

Google Collaboratory

Lembar Curang AI yang Dapat Dijelaskan

Termasuk grafik, video YouTube, dan beberapa tautan dengan makalah / buku yang membahas topik AI yang dapat dijelaskan.

Panduan AI yang Dapat Dijelaskan

StyleCLIP Terlalu Menyenangkan!

Pengenalan mengagumkan dari Max Woolf tentang penggunaan StyleCLIP (melalui notebook Colab) untuk memanipulasi foto headshot melalui petunjuk teks. Anda bahkan dapat menambahkan gambar Anda sendiri, kualitasnya cukup bagus. Misalnya, lihat pembuatan setelah teks prompt: “Wajah setelah menggunakan indeks NLP” ? ??

Mudah Mengubah Potret Orang menjadi Penyimpangan AI Menggunakan StyleCLIP | Blog Max Woolf

Pembaruan perangkat lunak

AdapterHub

Versi baru termasuk model BART dan GPT-2 ?

Adaptor untuk Model Generatif dan Seq2Seq di NLP

BERTopic

(semi-) pemodelan topik terbimbing dengan memanfaatkan opsi terbimbing di UMAP

model.fit (docs, y = target_classes)

Backend:

Menambahkan Spacy, Gensim, USE (TFHub) Gunakan backend yang berbeda untuk embeddings dokumen dan embeddings kata Buat backend Anda sendiri dengan bertopic.backend.BaseEmbedder Klik di sini untuk melihat ikhtisar semua backend baru

Hitung dan visualisasikan topik per kelas

Hitung: topics_per_class = topic_model.topics_per_class (dokumen, topik, kelas)

Visualisasikan: topic_model.visualize_topics_per_class (topics_per_class)

Rilis Mayor Rilis v0.7 · MaartenGr / BERTopic

Repo Cypher ?‍?

Koleksi repo yang baru-baru ini dirilis yang menangkap our kami

Serangan Adversarial berbasis Gradien terhadap Transformer Teks

Sebuah kerangka kerja tujuan umum, GBDA (Gradient-based Distributional Attack), untuk serangan permusuhan berbasis gradien, dan menerapkannya terhadap model transformator pada data teks.

facebookresearch / text-adversarial-attack

Makalah Terhubung ?

Transformer yang Mudah dan Efisien

Plugin inferensi Pytorch untuk transformer dengan ukuran model besar dan urutan panjang. Saat ini mendukung model GPT-2 dan BERT.

NetEase-FuXi / EET

Makalah Terhubung ?

MDETR: Deteksi yang Dimodulasi untuk Pemahaman Multi-Modal Ujung-ke-Ujung

Kode dan tautan ke model pra-pelatihan untuk MDETR (Modulated DETR) untuk pra-pelatihan tentang data yang memiliki teks dan gambar yang selaras dengan anotasi kotak, serta menyempurnakan tugas-tugas yang membutuhkan pemahaman gambar dan teks yang sangat terperinci.

ashkamath / mdetr

Makalah Terhubung ?

XLM-T – Toolkit Model Bahasa Multibahasa untuk Twitter

Melanjutkan pra-pelatihan pada korpus besar Twitter dalam berbagai bahasa tentang model XLM-Roberta-Base. Termasuk 4 notebook colab.

cardiffnlp / xlm-t

Makalah Terhubung ?

FRANK: Tolok Ukur Evaluasi Faktualitas

Tipologi kesalahan faktual untuk analisis faktualitas yang mendetail dalam sistem peringkasan.

artidoro / terus terang

Makalah Terhubung ?

Kesamaan Dokumen Hukum

Kumpulan metode representasi dokumen canggih untuk tugas mengambil kasus hukum AS yang terkait secara semantik. Berbasis teks (mis., FastText, Transformers), berbasis kutipan (mis., DeepWalk, Poincaré), dan
metode hybrid dieksplorasi.

malteos / legal-document-similarity

Makalah Terhubung ?

Set Data Minggu Ini: Shellcode_IA32 ?‍?

Apa itu?

Shellcode_IA32 adalah kumpulan data yang berisi 20 tahun kode cangkang dari berbagai sumber yang merupakan kumpulan kode cangkang terbesar dalam perakitan yang tersedia hingga saat ini. Kumpulan data ini terdiri dari 3.200 contoh instruksi dalam bahasa assembly untuk IA-32 (versi 32-bit dari Arsitektur Intel x86) dari eksploitasi keamanan yang tersedia untuk umum. Set data digunakan untuk menghasilkan kode shell secara otomatis (tugas pembuatan kode). Program perakitan yang digunakan untuk menghasilkan kode shell dari exploit-db dan dari shell-storm dikumpulkan.

kertas

Dimana itu?

dessertlab / Shellcode_IA32

Setiap hari Minggu kami melakukan pengumpulan mingguan berita NLP dan penurunan kode dari para peneliti di seluruh dunia.

Untuk liputan lengkap, ikuti Twitter kami: @Quantum_Stat

keadaan kuantum

NLP Cypher | 05.02.21 awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyorot dan menanggapi cerita ini.

Diterbitkan melalui Towards AI