GPT-3 untuk Perusahaan – Apakah Privasi Data Merupakan Masalah? – Menuju AI – Teknologi, Sains, dan Teknik Terbaik

Penulis: Shubham Saboo

Pemrosesan Bahasa Alami

GPT-3 untuk Perusahaan – Apakah Privasi Data Merupakan Masalah?

GPT-3 mengubah cara bagaimana bisnis dapat memanfaatkan AI untuk memberdayakan produk yang ada dan menghasilkan penawaran produk generasi berikutnya.

Di abad ke-21 ini, privasi data bukanlah pilihan, melainkan mandat…

Gambaran Singkat 💡

Generatif Pra-terlatih Transformer 3 adalah model bahasa autoregresif yang menggunakan pembelajaran mendalam untuk menghasilkan teks seperti manusia. Ini adalah model prediksi bahasa generasi ketiga dalam seri GPT-n yang dibuat oleh OpenAI. GPT-3 adalah ekstensi dan versi yang ditingkatkan dari arsitektur model GPT-2 – Ini mencakup inisialisasi yang dimodifikasi, pra-normalisasi, dan tokenisasi yang dapat dibalik dan menunjukkan kinerja yang kuat pada banyak tugas NLP dalam zero-shot, one-shot, dan pengaturan beberapa bidikan.

Pada grafik di atas, terlihat jelas bagaimana GPT-3 mendominasi semua model kecil dan mendapatkan keuntungan substansial pada hampir semua tugas NLP. Ini didasarkan pada pendekatan pra-pelatihan pada kumpulan data besar yang diikuti dengan penyetelan atau priming untuk tugas tertentu. Sistem AI saat ini memiliki keterbatasan dalam hal kinerja saat beralih di antara berbagai tugas bahasa, tetapi GPT-3 membuatnya sangat fleksibel untuk beralih di antara tugas bahasa yang berbeda dan sangat efisien dalam hal kinerja.

GPT-3 dilatih pada 175 miliar parameter yang membuatnya mampu meniru skenario seperti otak manusia…

GPT-3 menggunakan 175 miliar parameter, yang sejauh ini merupakan jumlah parameter terbesar yang dilatih model. Ini telah memunculkan beberapa wawasan menarik yang menunjukkan kepada kita jika kita dapat meningkatkan pelatihan model bahasa, itu dapat secara signifikan meningkatkan kinerja agnostik tugas, beberapa tembakan sehingga sebanding atau bahkan lebih baik daripada pendekatan SOTA sebelumnya.

Akses ke GPT-3 🗝️

Akses ke GPT-3 diberikan dalam bentuk API. Karena besarnya model, komunitas OpenAI memutuskan untuk tidak merilis keseluruhan model dengan 175 miliar parameter. Berbeda dengan sistem AI saat ini, yang dirancang untuk satu kasus penggunaan, GPT-3 dirancang untuk menjadi tugas-agnostik dan menyediakan antarmuka “teks masuk, teks keluar” tujuan umum, memberikan fleksibilitas kepada pengguna untuk mencobanya di secara virtual untuk tugas bahasa apa pun.

Data bisa ada tanpa informasi, tetapi informasi tidak bisa ada tanpa data!

API dirancang sedemikian rupa sehingga setelah Anda menyediakannya dengan apt text prompt, itu akan memprosesnya di backend pada server OpenAI dan mengembalikan teks lengkap yang mencoba mencocokkan pola yang Anda berikan. Tidak seperti sistem pembelajaran dalam saat ini, yang membutuhkan banyak data untuk mencapai kinerja SOTA, API memerlukan beberapa contoh untuk disiapkan untuk tugas hilir Anda.

API ini dirancang sangat sederhana dan intuitif untuk membuat tim pembelajaran mesin lebih produktif. Ide di balik merilis GPT-3 dalam bentuk API adalah untuk memungkinkan tim data fokus pada penelitian pembelajaran mesin daripada mengkhawatirkan masalah sistem terdistribusi.

Privasi Data / Ketentuan Penggunaan 🔐

GPT-3 menawarkan model bahasa tingkat lanjutnya dengan memaparkannya melalui API ujung terbuka, yang memungkinkan pengguna memberikan data pelatihan ke GPT-3 dalam bentuk prompt pelatihan yang digunakan model untuk memberikan hasil yang sesuai. Untuk akun perorangan, model bahasa umumnya menyimpan data pelatihan sebagai bagian dari fitur pembelajaran online untuk membuat model lebih baik saat dalam perjalanan, yang menimbulkan hambatan saat menggunakan GPT-3 untuk kasus penggunaan yang melibatkan data yang sangat rahasia. Privasi data telah menjadi perhatian terbesar bagi perusahaan di seluruh dunia yang ingin menggunakan GPT-3 untuk membuat aplikasi khusus domain khusus.

Seluruh dunia hanyalah masalah data besar lainnya …

Dalam istilah yang sangat sederhana, pada intinya “yang dilakukan oleh model bahasa adalah memprediksi kata berikutnya berdasarkan serangkaian kata sebelumnya”. OpenAI telah merancang teknik berbeda untuk mengubah model bahasa (GPT-3) dari tugas sederhana ini menjadi tugas yang lebih berguna seperti Menjawab Pertanyaan, Peringkasan Dokumen, Pembuatan Teks Khusus Konteks, dll. Untuk model bahasa biasanya, hasil terbaik dicapai dengan ‘menyempurnakannya’ pada data khusus domain. GPT-3 menggunakan versi miniatur fine-tuning, yang memungkinkan Anda mengatur model agar meniru perilaku tertentu dengan hanya menyediakan beberapa contoh.

Setelah menerima banyak minat dari perusahaan di seluruh dunia untuk menggunakan model bahasa yang sangat kuat ini, OpenAI telah menghasilkan akun perusahaan yang memungkinkan pengguna perusahaan untuk menandatangani Nota Kesepahaman (MoU) khusus dan Perjanjian Privasi Data (DPA) dengan OpenAI untuk mengatasi kekhawatiran seputar kebocoran data dan privasi data.

Kekhawatiran Korporasi (Tanyakan)

Titik akhir API GPT-3 yang diekspos oleh OpenAI tidak boleh menyimpan atau menyimpan bagian apa pun dari data pelatihan yang disediakan sebagai bagian dari proses penyempurnaan / pelatihan model. Tidak ada pihak ketiga yang dapat mengekstrak atau mengakses data yang ditampilkan ke model sebagai bagian dari perintah pelatihan dengan memberikan masukan apa pun ke titik akhir API yang terbuka.

Tanggapan dari OpenAI

Untuk bagian pertama, GPT-3 telah dirancang sedemikian rupa sehingga dilengkapi dengan periode “retensi data” default yang mengharuskan model untuk menyimpan data selama beberapa waktu untuk mendeteksi / mencegah penyalahgunaan kemampuan API ( Untuk hal-hal yang disebutkan di ToU bagian 3 kami[j]). Untuk perjanjian privasi data khusus yang akan dirancang khusus untuk perusahaan, jendela penyimpanan dapat dibuat fleksibel berdasarkan kesepakatan bersama antara kedua belah pihak setelah data akan dihapus dari sistem OpenAI. Untuk bagian kedua seputar kebocoran data, ini dapat dengan mudah ditangani hanya dengan membuat silo data dan model. OpenAI hanya akan menyembunyikan data jadi peduli berapa lama periode retensi, pihak ketiga tidak akan pernah memiliki akses atau dapat mengekstrak data Anda dengan memberikan masukan apa pun ke API GPT-3. Baik permintaan / permintaan ditangani secara independen oleh OpenAI, di mana periode retensi hanya berlaku untuk OpenAI, dan tidak untuk pihak ketiga. Dengan membuat silo data, pihak ketiga tidak akan pernah bisa mengakses data terlepas dari jendela retensi.

Referensi

https://en.wikipedia.org/wiki/GPT-3 https://openai.com/blog/openai-api

Jika Anda ingin mempelajari lebih lanjut atau ingin saya menulis lebih banyak tentang subjek ini, silakan hubungi kami.

Tautan sosial saya: LinkedIn | Twitter | Github

GPT-3 untuk Perusahaan – Apakah Privasi Data Merupakan Masalah? awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Towards AI