DagsHub → Github untuk Ilmu Data – Menuju AI — Teknologi, Sains, dan Teknik Terbaik

Penulis (s): Shubham Saboo

Ilmu Data

Ilmuwan Data berhak untuk menelusuri, melihat pratinjau, berbagi, bercabang, dan menggabungkan data & model bersama kode.

DAGsHub → Platform Ilmu Data kolaboratif!

Apa itu DAGsHub?

DagsHub adalah platform kolaborasi pembelajaran mesin & ilmu data sumber terbuka yang memungkinkan Anda dengan cepat membangun, menskalakan, dan menerapkan proyek pembelajaran mesin dengan memanfaatkan kekuatan git (Versi kode sumber) dan DVC (Kontrol Versi Data).

DAGsHub menggabungkan data, mode, dan kode → Semua di satu tempat!

Sejak awal bidang ini, kode penanganan dan data bersama-sama merupakan titik kesulitan utama bagi para profesional data. Tidak seperti proyek rekayasa perangkat lunak konvensional di mana Anda hanya perlu melacak kode, dalam proyek ML Anda harus melacak data dan model bersama dengan kode yang merupakan tugas kompleks itu sendiri.

Jika Anda pernah mencoba mengerjakan proyek ML tingkat perusahaan, Anda benar-benar dapat menghubungkan beberapa komponen seperti kode, data, pemantauan yang ikut berperan. Secara keseluruhan adalah tugas yang mengerikan untuk mengumpulkan semua bagian itu dan membuatnya bekerja bersama-sama terutama karena platform versi kode standar seperti GitHub, Bitbucket, atau GitLab tidak mendukung mendorong dan menarik data dalam jumlah besar.

Solusi Konvensional

Solusi konvensional untuk mengelola data dan kode adalah dengan mendorong kode ke platform pembuatan versi kode standar seperti GitHub dan mendorong data dan model ke penyimpanan lokal atau cloud seperti AWS, Google Cloud, dll.

Ada banyak masalah yang muncul dengan menyimpan data, kode, dan model Anda di tempat yang berbeda, yang pertama dan terpenting adalah koneksi atau jembatan di antara mereka. Anda perlu merangkai semuanya secara efisien untuk bekerja bersama-sama agar proyek ML Anda berfungsi dengan baik. Masalah lain yang dapat Anda hadapi adalah latency antara koneksi yang akan mempengaruhi kecepatan runtime aplikasi Anda.

Penyimpanan DAGsHub — Jalan ke Depan

Dengan penemuan DVC (Data Version Control) untuk mengelola data, mirip dengan apa yang dilakukan git dengan kode. Kami memasuki era platform dan pendekatan yang efisien untuk mengelola proyek ML ujung ke ujung!

Penyimpanan DAGsHub dibangun di atas DVC untuk menyatukan esensi ilmu data yaitu data dan Kode. Ia bekerja melalui remote DVC yang membutuhkan konfigurasi nol dan bekerja di luar kotak. Itu membuat berbagi data dan model semudah berbagi tautan, yang memungkinkan kolaborasi yang mudah dan aliran ide yang bebas dalam tim data.

Penyimpanan DAGsHub menggunakan DVC ke data versi dan model seperti kode git yang dapat dengan mudah dilacak dan dibandingkan antar versi. Dalam antarmuka repositori, DAGsHub menyediakan saluran otomatis untuk memvisualisasikan komponen proyek dan bagaimana mereka terhubung bersama sehingga memungkinkan semua orang dalam tim untuk memahami alur kerja proyek terlepas dari pemahaman teknis mereka. Ini juga menyediakan kemampuan untuk membandingkan data secara berdampingan dan mendukung berbagai modalitas seperti teks, gambar, audio, dan tabel.

Pipeline Otomatis yang dihasilkan oleh DAGsHub | Perbandingan data Gambar Berdampingan

Di mana DAGsHub Bersinar?

DAGsHub memungkinkan Anda untuk dengan cepat membangun, berbagi, dan menggunakan kembali pembelajaran mesin dan proyek ilmu data menghilangkan kerja keras bagi tim data untuk memulai setiap saat dari awal. Berikut adalah fitur DAGsHub yang membuatnya menonjol dari platform tradisional lainnya:

Remote bawaan untuk alat seperti Git (untuk pelacakan kode sumber), DVC (untuk pelacakan versi data), dan MLflow (untuk pelacakan eksperimen) yang memungkinkan Anda menghubungkan semuanya di satu tempat dengan konfigurasi nol.

DAGsHub memungkinkan Anda melacak dan memantau berbagai eksperimen ML yang dilakukan oleh individu yang berbeda dengan kenyamanan antarmuka pengguna yang indah. Semua eksperimen dalam proyek ML dapat dilacak dan ditautkan ke versi data, kode, dan model spesifiknya!

Dasbor Pelacakan Eksperimen

Selain melacak eksperimen, Anda juga dapat membandingkan berbagai eksperimen secara berdampingan dan memahami perbedaan dalam metrik performa dan hyperparameter melalui nilai yang direkam untuk setiap eksperimen dan visualisasi intuitif yang disediakan langsung oleh DAGsHub.

Perbandingan Eksperimen
Visualisasi interaktif untuk membandingkan eksperimen

Kesimpulan

Ketika proyek ilmu data tumbuh dan menjadi besar dengan melibatkan banyak pemangku kepentingan, menjadi sangat sulit bagi platform manajemen kode sumber tradisional untuk mengelola kode dan artefak bersama-sama dengan cara yang efisien yang kolaboratif dan dapat dibagikan → DAGsHub untuk menyelamatkan!

Ke depannya, platform seperti DAGsHub akan menjadi arus utama dan memainkan peran besar dalam melaksanakan proyek data kolaboratif lintas sektor dan organisasi yang memungkinkan tim data untuk dengan cepat membangun, berkolaborasi, dan berbagi ilmu data dan proyek pembelajaran mesin mereka.

Referensi

Jika Anda ingin mempelajari lebih lanjut atau ingin saya menulis lebih banyak tentang topik ini, jangan ragu untuk menghubungi saya.

Tautan sosial saya: LinkedIn| Twitter | Github

Jika Anda menyukai posting ini atau merasa terbantu, harap luangkan waktu sebentar untuk menekan tombol tepuk tangan, ini meningkatkan visibilitas posting untuk pengguna menengah lainnya.

DagsHub → Github for Data Science awalnya diterbitkan di Towards AI on Medium, di mana orang-orang melanjutkan percakapan dengan menyoroti dan menanggapi cerita ini.

Diterbitkan melalui Menuju AI