Startup kecerdasan buatan asal Tiongkok, DeepSeek, mengawali tahun 2026 dengan inovasi signifikan yang berpotensi merevolusi proses pelatihan model AI skala besar secara global. Perusahaan tersebut baru-baru ini menerbitkan laporan teknis yang memperkenalkan arsitektur baru bernama Manifold-Constrained Hyper-Connections (mHC).
Mengutip Gizmochina, arsitektur mHC dirancang khusus untuk meningkatkan stabilitas dan efisiensi dalam pelatihan model AI berskala besar. Inovasi ini hadir sebagai respons terhadap tantangan umum dalam pengembangan machine learning modern, di mana ukuran model AI yang terus membesar seringkali diiringi oleh risiko kegagalan pelatihan, pemborosan energi, dan tingginya biaya komputasi.
Baca artikel informatif lainnya di Mureks melalui laman mureks.co.id.
DeepSeek berupaya mengatasi kendala ini dengan pendekatan yang memungkinkan perilaku model tetap dapat diprediksi, bahkan saat skala parameter semakin besar. Dengan demikian, waktu dan sumber daya yang dihabiskan selama proses pelatihan dapat ditekan secara signifikan tanpa mengorbankan kualitas model.
Bagaimana Arsitektur mHC Bekerja?
Arsitektur mHC bekerja dengan menciptakan hubungan yang dibatasi pada manifold atau ruang fitur internal model. Mekanisme ini secara efektif meningkatkan performa pelatihan sekaligus menjaga stabilitas terhadap perubahan skala parameter. Menurut laporan teknis DeepSeek, metode ini telah diuji pada model dengan parameter 3 miliar, 9 miliar, hingga 27 miliar.
Hasil pengujian menunjukkan kemampuan mHC untuk mempertahankan performa stabil tanpa memerlukan peningkatan besar dalam komputasi maupun biaya. Mureks mencatat bahwa pendekatan ini sangat krusial mengingat banyak model AI besar di industri saat ini memerlukan biaya infrastruktur yang sangat tinggi, termasuk ribuan unit GPU dan biaya operasional yang bisa mencapai ratusan juta hingga miliaran dolar.
DeepSeek sendiri sebelumnya telah dikenal mampu melatih model AI besar dengan sumber daya yang jauh lebih ringan. Sebagai contoh, model DeepSeek-R1 dilatih menggunakan sekitar 2.048 GPU Nvidia H800 dengan biaya sekitar USD5,6 juta (sekitar Rp93,7 miliar), angka yang jauh lebih rendah dibandingkan pesaing besar di pasar Barat.
DeepSeek di Panggung AI Global
Inovasi arsitektur mHC ini semakin menempatkan DeepSeek sebagai pemain penting di panggung persaingan AI global yang kian ketat. DeepSeek sebelumnya sudah dikenal dengan kemampuannya menghasilkan model open-weight berkinerja tinggi, seperti DeepSeek-V3 dan R1. Kedua model ini mampu bersaing dengan model lain di pasar global dan menarik perhatian komunitas teknologi serta investor.
Munculnya mHC juga berpotensi memperluas penggunaan model AI besar di lebih banyak bidang aplikasi, terutama di organisasi dan industri dengan batasan sumber daya komputasi. Pendekatan yang lebih efisien ini memungkinkan pengembangan solusi AI canggih menjadi lebih hemat biaya tanpa mengorbankan kapabilitas model.
Sebagai informasi, DeepSeek merupakan perusahaan AI yang berkembang pesat sejak 2023 dan berbasis di Hangzhou, Tiongkok. Dipimpin oleh CEO Liang Wenfeng, perusahaan ini telah merilis sejumlah model AI besar dan menjadi salah satu startup AI paling diperbincangkan di dunia.
Sebelumnya, model DeepSeek-R1 pernah menjadi aplikasi paling banyak diunduh di App Store AS, bahkan sempat berdampak pada harga saham beberapa perusahaan teknologi besar di Wall Street. Beragam inovasi sebelumnya, termasuk model eksperimen DeepSeek-V3.2-Exp dengan mekanisme Sparse Attention, menunjukkan upaya startup ini dalam merancang model generasi berikutnya yang lebih efisien dan canggih.
Arsitektur baru mHC kini menandai awal tahun 2026 sebagai tahun inovasi pelatihan AI yang lebih hemat sumber daya dan lebih stabil. Ke depan, DeepSeek diperkirakan akan terus menjadi penggerak penting di bidang AI efisien, terutama ketika kebutuhan pelatihan model besar semakin meningkat di berbagai sektor, dari pemrosesan bahasa alami hingga solusi AI berbasis konteks rumit.





