Teknologi

Google Pastikan Gemini AI Mampu Kontrol Penuh Android Lewat Suara, Tanpa Sentuhan Layar

Google semakin serius dalam mewujudkan visi Gemini sebagai asisten berbasis kecerdasan buatan (AI) yang mampu mengendalikan ponsel Android secara langsung. Melalui serangkaian demonstrasi dan riset terbaru, Google memproyeksikan masa depan di mana perintah suara dapat menggantikan interaksi sentuhan layar dalam menjalankan berbagai tugas digital.

Visi ini diperlihatkan pada ajang Google I/O 2025 yang digelar Mei 2025. Google mendemonstrasikan prototipe penelitian terbaru dari Project Astra. Kemampuan Project Astra mencakup pengambilan konten dari web atau Chrome, pencarian dan pemutaran video YouTube, pencarian melalui email, melakukan panggilan atas nama pengguna, hingga melakukan pemesanan.

Dapatkan berita menarik lainnya di mureks.co.id.

Dalam demo berdurasi dua menit, Gemini terlihat menggulir dokumen PDF di Chrome untuk Android, membuka aplikasi YouTube, menelusuri hasil pencarian, hingga memilih dan memutar video secara otomatis. Google saat ini tengah berupaya menghadirkan kemampuan serupa di Gemini Live.

Pada Oktober 2025, Google juga merilis versi pratinjau model Computer Use untuk para pengembang. Model ini memungkinkan Gemini berinteraksi dengan antarmuka pengguna layaknya manusia, seperti menggulir layar, mengklik, dan mengetik. Meskipun saat ini masih dioptimalkan untuk peramban web, Google menilai teknologi tersebut memiliki potensi besar untuk pengendalian antarmuka seluler.

Google menggambarkan kemampuan ini sebagai langkah penting dalam membangun agen AI yang andal. Hal ini didasari oleh fakta bahwa banyak aktivitas digital masih memerlukan interaksi langsung dengan antarmuka pengguna grafis, bukan sekadar perintah teks.

Strategi Google dan Apple dalam Asisten AI

Di sisi lain, Apple telah lebih dulu memaparkan visinya melalui Siri generasi terbaru. Apple menjanjikan Siri mampu menjalankan aksi lintas aplikasi hanya lewat suara, mulai dari mengedit foto hingga menyimpannya ke aplikasi Notes tanpa sentuhan layar. Namun, sistem ini menuntut integrasi khusus dari pengembang aplikasi.

Berbeda dengan pendekatan Apple, Google memilih jalur yang lebih fleksibel. Gemini dirancang agar bisa bekerja tanpa integrasi khusus dari pengembang aplikasi. Pendekatan ini dinilai lebih praktis mengingat ekosistem Android yang sangat luas.

Upaya Google untuk menghadirkan kendali suara canggih bukanlah hal baru. Pada 2019, Google sempat memperkenalkan Google Assistant generasi baru dengan pemrosesan suara langsung di perangkat. Saat itu, Google mengklaim penggunaan suara akan membuat navigasi sentuh terasa lambat. Namun, teknologi tersebut tidak pernah populer dan tetap terbatas pada perangkat Pixel.

Kendali Suara Makin Cerdas Berkat LLM

Kini, kehadiran large language model (LLM) diyakini dapat mengatasi kelemahan lama, termasuk perintah suara yang kaku dan keterbatasan aksi. Dengan AI generatif, pengguna dapat memberikan perintah secara lebih natural dan kontekstual, bahkan pada aplikasi atau situs yang belum pernah “dikenal” sebelumnya oleh sistem.

Meskipun demikian, adopsi massal kemungkinan masih terbatas dalam waktu dekat. Penggunaan hands-free, seperti yang diperlihatkan dalam demo Astra, diprediksi menjadi skenario paling umum pada tahun depan. Dampaknya dinilai akan sangat besar bagi perangkat sekunder seperti kacamata pintar (smart glasses) dan jam tangan pintar (smartwatch).

Alih-alih menjalankan aplikasi berlayar besar, perangkat tersebut bisa memanfaatkan ponsel sebagai pusat kendali, sementara informasi disampaikan lewat suara atau tampilan minimal. Pertanyaan besarnya adalah apakah kendali suara suatu hari nanti akan menjadi metode interaksi utama yang dapat menggantikan sentuhan layar pada ponsel, atau bahkan laptop?

Mureks