Rabu, Maret 19

Jakarta

Kecerdasan buatan (AI) saat ini bisa menciptakan gambar yang realistis, menulis novel, menyelesaikan pekerjaan rumah, hingga coding. Tapi riset terbaru menemukan sebagian besar model AI tidak bisa melakukan hal sederhana yaitu membaca jam analog.

Peneliti dari University of Edinburgh menguji kemampuan tujuh large language model (LLM) multimodal populer untuk menjawab pertanyaan terkait waktu berdasarkan gambar jam dan kalender. Studi ini menemukan LLM tersebut kesulitan mengerjakan tugas sederhana ini.

Tim peneliti menguji coba model GPT-4o dan GPT-o1 milik OpenAI, Gemini 2.0 milik Google, Claude 3.5 Sonnet milik Anthropic, Llama 3.2-11B-Vision-Instruct milik Meta, Qwen2-VL7B-Instruct, dan MiniCPM-V-2.6 milik ModelBest.


Mereka menguji model-model AI ini menggunakan gambar jam analog yang berbeda, mulai dari jam dengan angka Romawi, jam dengan warna dial yang berbeda, dan bahkan jam yang tidak memiliki jarum detik. Mereka juga menggunakan gambar kalender 10 tahun.

Untuk gambar jam, peneliti bertanya kepada model AI, jam berapa yang ditunjukkan pada jam dalam gambar yang diberikan. Untuk gambar kalender, peneliti mengajukan pertanyaan sederhana seperti Tahun Baru pekan ini jatuh pada hari apa, dan pertanyaan yang lebih rumit sepert apa hari ke-153 dalam setahun.

Secara keseluruhan, model AI yang diuji memiliki performa buruk. Model-model AI ini bisa membaca jam analog dengan benar kurang dari 25%, dan kesulitan membaca jam dengan angka Romawi, jarum jam yang bergaya, dan jam tanpa jarum detik. Menurut peneliti, masalah ini mungkin berasal dari pendeteksian jarum jam dan penafsiran sudut pada permukaan jam.

“Sebagian besar orang dapat mengetahui waktu dan menggunakan kalender sejak usia dini,” kata Rohit Saxena dari School of Informatics di University of Edinburgh yang memimpin studi ini, seperti dikutip dari Gizmodo, Selasa (18/3/2025).

“Kekurangan ini harus diatasi jika sistem AI ingin berhasil diintegrasikan ke dalam penggunaan di dunia nyata yang peka terhadap waktu seperti penjadwalan, otomatisasi, dan teknologi bantuan,” imbuhnya.

Google Gemini 2.0 mencetak skor paling tinggi saat diminta membaca jam, sedangkan GPT-o1 bisa menyelesaikan tugas kalender dengan akurasi 80%. Meski begitu, model AI yang paling sukses dalam menyelesaikan tugas kalender masih melakukan kesalah sekitar 20%.

(vmp/vmp)

Membagikan
Exit mobile version