Baru-baru ini, Rajah AI, sebuah syarikat yang inovatif dalam bidang robotik di Amerika Syarikat, mengeluarkan satu kejayaan besar: model bahasa visual yang tujuan umum (VLA) yang dipanggil Helix. Buat pertama kalinya, model ini menyedari kawalan berterusan berkelajuan tinggi badan atas robot humanoid yang lengkap, dan sempurna mengintegrasikan persepsi, pemahaman bahasa, dan kawalan pembelajaran.
Kemunculan model Helix menandakan satu langkah penting ke hadapan dalam fleksibiliti operasi robot humanoid. Dengan arahan bahasa semulajadi yang mudah, robot itu dapat dengan mudah memahami hampir mana -mana objek isi rumah kecil, bahkan yang tidak pernah disentuh semasa latihan, tanpa demonstrasi sebelumnya atau pengaturcaraan tersuai. Keupayaan ini disebabkan oleh keupayaan generalisasi yang kuat bagi model helix.

Rajah AI menekankan bahawa model Helix telah mencipta beberapa industri pertama. Buat pertama kalinya, ia membolehkan kawalan berterusan berkelajuan tinggi dari seluruh badan atas robot humanoid, termasuk kawalan fleksibel pergelangan tangan, batang badan, kepala dan setiap jari. Dalam ujian, robot berjaya memproses beribu -ribu barangan baru yang berantakan dengan disorganisasi, dari barangan kaca dan mainan ke alat dan pakaian, tanpa demonstrasi atau pengaturcaraan sebelumnya.
Apa yang lebih menakjubkan ialah model Helix juga mempunyai keupayaan kolaborasi pelbagai robot. Dalam ujian itu, kedua-dua robot itu dapat bekerjasama dalam tugas jangka panjang, kompleks, bekerjasama dengan barang-barang yang tidak pernah dilihat sebelum ini, seperti menyusun barangan runcit yang tidak dikenali bersama-sama. Keupayaan ini membuka lebih banyak kemungkinan untuk aplikasi praktikal robot di persekitaran rumah.
Model Helix juga menunjukkan pemahaman adegan yang sangat baik dan keupayaan parsing semantik. Apabila diminta untuk "mengambil objek padang pasir", robot bukan sahaja dapat mengenali bahawa kaktus mainan sesuai dengan konsep abstrak ini, tetapi juga memilih tangan terdekat dan melakukan tindakan yang tepat. Fungsi mencengkam sejagat ini, dari bahasa ke gerakan, memberikan kemudahan yang lebih besar untuk penggunaan robot humanoid dalam persekitaran yang tidak berstruktur.
Model Helix dapat mencapai kejayaan ini berkat seni bina dwi-sistem yang terobosan. Senibina terdiri daripada Sistem 1 dan Sistem 2, yang bertanggungjawab untuk kawalan tepat kelajuan tinggi, pemahaman adegan, dan parsing semantik. Sistem 2 didasarkan pada VLM sumber terbuka dengan parameter 7B, yang beroperasi pada kekerapan 7-9 Hz untuk memastikan generalisasi merentasi objek dan senario. Sistem 1 adalah model Strategi Motor Visual Parameter 80m, yang menukarkan perwakilan semantik sistem 2 ke dalam arahan tindakan berterusan pada kekerapan 200Hz untuk mencapai tindak balas masa nyata peringkat milisaat. Senibina yang dipadam ini membolehkan kedua -dua sistem melaksanakan fungsi masing -masing dan bekerjasama untuk mencapai kawalan robot humanoid yang cekap.
Model helix menggunakan sumber yang sangat sedikit semasa latihan. Menggunakan hanya kira-kira 500 jam data yang diawasi berkualiti tinggi, pasukan itu dapat mencapai generalisasi objek yang mantap. Data ini mewakili kurang daripada 5% daripada saiz dataset VLA yang dikumpulkan sebelum ini dan tidak bergantung pada koleksi entiti berbilang bot atau latihan pelbagai peringkat. Pencapaian ini bukan sahaja menunjukkan kecekapan model helix, tetapi juga menyediakan lebih banyak kemungkinan untuk pembangunan robot humanoid pada masa akan datang.
