Tue. Oct 4th, 2022

Ilmu di balik Echo Show 10Echo Show pertama mewakili cara yang sama sekali baru untuk berinteraksi dengan Alexa; dia bisa menunjukkan hal-hal di layar yang dikendalikan oleh suara. Dapat dengan mudah melihat resep favorit Anda, menonton briefing kilat Anda, atau panggilan video dengan teman itu menyenangkan tetapi kami pikir kami dapat menambahkan lebih banyak pengalaman.

Ilmu di balik Echo Show 10

brainmysteries – Layar kami stasioner, tetapi kami tidak. Jadi dengan Echo Show 10, kami bertanya pada diri sendiri: bagaimana kami bisa menjaga layar tetap terlihat, di mana pun Anda berada di ruangan? Jawabannya: harus bergerak.

Melansir amazon.science, Membuat perangkat yang dapat bergerak secara cerdas dengan cara yang meningkatkan pengalaman Alexa dan tidak mengganggu bukanlah tugas yang mudah. Kami harus mempertimbangkan kapan, di mana, dan bagaimana menggabungkan gerakan ke dalam Echo Show agar terasa seperti perpanjangan alami dari pengalaman pelanggan Alexa.

Baca Juga : Ilmu di Balik Penginderaan Gerak Ultrasonik untuk Echo

Menggabungkan audio dan algoritma visi komputer

Saat Anda mengatakan “Alexa” ke perangkat Echo Show mana pun hari ini, Anda akan melihat bilah lampu biru di layar. Bagian yang lebih terang dari bilah lampu biru itu mendekati arah yang dipilih perangkat untuk difokuskan; kita sebut seleksi balok ini. Perangkat gema mencoba memilih sinar yang memberikan akurasi terbaik untuk mengenali apa yang dikatakan.

Namun, apa yang berhasil untuk pemilihan sinar tidak bekerja dengan baik untuk memandu gerakan. Kebisingan, beberapa speaker, atau pantulan suara dari dinding dan permukaan lain dapat mencegah algoritme ini memilih sinar yang paling mewakili arah pembicara. Dan dengan output audio saja, tidak masalah jika sistem input Echo telah memilih sinar yang berbeda: pengguna masih mendengar respons Alexa. Tapi layar yang terus bergerak untuk menghindari gema dan suara ini akan menjadi gangguan yang parah.

Dengan Echo Show 10, kami memecahkan masalah ini dengan menggabungkan lokalisasi sumber suara (SSL) dengan visi komputer (CV) . Implementasi SSL kami menggunakan teknik akustik-gelombang-dekomposisi dan pembelajaran mesin untuk menentukan arah di mana pengguna kemungkinan besar berada. Kemudian, pengukuran SSL mentah digabungkan dengan algoritme CV kami.

Algoritme CV dapat mengidentifikasi objek dan manusia di bidang pandang, memungkinkan perangkat membedakan antara suara yang berasal dari orang dan suara yang berasal dari sumber lain dan pantulan dari dinding. Terkadang audio dapat dipantulkan dari belakang perangkat, jadi kami menambahkan langkah penyiapan di mana pelanggan mengatur rentang gerak perangkat. Jika perangkat dapat mengabaikan suara yang berasal dari luar jangkauan geraknya, perangkat akan lebih mampu menghindari pantulan dan mempersempit arah kata bangun.

Algoritme CV mengubah gambar kamera menjadi ratusan titik data yang mewakili bentuk, tepi, penanda wajah, dan pewarnaan umum; maka gambar tersebut akan terhapus secara permanen. Titik data ini tidak dapat direkayasa ulang ke input asli, dan tidak ada teknologi pengenalan wajah yang digunakan. Semua pemrosesan ini terjadi dalam hitungan milidetik, sepenuhnya di perangkat.

Layanan visi komputer (CVS) perangkat dapat secara dinamis memvariasikan kecepatan bingkai (jumlah bingkai per detik), dan beroperasi dengan presisi lebih dari 95% pada jarak hingga 10 kaki. CVS menggunakan pemfilteran spatiotemporal untuk menekan positif palsu sementara yang disebabkan oleh gerakan kamera dan kekaburan. Dalam lingkungan multipengguna, deteksi keterlibatan menentukan pengguna mana yang menghadap perangkat membantu kami lebih lanjut menargetkan layar ke pengguna atau pengguna yang relevan.

Mendefinisikan pengalaman

Dengan algoritme kami yang dibangun, langkah selanjutnya adalah mengatur pengalaman pelanggan yang ideal. Kami mulai dengan mengambil data dari peserta beta internal dan tim produk. Karyawan Amazon menguji Echo Show 10 di rumah mereka, dan bahkan sebelum perangkat kerasnya siap, kami menggunakan realitas virtual untuk mengumpulkan masukan awal tentang gerakan apa yang terasa paling alami, kecepatan gerak yang disukai, dan sebagainya. Apa yang kami pelajari sangat berharga.

Pertama, mengetahui kapan harus tidak bergerak sama pentingnya dengan mengetahui kapan harus bergerak. Kami ingin pelanggan dapat mengarahkan ulang layar secara manual. Tapi itu berarti membedakan antara tekanan yang diberikan oleh seseorang yang menggulir resep saat membuat makan malam dan seseorang yang secara fisik mencoba memindahkan perangkat. Perangkat juga perlu mengetahui bahwa jika berputar ke satu arah dan menabrak sesuatu dinding, lemari, dll. perangkat itu tidak boleh terus bergerak ke arah itu.

Ini membutuhkan hambatan motor atau “penggerak belakang” yang bisa masuk, atau tidak, tergantung pada gerakan pengguna. Banyak penyesuaian yang dilakukan untuk mendapatkan perbedaan dan waktu yang tepat.

Kami juga harus menentukan kecepatan dan akselerasi yang terasa natural. Motor memungkinkan kita untuk berakselerasi hingga 360 derajat/detik 2 hingga kecepatan hingga 180 derajat/detik. Namun, pada kecepatan itu, di lingkungan rumah yang khas, Anda berisiko menabrak kaca atau bingkai foto yang mungkin berada di dekat perangkat. Bergerak terlalu lambat, di sisi lain, dan Anda mungkin mencoba kesabaran pelanggan dan bahkan mengambil risiko deteksi kios palsu. Kami menetapkan kecepatan yang cepat tetapi juga memungkinkan perangkat berhenti sebentar jika menabrak objek.

Terakhir, kita perlu menentukan jenis gerakan yang akan dibuat oleh Echo Show 10. Sebagai manusia, kita memiliki kemampuan bawaan untuk mengetahui kapan harus merespons dengan mata kita versus gerakan kepala penuh. Echo Show 10, meskipun tidak begitu adaptif seperti manusia, mencoba mendekati perbedaan ini dengan tiga zona persepsi, yang ditentukan oleh bidang pandang kamera.

Dalam zona “mati”, pusat bidang pandang, perangkat tidak bergerak, bahkan jika pelanggan melakukannya. Di dalam zona “penahanan”, area bidang pandang di luar pusat, perangkat hanya berputar jika pelanggan menetap di posisi baru cukup lama. Dan ketika pelanggan memasuki zona “gerakan”, tepi bidang pandang, perangkat bergerak, memastikan bahwa layar selalu tetap terlihat.

Rentang zona ini, ketergantungannya pada jarak Anda dari perangkat, dan kecepatan serta akselerasi perangkat disetel berdasarkan ribuan jam lab dan pengujian pengguna. Ada juga situasi tertentu di mana Echo Show 10 tidak akan bergerak misalnya, jika rana kamera internal ditutup atau jika SSL tidak dapat membedakan antara suara dalam dua arah yang sangat berbeda.

Aplikasi

Setelah menyelesaikan tantangan ilmiah ini, datanglah bagian yang menyenangkan: apa saja fitur pertama yang akan menggunakan gerakan? Panggilan video adalah fitur yang sangat populer bagi pelanggan Echo Show, jadi penggunaan pembingkaian otomatis dan gerakan dalam panggilan sudah jelas. Pelanggan juga cenderung menempatkan perangkat Echo Show di dapur dan menggunakan Alexa untuk resep, jadi tidak memerlukan juru masak yang sibuk untuk melihat resep di layar juga menjadi pertimbangan utama.

Dan karena pelanggan menyukai Alexa Guard karena membantu menjaga keamanan rumah mereka saat mereka pergi, akses jarak jauh ke kamera juga menjadi prioritas utama. Saat Mode Jauh dihidupkan, Echo Show 10 akan secara berkala menggeser ruangan dan mengirim Peringatan Cerdas jika seseorang terdeteksi di bidang pandangnya. Anda juga dapat memeriksa rumah Anda dari jarak jauh untuk menambah ketenangan pikiran jika Anda sedang dalam perjalanan atau untuk melihat apakah anjing Anda menyelinap ke sofa saat Anda berada di toko kelontong.

Dalam mengembangkan Echo Show 10, saya menyadari betapa kompleks, berevolusi, dan adaptifnya kita sebagai spesies; hal-hal yang kita komunikasikan dengan isyarat nonverbal sangat kompleks namun entah bagaimana dipahami secara global. Kami percaya bahwa potensi gerak sebagai modalitas respons sangat besar, dan kami baru saja menggali permukaan dari semua cara kami dapat menyenangkan pelanggan dengan Echo Show 10. Oleh karena itu, kami mengundang pengembang untuk membangun pengalaman untuk Echo Show 10, dengan API gerak yang dapat mereka gunakan untuk melepaskan kreativitas mereka.

By rainmys