Ad Unit (Iklan) BIG

Mengubah Tanskripsi Ucapan (Audio) ke Teks dengan Cloud Speech API

Posting Komentar

Buat permintaan API AndaDalam era digital ini, teknologi telah mengubah cara kita berinteraksi dengan informasi. Salah satu inovasi yang paling menonjol adalah kemampuan untuk mengubah ucapan (audio) menjadi teks. . Teknologi ini tidak hanya mempermudah pekerjaan sehari-hari, tetapi juga membuka peluang baru di berbagai sektor. Salah satu alat terbaik untuk melakukan ini adalah Google Cloud Speech-to-Text API.

Google Cloud Speech-to-Text adalah layanan yang sangat canggih dan akurat untuk mengkonversi ucapan menjadi teks. API ini menggunakan teknologi pembelajaran mesin (machine learning) yang dikembangkan oleh Google, dan mampu mengenali lebih dari 120 bahasa dan varian.



Bagaimana Cara Kerjanya?

Secara sederhana, Google Cloud Speech-to-Text API bekerja dalam tiga langkah utama:

  1. Pengambilan Audio: Pertama, API menerima input audio, yang bisa berupa file audio yang sudah ada (misalnya, file .wav atau .mp3) atau streaming audio secara real-time.

  2. Pemrosesan oleh Machine Learning: Audio yang masuk kemudian diproses oleh model machine learning Google. Model ini menganalisis suara, memisahkan ucapan dari kebisingan latar, dan mengidentifikasi kata-kata yang diucapkan.

  3. Output Teks: Setelah analisis selesai, API mengirimkan respons berupa teks. Teks ini bisa berisi kata-kata yang diucapkan, stempel waktu (timestamps) untuk setiap kata, bahkan tanda baca dan informasi speaker (jika diaktifkan).

Mulai Menggunakan

Untuk memulai, Anda perlu memiliki akun Google Cloud dan mengaktifkan Cloud Speech-to-Text API. Anda bisa mengujinya dengan mengirimkan file audio melalui konsol web atau menggunakan pustaka klien (client library) yang tersedia untuk berbagai bahasa pemrograman seperti Python, Node.js, atau Java.

Teknologi mengubah ucapan menjadi teks ini bukan lagi fiksi ilmiah. Dengan alat canggih seperti Google Cloud Speech-to-Text API, Anda dapat memanfaatkan kekuatan ucapan untuk menciptakan solusi inovatif dan efisien. Disini kita akan mencoba melakukan konversi menggunakan curl pertama buka google cloud console dan membuat kunci API untuk meneruskan URL permintaan Anda.

  • Untuk membuat kunci API, pada menu Navigasi , klik APIs & services > Credentials.
  • Klik Create credentials dan pilih API Key.
  • Salin dan catat kunci yang baru saja Anda buat untuk digunakan nanti.
  • Klik Tutup.

Kedua buat VM sesuai kebutuhan di menu Compute Instances setelah itu masuk menggunakan SSH

setelah itu simpan API Key dalam variable dengan perintah " export API_KEY=<YOUR_API_KEY> "

Buat permintaan API Anda

Buat sebuah file json dengan nama request.json dalam VM kemudian isikan 

file tersebut body request memiliki objek konfigurasi dan audio.

Dalam konfigurasi, Anda memberi tahu API Ucapan-ke-Teks cara memproses permintaan:

Parameter pengkodean memberi tahu API jenis pengkodean audio yang Anda gunakan saat berkas dikirim ke API. FLAC adalah jenis pengkodean untuk berkas .raw (Pelajari lebih lanjut tentang jenis pengkodean dari referensi RecognitionConfig). languageCode akan menggunakan Bahasa Inggris secara default jika tidak disertakan dalam permintaan. Ada parameter lain yang dapat Anda tambahkan ke objek konfigurasi, tetapi pengkodean adalah satu-satunya yang diperlukan. Dalam objek audio, Anda meneruskan URI berkas audio ke API, yang disimpan di Cloud Storage.

Setelah itu lakukan request ke API dengan perintah :

curl -s -X POST -H "Content-Type: application/json" \
--data-binary @request.json \
"https://speech.googleapis.com/v1/speech:recognize?key=${API_KEY}" \
> result.json

Setelah itu lihat hasil dalam file result.json dengan perintah " cat result.json "



Related Posts

Posting Komentar