gcloud Shell 環境で Text-to-Speech を使ってみる

2021年1月28日

1 はじめに
2 Text-to-Speechとは
3 実施方法
4 さいごに

はじめに

本記事ではGCPの Text-to-Speech 機能をとりあえず動かしてみる、その方法を説明します。

基本的なやり方は GCP公式のサイトに記載のクイックスタートの内容になります。

Text-to-Speechとは

ここに辿り着いた方が Text-to-Speech を知らないということはないと思いますが、その名の通り、テキストデータから音声データを作成することが出来るサービスとお考え下さい。

アプリケーションを設計した際に、音声での注意やセリフを入れたいといった際にこのText-to-Speechを使うことが可能です。これ、すごく便利じゃないですか。

実施方法

GCP のシェルコマンドが使用できる環境の構築

Windows 10 Home 上でGCPのシェルコマンド環境を構築する方法については以下をご参照ください。

Windows 10 Homeでdockerを使ってgcloud SDK環境を構築する

Text-to-Speech のAPIの有効化

GCP の APIとサービスのページから Text-to-Speech のAPIを有効にしましょう。

GCPのサービスアカウントの作成とJSONファイルのダウンロード

Text-to-Speechを使うために GCPのサービスアカウントの秘密鍵を含むJSONファイルが必要となります。以下のページを参照して秘密鍵を含んだJSONファイル(xxxxx.json) を用意してください。

Raspberry Pi(ラズパイ) から Node-RED を使って Google SpreadSheetを更新する方法

JSONファイルの配置とPATHの指定

上記で作成したGCPのサービスアカウントのJSONファイルを gcloud のシェルが使用できる環境においてください。名前を service-account-file.json としています。

ここで以下のコマンドにて JSONファイルをGOOGLE_APPLICATION_CREDENTIALSの変数に指定してください。

コマンド

export GOOGLE_APPLICATION_CREDENTIALS=/home/pi/service-account-file.json

スピーチさせたいメッセージを作成する

作成するのは

・何を話すか

・どの国のどの言語で

・男性の声か女性の声か

というところになります。設定ファイルは request.json というファイル名にします。

request.json

{
“input":{
“text":"この音声はGCPのテストです。"
},
“voice":{
“languageCode":"ja-JP",
“name":"ja-JP-Standard-A",
“ssmlGender":"FEMALE"
},
“audioConfig":{
“audioEncoding":"MP3″
}
}

text : 実際に話して内容を記載します。

languageCode : 音声コードを記載します。

name : 音声名を記載します。

languageCode/nameについては GCPの Text-to-Speechのリファレンスをご参照ください。

Text-to-Speechにテキストから音声への変換をお願いする

上記の設定が済んでいれば以下のコマンドで変換が可能です。

コマンド

curl -X POST -H “Authorization: Bearer “$(gcloud auth application-default print-access-token) -H “Content-Type: application/json; charset=utf-8" -d @request.json https://texttospeech.googleapis.com/v1/text:synthesize