Cloud Speech _to_Textっていうサービスについて思ったことをメモする。
そもそも触ることになった発端は「録音されたものを文字起こしして欲しい」っていうものだったんだけど、それ自体はそこまで難しくないんじゃないかと思ったんだ。
ただ、次に求められるのが「AIを組み合わせて・・・」っていうからどうしようかなぁってなったんだよね。
とりあえずGoogleならなんとでもできるだろうと思って触り始めてたどり着いたものがSpeech _to_text だった。
元々GCPは使える環境にあったからサクッとセットアップして、Streamlitでアプリを作成して試しにやってみた。
拾ってきた音源がWAV形式だったので、それがそのまま使えるかなと思ったけど無事に使えた。っていうかそもそもWAVが使えますって書いてあった。
そのあとAPI経由で文字起こしを実行してみたけど、時間的にはそこまでかかった印象はなくて
17秒の音声ファイルで、なおかつサンプルデータの音源はとてもクリアだったので問題なく全文文字起こしができたので満足。
このあとは、どんなファイルを使うのか?どれくらいの長さなのか?
そもそも、そのアプリを作ったとして維持費がかかるわけだけどその予算ってあるのか?とかとか・・・。
あぁ、言うわ易しって状態になってるわこれ・・・。