- バックエンドエンジニア
- Webディレクター
- フロントエンドエンジニア
- Other occupations (1)
- Development
- Business
今現在つくれたもの
①Stable Diffusionで、好みの人物を作成
↓
②Whisper APIで、自分の会話音声をテキスト化
↓
③ChatGPTに、そのテキストを投げ、返答を作成
↓
④arXivでtext-to-speech (TTS) modelsで、声での返答を作成
(補足、イントネーションや癖や言い回しなども、どう学習させるか検討中)
↓
⑤D-ID(的な&などで)、人物表情を豊かに会話可能とする
⑤については、これからの研究及び実装となりそうです🧠🥺
今後つくりたいもの
・朝PC立ち上げて、気軽にアシスタントAIのURLをたたく
・すると自分のアシスタントAIが「おはよう河東さん〜」っと気軽に出てくる(デスクトップに)
・僕から「きょうさ〜、◯◯さんランチ会議誘いたいけど、予定どうかな?」と質問
・アシスタントAIから「◯◯さん、13:00~14:00は空きありますが、◯◯プロジェクトで結構タイトな週なので、あまり難しいお話は避けた方がよろしいかもです〜」という、googleカレンダーやbacklogのスケジュールやSlackのやりとりから◯◯さんの状況を把握した上でアドバイスしてくれる
みたいな、超絶業務や社内マネジメントに適したAIアシスタント(かつ表情豊かで人間のように2Dで話できる)を開発したいな〜、とか、妄想中です。