IBM Watson Blog
Watson Assistant for Voice Interactionソリューションについて理解する
2020年05月19日
カテゴリー IBM Cloud Blog | IBM Data and AI | IBM Watson Blog
記事をシェアする:
2019年8月、IBMはWatson Assistant for Voice Interaction (WAVI) (英語) という新しいオファリングをリリースしました。これは、発呼者の音声やSMSによる入力をサポートする、Watsonサービスのバンドル・セットとして位置付けられるもので、旧式の対話式音声応答(IVR)ソリューションを、チャットボットによる会話形式の対話が特徴のソリューションに変えることができます。フィーチャーセットの概要についてはこちら(英語)を参照してください。
個人的なIVRの使用経験からすれば、この新しいテクノロジーは大歓迎です。サービスに問題があってカスタマー・コール・センターに電話しても、選択肢の数字を入力するよう延々と続く長いメニューが読み上げられるだけ、という経験が何度もあったことを思い出します。これには、いつもがっかりし、イライラさせられました。人間のオペレーターにつながるまでに、電話した理由すら聞かれることなく、時間を費やしていました。
WAVIの導入により、これががらっと変わります。このソリューションに電話したユーザーは、まるで人間のような声に迎えられ、要件を尋ねられます。ユーザーの発話は入力と見なされ、最適な回答を得るための解釈がなされます。最終的には、電話した理由である問題に対処するための解決策にたどり着くことができ、はるかに良質なエクスペリエンスが得られます。
私の同僚がこの新しいソリューションと各種コンポーネントについて非常に的確に説明しているので、彼のこちらのブログ(英語)を参照して、予備知識としてください。私のこの記事では、テクノロジーについて、また、各サービスがどのように連携するかについて掘り下げます。
以下に、WAVI ソリューションを構成する各コンポーネントの概略を示します。
Watson Voice Gateway (VG)(英語)– 着信した音声通話およびSMSメッセージを入力として受け取り、発呼者と以下のオファリングの間の会話を仲介します。
- Watson Speech to Text (STT)– このオファリングは、音声を受け取り、テキストを返します。
- Watson Assistant (WA)– 変換されたテキストを受け取り、チャットボット要求として処理します。適切な応答が生成されて、Watson Voice Gatewayオファリング / Service Orchestration Engine(SOE)に返されます。
- Watson Text to Speech (TTS)– このオファリングは、テキスト文字列を受け取り、変換されたオーディオ・ストリームを返します。
- Service Orchestration Engine (SOE) オプション – Voice GatewayとWatson Assistant間のカスタマイズされたコード。これは一般に、会話データにビジネス固有の要件を適用するために、サード・パーティーのサービスおよび内部/バックエンドAPIとのインターフェースをとるものとして機能します(翻訳、日付/時刻のフォーマット設定、機密データのマスキングなど)。
はじめに
初期セットアップとして、Watson Voice Gatewayオファリング内でVoice Agentをセットアップする際にサービス群がバインドされます。定型の手順に従って、各サービスを構成します。詳しい手順をこちらのわかりやすい動画でご覧になって、稼働させてください。Watsonサービス群のバインドに際しては、既存のサービスを選択する便利な方法と、ご自分で構成を作成する方法があります。
初期セットアップが完了すると、ソリューションが音声入力を受け取って応答を処理できる状態になります。この状態にたどり着くまでにどこかで失敗するとどうなるでしょうか?発着信セッションのトランザクション・ジャーニーをたどっていくには、どうすればよいのでしょうか?
IVRをWAVIソリューションに置き換え始めたお客様との関わりで最近得た経験に基づいた、変革のお役に立つ、いくつかのプラクティスやユーティリティーがあります。
Voice Gateway使用状況ダッシュボードの探索
Voice Gatewayオファリングのダッシュボードで、左側のバーにある「Usage(使用状況)」メニュー項目を見つけます。このダッシュボードには、各セッションの開始と終了の詳細が示されます。失敗したセッションについては、追加の詳細情報が示されるので、エラーや警告ごとに掘り下げて調べることができます。
キー・エレメント:
sessionID – 各会話セッションに対して、このIDが生成されます。問題の原因が「Usage(使用状況)」ログでは明らかにならない場合、詳細な追跡のための相互参照に、このIDを利用できます。
イベント転送
ログ・ビューアー・ダッシュボードに加え、Voice Gatewayは、発着信のタイムラインとセッション内で実施されたアクティビティーを記録したイベントを生成します。これらのイベントは、CloudantなどのNoSQLデータベースに保管できます。
セットアップ
セットアップには、「Edit Agent(エージェントの編集)」 サブメニューの「Manage(管理)」セクション経由でアクセスします。
Voice Agent構成内に、イベント転送を有効化するためのセクション(Enable Event Forwarding)があります。ターゲットとなるNoSQLデータベースの詳細と資格情報を特定し、保管するイベントのタイプと、ターゲット・データベースの宛先を確認します。
ヒント: IBM Cloudでは、構成画面からプロビジョンできるCloudantオファリングが提供されています。このサービスを使用することで、WAVIソリューションを1つの場所に収めることができます。
セットアップが成功すると、データベースに取り込まれる文書として記録されたイベントが表示されます。
注: 記録されたイベントに、セットアップ前の過去の会話セッションが取り込まれることはありません。イベント転送が有効化された後のイベントのみが保管されます。
イベント・タイプ
Voice Gatewayオファリングによって公開されるイベントの3つのカテゴリーについて、以下に詳述します。
- 発着信詳細記録(CDR)
- トランスクリプション
- ターン
注: ここでは、セッションの追跡とトラブルシューティングに役立つ可能性のある、ほんのいくつかのキー・エレメントについて簡単に触れます。報告されるすべてのメタデータについて詳しくは、Voice Gateway資料の「イベントの報告(Recoding event)」のセクションを参照してください。
1. 発着信詳細記録(CDR)イベント
発着信セッションに関する特定の詳細情報を提供します。次の情報が含まれます。
- 発着信セッションの開始/終了時刻
- お客様の電話番号
- 利用されたサービス
- Watson Speech to Text/Text to Speechによる変換の詳細
- Watson Assistantによる対話
キー・エレメント:
- globalSessionID — Voice Gatewayの「Usage(使用状況)」ログにあるSessionIDを使用して、このIDを相互参照できます。
- workspaceID — 発着信セッション中にユーザーの発話への応答に使用されたWatson Assistantのスキル/ワークスペースを識別します。
- allIntents — 記録されたセッション中にWatson Assistantから応答されたすべてのインテントをリストします。
次の図は、1つのCDRイベントから2箇所抜粋したものです。ハイライトされたキー・エレメントに注目してください。この記事の後続の図で、これらのキー・エレメントとの相関を見ることができます。
globalSessionIDとworkspaceIDを参照することで、Watson Assistant内での開始ポイントと宛先ポイントをたどれます。Watson Assistantからユーザーに対するすべての応答も、同様に、このイベント内で識別できます(allIntents)。
2. トランスクリプション・イベント
ユーザーのあらゆる発話、およびWatson Assistantのあらゆる応答について、詳細を公開します。
注: 公開されるイベントは、それぞれが、発呼者による発話またはWatson Assistantによって生成された応答のいずれかを詳述する1つのトランザクションです。
キー・エレメント:
- globalSessionID — Voice Gatewayの「Usage(使用状況)」ログにあるSessionIDを使用して、このIDを相互参照できます。
- sourceType とdestinationType — これらのエレメントを参照することで、そのイベントで記録されたのがユーザーの発話であるか、Watson Assistantの応答であるかを判別できます。sourceTypeの値が「conversationID」である場合は、そのイベントがWatson Assistantの応答であることを示しています。値が「sipURI」である場合は、ユーザーの発話です。
- source & destination — このイベントは、sourceType エレメントとdestinationType エレメントに関連する追加の詳細を提供します。<source/destination>Type エレメントの値が「conversationID」である場合、このエレメントはconversationID の値になります。または、<source/destination>Type が「sipURI」である場合、このエレメントには着信した発呼者ユーザーIDの値が設定されます。
- transcription — ユーザーの発話またはWatson Assistantの応答によって発行されたストリング・テキスト
- conversationID — このIDによって、ある1つのセッションのトランスクリプション・イベント群がつながります。
- workspaceID — このIDによって、ある1つのセッションのトランスクリプション・イベント群がつながります。
次の例では、1人の発呼者の発話があり、その後にWatson Assistantからの応答が続いています。
このシーンの背後で起きていることを示すのが、以下のトランスクリプション・イベント群です。
Event #1は、Source/SourceType で表された発呼者の発話です。Destination/DestinationType で示された発呼者の電話番号から開始され、Watson Assistant (ConversationID で識別される)を宛先としています。
同様に、Event #2は Watson Assistant (ConversationID) から発信された発呼者への応答です。
workspaceID とglobalSessionID も表されているため、CDRイベントとの相関が可能です。
3. ターン・イベント
ターン・イベントは、ユーザーの発話とWatson Assistantの応答の完全なトランザクションの詳細を提供します。
次のイベント例を見ると、ユーザーがVoice Gatewayに関する情報を要求しており(Inputセクション)、Watson Assistantがそれに対する応答を返信しています(Outputセクション)。 conversationID も含まれているので追跡可能です。
Watson Assistantのログの調査
それではここで、会話セッションがWatson Assistantに入ってきたときに何が起こっているのか見てみましょう。Watson Assistantによって記録されたログ情報は、サービスのライフ全体にわたるすべてのトランザクション(発呼者の発話とWAの応答)を完全に表しています。
ワークスペースでログ・イベントをリストするためのREST API(英語)を使用してログを検討するのが、最もよい方法です。
適切な入力パラメーター(apikey、workspace_id、API version)を指定すると、結果がJSON形式で返されます。
このようにAPIを呼び出すと、ログ履歴全体が返されます。Voice Gateway/Watson Assistantが一定時間稼働していると、このログは膨大になります。便利なフィルター機能があるため、返された結果を処理しやすいレベルまで絞り込むことができます。
Watson Voice Agent Insights ダッシュボード — ベータ版
セッションをたどるには上記の方法でも十分ですが、Voice Insights (英語)というベータ版ユーティリティーがあります。これは、収集されたすべてのイベントをマイニングして、統合された会話セッションのリストとして表示する、ブラウザー・ベースの優れたインターフェースを提供します。各セッションの分析が簡素化されるため、これを探索することで、前述のすべてのエレメントとそれぞれの相互関係を明らかにすることができます。加えて、REST APIも公開され、カスタマイズしたソリューションへの統合が可能になっています。
現在はベータ版のユーティリティーですが、試用する価値は十分あります。この1年間で引き続き改良を重ねていく予定です。手順と、Dockerイメージへのリンクは、こちら(英語)で参照できます。
多くのお客様が、既にこのような手法を自社のサポートや運用の手段に取り入れておられます。皆様のビジネスにおいても同様にWAVIがお役に立つことをご理解いただけると幸いです。
原文:Understanding the Watson Assistant for Voice Interaction Solution (https://medium.com/ibm-watson/understanding-the-watson-assistant-for-voice-interaction-solution-b08eff69f46e)
敷居もコストも低い! ふくろう販売管理システムがBIダッシュボード機能搭載
IBM Data and AI, IBM Partner Ecosystem
目次 販売管理システムを知名度で選んではいないか? 電子取引データの保存完全義務化の本当の意味 ふくろう販売管理システムは「JIIMA認証」取得済み AIによる売上予測機能にも選択肢を 「眠っているデータの活用」が企業の ...続きを読む
セキュリティー・ロードマップ
IBM Cloud Blog
統合脅威管理、耐量子暗号化、半導体イノベーションにより、分散されているマルチクラウド環境が保護されます。 2023 安全な基盤モデルを活用した統合脅威管理により、価値の高い資産を保護 2023年には、統合された脅威管理と ...続きを読む
量子ロードマップ
IBM Cloud Blog
コンピューティングの未来はクォンタム・セントリックです。 2023 量子コンピューティングの並列化を導入 2023年は、Qiskit Runtimeに並列化を導入し、量子ワークフローの速度が向上する年になります。 お客様 ...続きを読む