EXTENSION

Real-Time Speech to Text

Create a better user experience and integrate with large language models (LLMs) using the most accurate cloud-based live transcription and subtitling.
A live video conference interface showing a woman presenting with real-time transcription and meeting notes displayed, including participant thumbnails and a transcription panel with highlighted key points.
サポート対象プラットフォーム
RESTful API
EXTENSION

Real-Time Speech to Text

Create a better user experience and integrate with large language models (LLMs) using the most accurate cloud-based live transcription and subtitling.
サポート対象プラットフォーム
RESTful API
で構築しているお客様
アゴラとオープンAI
grepp logoWYZE logokileon logokumu logoScaler logoParallel logoJorJin logoAnotherBall logoEllie logozigbang logo
grepp logoWYZE logokileon logokumu logoScaler logoParallel logoJorJin logoAnotherBall logoEllie logozigbang logo

Features

Cloud-based live transcription icon
Cloud-based live transcription
Cloud-based transcription converts audio to text for active or selected hosts in real time. Text can be distributed as live captions to all participants in the channel.
LLM integration icon
LLM integration
Integrate speech to text with LLMs for further processing, without impacting RTC performance. Upload transcription text as .vtt files to LLMs like GPT to generate summaries, notes, and more.
Simultaneous speakers icon
Transcribing and labeling simultaneous speakers
Easily label who said what—even with up to 3 simultaneous speakers. Separate transcription for each host ensures accuracy and allows you to choose to transcribe for one specific host.
Captioning for cloud recordings icon
Captioning for cloud recordings
Transcribe audio to text on video or audio recordings to enable closed captions (CC) on playback or review important discussion items in the transcript.
Multi-language support icon
Multi-language support
Real-time transcription supports all major languages and dialects, and each channel can support audio-to-text transcription for up to two languages simultaneously. 
Enterprise-grade security and compliance icon
Enterprise-grade security and compliance
Agora is ISO and SOC 2 certified and meets compliance standards for regional privacy laws and industry regulations, including GDPR, CCPA, and HIPAA. Live captions and transcription can be encrypted in the same way as encrypted RTC audio or video.
会話型AIエンジンを搭載したボイスエージェントと対話しましょう。
今すぐ試す
1 つのリアルタイムビュー 次のような指標については 最も重要な
1 つのダッシュボードを使用して、世界中のすべてのアクティブなセッションを監視できます。最も多い指標を追跡できます。 同時接続ユーザー数やチャネルからネットワークレイテンシーまで、あなたにとって重要なことです。

あなたのビジョン、制限なし。

Interactive Whiteboardを使用すると、カスタムブランディングと豊富な機能を備えたコラボレーションアプリをすばやく構築できます。当社のプラットフォームでは、カスタマイズされた魅力的な学習環境を簡単に作成できます。
  • 柔軟な API は、カスタムブランディングと広範なデジタルホワイトボード機能をサポートします。
  • リアルタイムの音声通話とビデオ通話、インタラクティブなストリーミング、シグナリングを簡単に統合できます。
  • ファイルのプリロード、共有、注釈付けによってユーザーの帯域幅を節約し、すべての動的コンテンツを保持できます。
また、HIPAA、GDPR、CCPAへのコンプライアンスにも安心してお使いいただけます。

OpenAI のリアルタイム API の実際の動作をご覧ください

Instantly transcribe speech to text for live audio and video

Agora’s Real-Time Speech to Text provides accurate live transcription and subtitling services at a low cost.
Reduce cost and increase efficiency icon

Reduce cost and increase efficiency

More efficient and cost-effective than traditional client-side live transcription, Agora’s solution by uses advanced technology to remove silence, reduce Word Error Rate (WER), and distribute live captions to all participants in a channel.
Reduce cost and increase efficiency icon

Reduce cost and increase efficiency

Get the most accurate results at scale icon

Get the most accurate results at scale

Cutting-edge AI ensures the highest accuracy even with overlapping speech, regional accents, and poor network conditions. Scale from one-to-one meetings to up to millions of participants with the same accuracy.
Get the most accurate results at scale icon

Get the most accurate results at scale

Integrate with ease icon

Integrate with ease

Agora’s Real-Time Speech to Text is highly integrated with Agora’s network (SD-RTN™), providing global user transcription and real-time text distribution even in poor network environments.
Integrate with ease icon

Integrate with ease

以下のレコーディングオプション:

クラウドレコーディング
記録をクラウドに保存、取得、共有します。
ドキュメントに移動
オンプレミス録画
セキュリティと機密保持のため、ローカルサーバーに保存してください。
ドキュメントに移動
Web ページの録画
Web ブラウザーの画面エクスペリエンス全体を記録します。
ドキュメントに移動

アゴラ・メディア・サービス

Recording icon
レコーディング
オーディオストリーム、ビデオストリーム、およびWebページを録画して、アーカイブ、レビュー、または配信します。
Live icon
メディアゲートウェイ
RTMP/SRTプロトコルを使用してメディアストリームをAgora音声およびビデオチャネルに直接プッシュし、メディアストリームの高度なトランスコーディング処理を可能にして配信を容易にします。
Download icon
メディアプル
ライブまたは録画したビデオやオーディオコンテンツを取り込み、Agoraチャンネルに直接取り込むことで、Agoraセッションのエンゲージメントをさらに高めましょう。
メディアプッシュ
オーディオとビデオのストリームを Agora チャンネルからコンテンツ配信ネットワーク (CDN) にプッシュすることで、ハイブリッドなエンゲージメント体験で視聴者を増やしましょう。

Made for developers

クイックスタートガイド

Agora と Open AI を使い始めるためのクイックスタートガイドをご覧ください。
会話型AIエンジンの仕組み

Made for developers

あなたのコード

アゴラ SDK

柔軟な SDK を使用して、最初からエクスペリエンスをカスタマイズできます。
あなたのコード

アゴラ SDK

AgoraのVideo SDKを使用して、柔軟性とカスタマイズ性を最大限に高めながら、リアルタイム動画を作成してアプリに統合できます。
コードなし

アプリビルダー

Agoraのアプリビルダーは、コード不要のビジュアルデザイナーを使用して、ビデオを製品にリアルタイムで取り込む最も速くて簡単な方法です。
ドキュメントに移動
ローコード

アゴラ UI キット

ローコードの UI Kit ライブラリを使用して、わずか数行のコードでリアルタイム動画をアプリに追加できます。
ドキュメントに移動
あなたのコード

アゴラ SDK

柔軟な SDK を使用して、最初からエクスペリエンスをカスタマイズできます。
RESTful API
ドキュメントに移動
ローコード

アゴラ UI キット

ローコードのUIKitライブラリを使用すると、わずか数行のコードを使用してリアルタイム通信とストリーミングを統合できます。
ドキュメントに移動

ドキュメンテーション

このプロジェクトでは、Agora API の使用方法を理解するのに役立つ一連の API 例を紹介します。
Platform-agnostic RESTful APIs make it easy to add highly accurate and cost-effective real-time speech-to-text capabilities.
RESTful API
ドキュメントに移動

AgoraコンソールでAIノイズ抑制拡張機能を有効にします。

Activate the Real-Time Speech to Text extension in the Agora Console.

あなたのコード

アゴラ SDK

AgoraのVoice SDKを使用して、最大限の柔軟性と完全なカスタマイズで音声通話を構築および統合できます。
RESTful API
ドキュメントに移動
コードなし

アプリビルダー

Agoraのアプリビルダーは、リアルタイムのボイスチャット、ビデオチャット、ライブストリーミングを製品に追加する最も速くて簡単な方法です。
ドキュメントに移動
あなたのコード

アゴラ SDK

AgoraのInteractive Whiteboard SDKを使用して、最も柔軟で完全なカスタマイズを実現しながら、リアルタイムのビジュアルコラボレーション機能を構築してアプリケーションに統合できます。
RESTful API
ドキュメントに移動
ローコード

ファストボード

事前構築された UI とカスタムプラグインを含める機能により、リアルタイムのビジュアルコラボレーションをより迅速に構築できます。
今すぐ試してみる
セキュリティ、プライバシー、コンプライアンス
アゴラは、ISO/IEC 27001、27017、27018、27701、およびSOC 2のセキュリティ基準の認定を受けており、GDPR、CCAP、COPPA、HIPAAなどのプライバシー規制を満たしています。Agoraは、サービスの提供に必要なインターネットプロトコル(IP)アドレスと運用情報以外のエンドユーザーデータを収集または保存しません。
ISO 27001:2022
ISO 27017:2015
ISO 27018:2019
ISO 27701:2019
ヒパー
GDPR
SOC2 タイプ 1 & 2
CCPA
コッパ
HOW TO INTEGRATE?
Streamlined 3-step integration process:
01
Activate Agora Conversational AI Engine
Unlock real-time Speech-to-Text (STT) and Text-to-Speech (TTS) capabilities, enabling seamless conversational interactions. 
02
Integrate Agora Edge Chip on Hardware
Optimize microphone, speaker, and system efficiency to ensure ultra-low-latency and high-fidelity conversations.
03
Deploy AI Voice Agents
Enable interactive, multilingual, and user-customized conversations for a wide range of IoT applications.
By building our Conversational AI technology into Beken’s high-performance IoT chip modules, the turnkey solution makes it easy to integrate voice AI into any connected toy. 
“With Agora’s conversational AI technology and our optimized AI hardware, we’re enabling the next generation of toys to think, respond, and interact naturally. We are excited to usher in the future of robotics and toys, ones that can react to the environment around them and interact fluently with users.” 
Pengfei Zhang
CEO, BEKEN
ユースケース

Transcribe speech to text for any real-time application

Securely transcribe and record real-time audio or video and organize recordings and transcripts to speed up workflows.
An online classroom with real-time captioning powered by speech-to-text transcription and subtitling.
Education
Give faculty and students real-time captions and analyze them with an LLM to provide lesson summaries and suggestions for further learning.
A live video call with a doctor and speech-to-text transcription services.
Telehealth
Keep secure records of virtual appointments for Minimum Effective Response (MER) and cross-reference telehealth knowledge bases.
A live basketball game showing player soaring through the air and making a slam dunk in front of a packed arena. Overlay text via speech-to-text reads "Unbelievable move! The score is now 68-65."
Events
Empower your event with real-time, accurate notes, ensuring a more accessible, searchable, and engaging event experience.
A speech-to-text enriched live shopping session with woman detailing a veggie basket product offering.
Live shopping
Use virtual assistants to improve accessibility and reach a wider audience by offering detailed product information, personalized recommendations, and guiding customers through the purchasing process.
A virtual meeting between four people with real-time automated notes and documented outstanding questions and action items via an LLM.
Virtual meetings
Provide real-time automated notes in meetings and document outstanding questions and action items via an LLM.
An influencer on social channel sharing a review of a sandwich with speech-to-text translations into Vietnamese.
Social & metaverse
Eliminate communication barriers for people with different languages or disabilities. Extract conversation for business optimization, advertising, and moderation.
Robopoet's Fuzzoo, an AI companion robot, leverages Agora's ConvoAI Device Kit to deliver real-time emotional support and personalized interaction.
"Agora’s AI technology enables toys and robots to interact in a way that feels natural and engaging. With real-time voice processing, emotional AI, and advanced speech capabilities, Agora makes seamless human-machine interaction possible and ensures exceptional performance and reliability." 
Yuna Pan
Co-Founder and CTO
Mouse cursor illustration

ファストボード

Agoraのインタラクティブホワイトボードを最新のFastboard SDKと簡単に構築して統合できます。これにより、ビルド済みのUIとカスタムプラグインを含めることができるため、まったく同じホワイトボード機能がすべて提供されます。
今すぐ試してみる
“Agora’s Real-Time Speech to Text enabled us to integrate with AI to automate translation and feedback, providing substantial improvements in the overall language learning experience.”
Zackery Ngai
Zackery Ngai
CEO, HelloTalk
Request more information
Connect with our experts to answer your questions, discuss requirements, and provide more detail on the ConvoAI Device Kit

FAQ(よくある質問)

Agoraの会話型AIエンジンは他の音声AIソリューションとどう違いますか?

アゴラは、低遅延の応答とリアルタイムの割り込み処理により、より自然な音声対話を可能にします。また、内蔵のバックグラウンドノイズ抑制、エコーキャンセル、選択的注意ロックにより、どのような環境でもAIがユーザーの声を明確に認識できます。さらに、アゴラのグローバルリアルタイムネットワークにより、世界中どこでも安定した接続と高いパフォーマンスを提供します。

Agoraの会話型AIエンジンで接続可能なLLMは?

アゴラの会話型AIエンジンには、OpenAI互換のLLMを接続できます。具体的には、OpenAIのGPTモデル、Google Gemini、DeepSeek、およびOpenAI互換のカスタムモデルが利用可能です。さらに、今後追加のLLMのサポートも予定されています。

音声AIエージェントの導入に必要な技術は?

音声AIエージェントを実装するには、LLM(大規模言語モデル)とテキスト読み上げ(TTS:Text-to-Speech)サービスをアゴラの会話型AIエンジンに接続する必要があります。これにより、LLMや音声を自由にカスタマイズし、最適な音声AI体験を提供できます。

「カスケードモデル」とは?

カスケードモデルは、

  1. 音声→文字変換(STT)
  1. LLMによる処理
  1. 文字→音声変換(TTS)
    の順でAI応答を生成するプロセスを指します。
Agoraの会話型AIエンジンでLLMを作成できますか?

いいえ、本エンジンは既存のLLMとの音声対話を可能にするものであり、 LLMの作成やトレーニング機能はありません。