音声認識アプリ「UDトーク」の強みとは｜モバテク vol.046 - モバテク

石川温・弓月ひろみ・北真也がお届けする「モバテク」。2026年2月15日の第46回放送のアーカイブです。

ゲストに青木秀仁さんをお迎えして、コミュニケーション支援・会話の見える化アプリ「UDトーク」についてお話ししました。

オープニング
UDトークってどんなアプリ？
UDトーク開発の経緯
アプリ開発を続けてこれた理由
UDトークのユニークな機能
ぶっちゃけ儲かりましたか？
プランの違い
日本語の音声認識の難しさ
教育現場でのUDトーク
ドラマ「silent」でのUDトーク
エンディング
ラジオで流した楽曲
- Subtitle / Official髭男dism

オープニング

こんばんは、番組パーソナリティの弓月ひろみです。Mobile Tech Lab。この番組は最新のモバイルテクノロジーを学びながらこれからの生活をちょっと豊かにできたらという番組です。皆さんもこんな未来になったらいいなを一緒に考えていきましょう。そして今夜も私と一緒に番組を進めてくださるのはこのお二人です。

こんばんはスマホケータイジャーナリストの石川温です。

こんばんはINNOMO代表の北真也です。

今夜もよろしくお願いいたします。さて今週は番組にゲストをお呼びしております。本日のゲストはコミュニケーション支援・会話の見える化アプリ「UDトーク」の開発者であるShamrock Records株式会社代表取締役の青木秀仁さんです。よろしくお願いします。

よろしくお願いします。

簡単に青木さんのプロフィールご紹介させていただきます。音声認識と自動翻訳技術の活用を得意とし、多数のスマートフォンアプリをリリース。コミュニケーション支援・会話の見える化アプリ「UDトーク」の開発者でありながら、レンタルスペースの運営なども行っていらっしゃるとのこと。またShamrock Recordsの社名通り、ご自身も音楽活動されていた経歴があるそうです。

今日はよろしくお願いいたします。今日はこのUDトークというアプリについてなんですけれども、改めてこのUDトークがどういったアプリなのか、教えていただけますか？

UDトークってどんなアプリ？

UDトークは今ご紹介いただいたように、コミュニケーション支援・会話の見える化アプリということで、音声認識を活用して声を文字にして、それを使ってコミュニケーションをするというアプリになります。

これ開発は2013年スタートということで、かなり長く開発をされてらっしゃるんですね。

そうなんですよ。だから2013年なんて、音声認識なんて言葉は全然一般的でもないし、UDトークは自動翻訳の機能もついてるんですけども、2013年に自動翻訳って皆さんが使っていたかどうかぐらいな。

いやー、あんまり記憶にないですね。

たぶんここ数年でディープラーニングとかそういうのが入ってきて、音声認識や自動翻訳がぐんと上がって、なんかもう当たり前に使うようになってきたけど、結構その前からやってました。

正直言って12〜3年前って、そこまでちゃんと覚えてないですよね。

覚えてないですね。まあでも僕自身は実は、アドバンスト・メディアっていう会社で、音声認識を2000年ぐらいからやっているので、実は音声認識とアプリ開発の歴は25年という。なかなかいないんじゃないかなっていうふうな。

音声認識って何が難しいんですか？

日本語がまず難しいですね。喋っててもわかるように日本語ってすごい曖昧だし、並び順もどんなふうに並べたって意味がわかってしまう。でもいわゆる言語モデル的にはなかなかマッチしないとか。だからずっとボロクソ言われながらやってきてるわけですよ、音声認識関係者は。

同音異義語がいっぱいあってそれを認識して、じゃあその言葉の並びでここに入るのであればこの意味だみたいな。

そうですね、確率統計モデルになるので、ある程度長い文章でマッチさせるとか。考えるっていうよりは一番点数が高いものを出してきて、それが合ってるかどうかを判断するのは、使った人が判断するみたいな技術なんで、まぁやっぱり人によりますよね、評価は。

UDトーク開発の経緯

会社を作られる前から、音声認識に携わられていたということですけれども、UDトークを開発するきっかけになったのはどんなことだったんですか？

音声認識をやっていて、この世の中にスマートフォンのアプリっていうものが出てきて。とある聴覚障害を持った方から相談をいただいて、「音声認識を活用して自分たちの生活に使えるアプリが開発できませんか？」と。

たしかに周りの人の喋ってる声が文字になったらその人の生活は楽になるというか、一個課題が解決するなと思ったので作り始めました。

ところが開発を進めていく間に、僕自身がその人と会話をする時に、自分で喋って使うようになったわけなんですよね。

ちょっと待てよと。確かにきっかけは障害がある方に、自立のために使うアプリって言われたんですけども、この場合のコミュニケーションの課題って実は話しかけるこちら側にあるんじゃないかって気が付いて。

そこからはどっちかっていうと、自分が会話でその人に話しかけるために作る、っていう方にフォーカスをしていって、作り始めたっていうきっかけがあります。

自分がしゃべる側という認識だと、例えば耳の聞こえない方に伝えるために、自分の声をテキストにするっていうきっかけですか？

そうですね。例えば相手が手話ができる方だったら手話通訳の方を呼んでもらってコミュニケーションをするという選択肢もあるんですけども、耳が聞こえない方が全員手話できるわけではないので、当時の一般的な方法としては手書きで情報を伝える方とか。

筆談ですね。

あとはパソコンのタイピングはそこまでまだ一般的ではなかったかなと思うんですけども、そういう方がいたんですよね。なんか常にやり取りをする時にそういう方を呼んでやり取りをするのもちょっと違和感はあったんですよね。

僕は障害関係の福祉畑の人間ではなく一般的なアプリプログラマーで、ビジネスマンだったので。これ自分でできるようになったら、自分の課題が解決するなと思いましたね。

アプリ開発を続けてこれた理由

当時アプリは、UDトーク以外にも色んな種類のアプリ作られてたんですか？

そうです、アプリはすごいいっぱい作っていて。例えばEvernoteの関係のアプリだとか。当時って結構アプリってすごくいろんなものを、1機能1アプリで出しても結構ウケた時代だったんです。

盛り上がってましたよね。

ほんとシンプルなアプリがたくさんありましたよね。

あの時代に年間で20本ぐらいコーディングして、出してた時期もありましたね。

青木さんが作られてたアプリ。ライフハック界隈ではすごい人気が高くて、Ever…。

MoveEver。

MoveEver！めっちゃ使ってました。

懐かしいですね。

すごいファンだったんですよ当時。

ありがとうございます。

っていう中でUDトークが生き残ったというか、代表作になったのは何でだと思います？

そうですねまぁ、ボロクソ言われても続けたからかなとか(笑)

やっぱり自分ごとの課題を解決するっていう視点だったかなと思います。コミュニケーションで携わっていくと、アプリを開発する前はまわりに耳が聞こえない人なんて一人もいなかったんですけども、開発し始めるとすごくいっぱい周りにいたんですよね。

そうすると自分がその人達に自分が言ってることを伝えるために、UDトークを使ったら自分でできるなっていうふうになって。

そのあと自動翻訳の機能も付けたら、周りに外国の人って結構いっぱいいて。じゃあこのアプリを使って自分でもできるなみたいな感じで。

だから多分世の中で一番UDトーク使ってるのは自分なんじゃないかなとは思っています。それが多分続けて来られた理由なのかなと。

テキストに起こす方法は色々あると思うんですけれども、やっぱり手書きとなるとちょっともどかしかったり、同じスピードでは伝えられないっていうのもありますね。

そうなんですよね、まぁもちろんケースバイケースにはよるんですけども、やっぱり音声認識のいいところは早いってのと、話し手が使う分だったら、それが合ってるかどうかを判断が自分でできるので間違ったらもう一回言い直せばいいし。

確かにそうですよね。自分の喋った言葉がちゃんと出てるなって思えばそのまま見せればいいし、違うなと思ったら言い直せばいい。

言い直せばいいし、直してもいいし。

UDトークのユニークな機能

UDトークの面白いなというところは、入力方法がいろいろあるという所と、あとはみんなで会話をシェアできるっていうところだと思うんですけれども、これどういう機能なのかちょっと解説していただけますか？

UDトークはスマートフォンのアプリで動くんですけども、アプリアイコンをタップしてアプリを起動してから声で入力して行くこともできるし、スマホの中のキーボードとしての入力機能があるので、いろんなアプリにも入力することができます。

あとはアプリでQRコードを発行して、周りの人にシェアをするとブラウザで見てもらうことができるっていう。なるべくコミュニケーションを取るみたいなところでの負荷を減らすためにどうしたらいいかなと考えたら、QRコード取ってもらって目の前で伝えて、それでまぁそこで用が終わったらじゃあみたいな感じでいくのがいいのかなと思って。

それだとアプリのインストールはしないでも、使えるっていうことにはなっちゃいますよね。

なかなかねやっぱりアプリのインストールって、長いことアプリビジネスとかアプリ開発やってると、なかなかしてもらえないんですよね。さっきもうすぐしてくれた方(北真也さん)がいますけど、なかなかそこはハードルが高いんですよね。

QRコードっていうのは、自分のアプリのQRコードを他の人が読み込むと、アプリで入力した文字が、他の人たちのブラウザで見れるっていうことですか？

そういうことです。なので話し手が使って相手に伝えるっていうところはそれが一番簡単に、インストールする時間なんかもなしでできると。

そこで双方向に話したい場合なんかは、じゃあそちらもアプリを入れてくださいねっていうふうにすると、トランシーバーみたいな感じでお互いにしゃべって、日本語英語で自動翻訳しながらとかっていうこともできたりとか。

アプリ同士でやりとりもできるってことですか？

できますできます。

なるほど。めちゃめちゃ便利。

確かに環境を作るまでの時間は短い方がいいに決まってるっていうところで考えると、アプリ入れて登録してなんかログインしてここに集まってとかっていうよりは、QRコードでパッとシェアできるっていうのが、もう本当に体験としては素晴らしいですね。

そうなんです。

ぶっちゃけ儲かりましたか？

ぶっちゃけ儲かりました。

へ〜〜〜。

そうですか？

やっぱりブルーオーシャンですよ。

当時。

2013年ぐらいにもう周りにボロクソ言われながらも、そこで色んなことをヒアリングとかして、自分でも使いながらってやったら、もうほぼ同じことやってる人がいなかったんですよね。

でもやっぱり社会的にはそういうものが欲しかったっていうのもあって。

当時から使ってくださってる、当時から法人契約で使ってくださってる方なんかもいますので、ほんと感謝でしかないですよね。

プランの違い

法人契約で使われてる方の用途はどんなものなんですか？

もちろん一般の企業でも使われてますし、教育機関自治体とかそういうとこでも使われてるんですけども、無料で今アプリインストールもできるんですけども、無料と法人版の違いというのは、音声データを収集してAIの学習に回すか回さないかなんですね。

機能的な差は全くないです。アプリで機能制限つけてしまうと、ユーザーさんが体験できないので、やっぱりそこからその次にいかないんですよね。だからもう初めからコンセプトとしては、機能制限は付けないっていうふうに思っていて。

じゃあ一般の方、いわゆるC向けには全ての機能を開放しておいて、法人向けには別のプランを用意しておくというか。

そういうことです。なので音声データの扱いだけが違うっていうところで。だから別に一般の法人さんでも、例えば喋ってるデータをAIの学習に回してもいいよと言うのであれば、全然無料版をお使いいただいても構わないんですね。

やはりもちろん会議で使われてるんですよね。

すごく使われてます。

とは言えじゃあ企業の会議で無料版で済ませるかっていうと、やっぱりそこはお金を払う感じになりますよね。

そこはユーザーさんの自由ですので。ただやっぱりそこで勘違いしてほしくないのは、これは情報漏洩ではなくて、もちろんそのデータを預かったらすごく厳重に管理をしてきちんとデータも精査してAIの学習に回していますので、僕は協力をしていただいてるというふうなことをずっと言ってきてます。やっぱりデータを集めないと音声認識の精度は上がらないので。

それでだいぶデータは集まったものなんですか？

めちゃめちゃ集まりました。さっきも言ったように僕はアドバンスト・メディアってとこでかなり長いこと働かさしてもらったので、その恩もあるので、そちらの方にだいぶ貢献できているんじゃないかなとは思います。

じゃあ日本における日本語認識が上がったのは、UDトークのおかげと言っていいんですかね。

言っていいんですかね？ただやっぱりアドバンスト・メディアのAmiVoiceは、B向けの音声認識だとシェアNo.1なんで、やっぱりそこで精度が上がってきたのは、うちだけじゃないんですけども、やっぱりデータをコツコツと集めてって学習に反映させたっていうのが大きいとは思います。

なかなか集めるの難しいですもんね。

難しいです。だからこればっかりはやっぱりもう、集めた量は追いつくものでもないので、かなり集まってて精度も上がってきたっていうところが今かなりぐっときているんじゃないかと思います。

日本語の音声認識の難しさ

音声認識の一番難しいところっていうのはどんなものなんですか？

やっぱり話し手によるってとこですかね。

声の質とか？

話し方とか。特に日本語の話し方って音声認識にすごい向かないんですよ。これは自動翻訳でもそうなんですけども、やっぱり自由度が高すぎるのと、文脈とかコンテキストにかなり左右されるので。だから結構そこ難しいですね。

最終的に語尾で反対意見にしたりすることもできますもんね。

まさにそれなんです。だからその分を担保するにはやっぱり喋った人が内容を見て、結果があってれば認識率は100%だっていう感じなんですよね。だから100%は自分で作れるので。

やっぱり音声認識はこういうコミュニケーションで使うなんてところでも、話し手が使うというのが一番いいんじゃないかなと思って提案をし続けてるのがUDトークっていうアプリになります。

そうやって得た学習データの中で、ここは認識しにくいなというものをまた抽出してさらに学習させていくわけですね。

そうですね。

そしたらどんどん精度が上がると。

上がっていきます。

今となっては音声認識ってちょっと普通な感じはしますけど、確かに2013年には全く音声入力をする人もいなかったですね。

いやだからほんとあの頃はもう、日本語って音声認識に向かないんだって諦めてたというか。いろんなサービスが出てきてる中でやっぱり英語向けで作っているもの、英語の認識はすごい上がってるっていうのがある中で、日本語って大変なんだなっていう認識だったのが、ここ数年でだいぶ変わってきたというか。GoogleのPixelとかもそうなんですけど、だいぶそこはAIの力によって変わってきたなって感じはしますよね。

AIの登場というか、AIの進化に従って、すごく変わってきたなという実感はありますか？

そうですね。AI技術ですよね。ディープラーニングとかそういうので、音声認識もやっぱり影響を受けてぐんと精度が上がったので。正直この25年、全然認識しない時から音声認識をやってた身からすると、少々気持ち悪いぐらい精度上がりましたもんね。

関係者の間でも「うわっ！気持ち悪っ！」みたいな感じの、それくらい良くなりました。

すごく飛躍的に伸びたなっていう印象があるんですね。

2014年とか2015年に、UDトークもそのエンジンを先駆けてちょっと入れさせてもらったので、やっぱりその頃でも、そのエンジンを入れる前と後では全然違いましたね。

認識率が上がればまた使われる人の数も増えたり、さらに学習元は増えますよね。

そうですね。

教育現場でのUDトーク

ちなみに教育のシーンだと具体的にはどういう形で使われてるんですか？

声を文字にして見せるというところで、聴覚障害がある方とのコミュニケーションが円滑になるという点で言うと、大学とかで聴覚障害がある学生さんなんかが授業に参加する時なんかに、手話通訳がいたりノートテイカーって呼ばれる人達がいたりとかって中に、教授が音声認識を使って手元のタブレットに文字を出すみたいな感じで。

かなりの大学がUDトークを採用してくださっているので、だいぶ変わってきたんじゃないかなと思います。

それだとハードルなく授業の内容も遠慮なく使えるというか。やっぱり誰かを介するってなると、ちょっとそこに時差があったりしますもんね。

まぁただやっぱり音声認識も誤認識を修正するとか、きちんと内容が合ってるかどうかを確認するっていう体制も必要なので、各大学そういう学生支援室みたいなところがUDトークを使って、聴覚障害のある学生さんが自分で持つことによって、いろんな活動に参加しにいけるみたいな。いろんなパターンで活用を検討してくれてるところが結構ありますね。

環境が整備されますし、やりたいことが自由にやれるようになるっていうところでは、かなり素敵なアプリだなと思います。

ありがとうございます。あとは、文字で見た方が理解しやすいっていう子たちですね。聴覚に障害があるなしに関わらず。そういうところでも活用がされているというケースも聞いております。

結構石川さんとかも同時通訳で記者会見を聞いたりすることがあると思いますけど、同時通訳って結構混乱しますよね。

そうですね、同時に入ってくるので日本語と英語。で、どっちをねメインに聞いたらいいか悩ましいしっていうとこで言うとね、そうやって文字になってくるとありがたいなって気がしますね。

ドラマ「silent」でのUDトーク

ちなみにUDトークが最近すごく話題になったところとしては、ドラマ「silent」で使われたということで、ご覧になった方もいらっしゃるかもしれませんが、川口春奈さん演じる青羽紬と、目黒蓮さん演じる耳の聞こえない佐倉想が、UDトークで会話をするというシーンがありました。

内容を見てみたら、いい感じに使われてたって感じですね。

そのあとのダウンロード数とかどうでしたか？

あっでもダウンロード数自体は、結構もうさすがに長いことやってると。

ドラマで跳ねるわけではなく。

跳ねるわけではないんですけど。

安定して伸びてる。

安定して伸びてる。結構反響はありましたね。調子乗って僕もYouTubeで色々作ったりとかして、乗っかってみましたけども。

でも使い方としては青木さんが理想とされている使い方だったということですか？

周りの人が話すために使うというところに関しては、ちゃんと作られてたような気がします。

自分がコミュニケーションを取って伝えるためにっていうところですね。

そうですね、はい。一回くらいドラマの現場に呼んでもらいたかったんですけども。

ねえ。アプリ監修としてね。

そう、そうなんです。そうなんですよ。

でも最終的にはテロップとかではちゃんと。

そうです、はい、エンドロールには出ました。

普通ドラマだったらそれっぽいアプリを作って、画面だけ見せるみたいなあるかと思いきやちゃんとUDトークを使ってたっていう。

そうなんですよ。僕エゴサ大好きなんでエゴサしてると、「このアプリ実在するんだ」とか。結構そういう意見がありましたね。

結構若い世代への認知拡大になってそうなイメージありますよね。

そうそう。聴覚障害がある僕の友人が、今まではUDトークの紹介を自分でやってたらしいんですよね。このアプリに話しかけてもらえれば自分も分かるからみたいな。silentを放送した後は、「あっドラマに出てたアプリね」みたいな感じで、もうそういうふうに認知が広がったみたいで。

インフラ的な扱いですね。

もうすごい世界は変わったっていうふうに、ちょっと大げさかもしれないですけど、言ってくれた友人がいましたね。

でもそれは「みんなで連絡を取るならLINEだね」とか「Messengerだね」みたいな形で、じゃあここでみんなでコミュニケーションするならUDトークだね、っていう世界が完成したという。

そうです。嬉しかったですね。

すごく素晴らしい体験だったかと思います。いや〜残念ながらちょっとお時間となってしまいまして、青木さんにはまだまだお話伺いたいので、来週もぜひお越しいただけないでしょうか？

はい、行きます。

ありがとうございます。来週もどんな話が飛び出すか楽しみにしていただきたいと思います。

エンディング

Mobile Tech Lab。そろそろお別れの時間となりました。青木さん本日の放送いかがでしたか？

いやぁ、ありがとうございます。色々話せて楽しかったです。

何か緊張されたなんていうのを(ラジオで曲が流れている間に)おっしゃっていましたけど、全然そんな感じしませんでしたね。石川さんいかがでしたか？

成功するアプリってコミュニケーションってやっぱり重要だなというか。人と人が繋がりたいっていう時にその間に入る道具として機能するってのは大きいなっていうのは、今日青木さんのお話聞いてよく分かりました。

北さんいかがでしたか？

アプリ開発をしてる人の話って普段聞く機会がなかったので、UDトークももちろんですけど、それにとどまらずアプリ開発をやってきてる人がどういうことを考えてとかどういう苦労があるのかっていうのを、もっと掘り下げてそこも聞きたいなって思いました。

苦労話はね、いっぱいありますよ。

ぜひちょっとそのあたりも今度聞かせてください。

私は石川さんの「儲かりましたか？」に対して、「儲かりました」っていうので良かったなって思いましたね。