The Culture Factor

お問い合わせ

メールマガジン
登録

BLOGブログ

キーボードが過去になる日? 音声入力とAIの未来を考えてみた – 歩きながら考える vol.46

2025.05.21 渡邉 寧
「歩きながら考える」

今日のテーマはAI時代において急速に変わる入力デバイスの変化について。このシリーズでは、筆者が街を歩きながら、日々の気付きや研究テーマについてのアイデアを語っていきます。ふとしたタイミングで浮かんだアイデアや、知的好奇心をくすぐる話題をラジオ感覚で平日(月~金)毎日お届けしています。

こんにちは! 今日は会食に向かう移動時間を使って、ちょっと考えごとをシェアします。もうすぐ会食会場につきそうなんですけど、その前に、最近思ったことを話したいなと。テーマは「キーボード入力が終わりに近づいているのでは?」という話。2025年の今、AIと音声認識がすごい勢いで進化してて、入力も出力もガラッと変わりそうな予感がするんです。歩きながら、ゆるく考えてみます。  

キーボードの意外な過去と日本語の「無駄」  

まず、キーボードの話から。みなさん、毎日使ってるキーボードの配列(「QWERTY」と言います)、なんでこんな配置か知ってます? 実はこれ、1860年代にクリストファー・ショールズって人が作ったタイプライターの遺物なんです。タイプするときにタイプバーが絡まないように、よく使う文字をわざと離して配置したそうです。

で、ショールズ自身も後で「もっと入力が楽な配列」を提案したのだけれど、その時にはQWERTYが標準になっていて、今日までずーっと同じ配列続いてる。慣れと標準化の力ですね。恐るべし。  

さらに、日本語の入力はもうちょっとややこしい。五十音の「あいうえお」を直接打てる日本語キーボードもありますが、ほとんどの人がローマ字入力してますよね? たとえば「か」を打つのに「ka」で2回叩く。これ、1文字に2打鍵ですよ。英語なら1文字1打鍵で済むのに、日本語はタイピングにめっちゃ時間がかかります。 実際、英語のタイピング速度は平均40語/分だけど、日本語のローマ字入力はキーストロークが1.5~2倍必要ということで、タイピング速度も遅くなるようです。効率悪いですよね。  

効率の悪いキーボード(QWERTY)で、時間がかかる入力方法(ローマ字入力)が一般的で、これを日本国中でほとんどの人がやっていると思うと、なんか国をあげて生産性を下げるやり方をしている気がしませんか?

この「当たり前の非効率」に気づいたとき、なんかこう、技術の進化がゲームチェンジャーになると思ったんですよね。で、ここからが本題。キーボード、そろそろ過去のものになるんじゃない? って話に飛びます。 


音声入力がキーボードをぶち抜くスピード  

最近、音声認識の進化がすごいんですよ。3~4年前、仕事で日本語の音声入力を調べたとき、認識率は80%くらいで「うーん、まだまだ使い物にならんな」って感じだった。でも、2023年くらいから、深層学習のおかげで正確率が95~99%まで跳ね上がった。  

で、音声入力の何が目を引くかというと、その速さ。人間って1分間に150語話せるけど、キーボードでタイプするのは40語くらい。音声入力は計算上、3~4倍速い速度で情報をコンピューターに入力できます。個人的には、最近、AIへのプロンプト入力、8割くらい音声でやってます。ChatGPTやClaudeへのプロンプトの入力は音声入力で十分です。多少の音声の誤認識があっても、生成AIが文脈を推測して補ってくれるから、100%正確じゃなくてもOK。キーボード叩くのがバカらしくなるくらい、音声入力は速い。  

で、思うんですけど、このままいくと、PCの入力は音声がデフォルトになるんじゃないでしょうか?「昔、 キーボードっていうのがあってさー」と昔話をする感じになるんじゃないかと思います。

新しい市場が生まれる

音声入力が広まると、いろんな市場が出てきそうです。まず、間違いなくあるのは、AIアプリの急速な発展。音声入力は、言い間違いや「あー、うー」という無駄な発話が必ず入るので、そういう無駄を排除して本当に伝えたいと思った内容だけを推測して入力してくれる変換器(AIアプリ)が必要になります。また、たとえば、高性能マイク。雑音をカットして、話者の声だけクリアに拾う技術もAIでどんどん進化し、良いものが出てくると思います。さっき言ったような、言い淀みや無駄な発話をカットしてくれるAIはマイク側に搭載されるかもしれないですね。

もう一つ、あるんじゃないかと思うのが、オフィスやカフェの変化。今、カフェで音声入力してると「なんか変な目で見られる」感じがあります。オフィスやカフェは静かにするのが当たり前の環境なので、なかなか音声入力はしにくい。でも、音声入力が当たり前になったら、個室っぽいパーテーション付きのブースがあるカフェとか、オフィスに音声入力専用のスペースとか出てくるんじゃないでしょうか。新幹線のSワーク車両みたいな、「ここは声出しても大丈夫」というスペースの区分けが、オフィスやカフェでも当たり前になるかもしれません。

出力は文字で、頭に入りやすく  

ただ、入力は音声が主流になっても、情報の「出力」はやっぱり文字が強いんじゃないかと思います。なんでかっていうと、読む方が速いから。人間の読解速度、熟練者だと250~300語/分だけど、音声で聞くのは150語/分くらい。聞くよりも読んだ方が情報処理は速いですね。しかも、情報がブレットポイントや図で構造化されると、情報の構造がパッと頭に入る。処理スピードは更に早くなります。

以上を考慮すると、あと数年したら、街中で、ブツブツ独り言を言いながら画面に表示された出力を見ている人が増えるんだろうと思います。

BCIのSFみたいな未来  

で、最後にちょっと未来の話。音声入力の次に来るのは、BCI (Brain Computer Interface)なのかもしれません。脳に直接「プラグ」をつないで、音声を聞いたりタイプしたりすることがなくなる世界。レイ・カーツワイルという未来学者が、2030年代にはBCIが実用化されて、知識や言語をクラウドからストリーミングできると言っています。どうなるかはわからないけど、ここまで実現したらめっちゃSFっぽいですよね。  

でもこれ、実際に進んでいる話で、イーロン・マスクが所有する企業であるニューラリンク(Neuralink)は、ALSの患者さんの脳にインプラントを埋め込むことで、患者さんが思ったことを使ってタイピングすることを可能にしたそうです(「脳でタイプ、AIが代筆 ニューラリンクがALS患者に開いた道」)。

ただ、BCIの倫理的な問題もかなりありそう。たとえば、脳データのプライバシーとか、外部からの刺激で思考制御されるリスクとか。BCIが言語の多様性を潰すかもっていうのも論点ですね。技術の光と影、両方考えないとなりません。  

まとめ:キーボードの終わりを目撃する

というわけで、飲み屋に着く前に、キーボードの非効率から音声入力、BCI、視覚的出力まで、歩きながら考えてみました。音声認識のスピードと市場の可能性、急速に変わっていきそうな気がしませんか? でも、BCIの倫理とか、言語の未来とか、ちょっと怖い面もあります。

みなさんはどう思います? 「音声入力、めっちゃ使ってるよ!」とか「いや、キーボードが手放せない!」って意見、ぜひ教えてください。この記事が面白いな、と思ったらSNSでシェアしてくれると嬉しいです。僕も、これから音声入力の普及などを追いかけて、ブログでまたシェアしたいと思います。

最後まで読んでくれて、ありがとうございます! 会食会場でビールが待ってるんで、今日はこの辺で。また次回の「歩きながら考える」で会いましょう!

渡邉 寧

博士(人間・環境学)
代表取締役
シニアファシリテーター

慶応義塾大学文学部/政策・メディア研究科卒業後、ソニー株式会社に入社。7年に渡り国内/海外マーケティングに従事。約3年の英国赴任を経てボストン・コンサルティング・グループに入社。メーカー、公共サービス、金融など、幅広い業界のプロジェクトに4年間従事。2014年に独立。2025年に京都大学大学院人間・環境学研究科にて博士号取得。専門は文化心理学、組織行動。最近の研究テーマはAIの社会実装 × 職場の幸福感 × 文化の違い

メールマガジン登録