「話し言葉が自動的にテキストになる」技術、完璧な日本語で一般化するのはいつ？それが人文学を変える？【全文革命】

東浩紀氏が語っていたので、自分も以前から気になっていたこのテーマを思い出した。

【全文革命】【記録する者たち】

［今だけ無料］ゲンロン東浩紀「動画字幕の衝撃！これからは動画と文字の境界がなくなる」｜cakes編集部 @cakes_PR https://cakes.mu/posts/12067
　
東　今、YouTubeって、画面の下に字幕を出せるようになっているんですよね。
加藤　なってますね。英語の精度はかなりすごいですよね。
東　あれが日本語で不足なくできるようになったら大きいですよ。
加藤　ほう。どういうことですか？
東　動画の中の発言検索ができるようになるということです。たとえば、宮台真司さんが「安保」って言ったのは、どの動画のどの部分かが検索できるようになる。そうなったとき、動画が持つ意味はまったく変わるはずです。
加藤　たしかに！　動画が流れていくだけのフローの情報ではなく、ランダムアクセスができるストック情報になるのか。
東　そうなんですよ。しゃべるだけで下にリアルタイムでテキストが出て、そのテキストをデータとして吐き出せるのであれば、これは大変なことです。
加藤　トークイベントの内容をまとめてパッと読めるようになったら、出版の意味合いもまったく変わってしまいそうですね。
東　そうです！　今、動画が活字に対し負けている部分って、検索できないという部分だけなんです。でも、今後は多かれ少なかれ検索できるようになる。うかつにしゃべることが怖くなる部分もあるでしょうけど、同時にすごく影響力を持つものになってくる。
加藤　うーむ、なるほど……。動画の文字起こしが自動的にできたら、出版という行為の価値が激減する可能性すらありますね。
東　あります。でも、逆に有能なインタビュアーの価値は上がるでしょうね。ライブでおもしろい話を聞きだすことができる、それが最大の価値になるでしょう。カットや編集とか関係なく、相手からリアルタイムで反応を引き出すことができる技術を持っている人が勝つと思いますね。
加藤　そうか、これまでの出版とか報道では、人がしゃべったことを定着させる方法がそれしかなかったから、テープを起こしてテキストにまとめていたわけですよね。それが自動的にできるようになると、そういう行為の価値が相対的に低くなります。
東　1時間のインタビューって実は情報量がかなり多いんですよ。それを新聞や雑誌、テレビなどはすごく圧縮しているんですよね。（後略）

当方は、こういう話を【全文革命】と呼んでいた。
端的に説明した記事はこちら。

「全文革命」とは？　…まとめ用抜粋【全文革命】 - http://d.hatena.ne.jp/gryphon/20141225/p1

そして、これを副タグのように使っているので、
検索すると関連テーマが出てくる。ご一読を。

http://d.hatena.ne.jp/gryphon/searchdiary?word=%C1%B4%CA%B8%B3%D7%CC%BF

で、この「しゃべればそれが自動的に文字テキストになる技術と、それが普及した社会」についても何回か書いていたんだが…どこだっけかな…たとえば、これだ。

「現在の国会議事録は機械が行う。正確性は９〜６割」【全文革命】 - http://d.hatena.ne.jp/gryphon/20110913/p2

もう既にあるんだから、「まったく想像もつかない」とか、「どこから手をつければいいかわからない」技術ではないことは確か。
というかyoutubeで、すでに英語がそのまましゃべり⇒字幕になるんだから、あとは「時間の問題」な気はするのだよね。

あとは普及、低額化なんだろうけど……
ただ、逆に国会には2011年に導入されているこの技術が、社会のどこにでもあるほどには、普及してないのも事実だ。

自分もスマホには「音声ワープロ」があり、これを使えばこのブログ記事もちゃっちゃと書けるかな？本からの引用も簡単かな？と思ったが、PCに移す手間もあり、結局試験的に使っただけでいまはキーボードをたたいている。

これは、最初に期待したときのもの。

http://d.hatena.ne.jp/gryphon/20100305/p1
で、この後もう一回、この状況に大爆発が起きるとしたら、音声認識ワープロの一般化、高機能化だと思う。このへんの技術予測は、現状をしらないのでテキトーですが。
たとえば記者会見でのシンヤ・アオキのお言葉や、普通に録画した「朝まで生テレビ！」を、あとから普通の人が、普通にそのワープロ機能を通すと･･･ノーチェックでそのままは無理だろうけど、まあちょっと手を加えれば、イチからキーをたたくより簡単にテキストになるようなまでに性能が向上すればね。
まあ、これはかなーり難しいような気がする。
かつて夢枕獏氏が、この音声認識ワープロを活用して小説執筆に挑戦したが、どうも結局は使い勝手が悪かったらしく、そのままその手法は終わっているからな。
まあ、それにただでさえ世界の情報量の総和は爆発的に増え続けているのに、もし普通に話している会話が、さっと機械を通すだけで読むに足るようなテキストに簡単に変換できるなら、さらなる大爆発が起きることは確実だ。
毎日朝礼をしたがるような中小企業の社長さんや、毎回話が長くなる校長先生なんかはどんどん話をテキスト化し、退任の時には革張りの豪華本が生まれることは必然だろう。
・・・・と「そういう時代がきたら膨大なテキストがうまれて大変だよね」と警告する文章が膨大になっているわけだが（笑）。
まさに星新一のショートショートにあったとおりだ。

ケータイに付加された「音声ワープロ」のおまけ機能に驚愕。「第二次情報爆発」間近か… - http://d.hatena.ne.jp/gryphon/20110808/p3
　
いま、格闘技ファンの有志は会場から試合ごとに速報を流すことをやっているけど、どんなに携帯のキー打ちが早くても、このべしゃり文字化機能を使うこなす人が出てきたらそっちのほうが早いんじゃないかな。もう使っている人もいるのかな。
自分はよくここで週刊誌や新聞、単行本の重要情報などを紹介しているが、これもその一節を読み上げれば文字化できる、となればそれも非常に便利になるだろう。

ここから進んでない気がするのは事実。

どうなんだろう？
これは純粋に技術やビジネスの問題だから、あとは待つしかないのだが…。
今現在の、一般人が買える様な「音声ワープロ」はどれぐらいの能力を持ち、どれぐらいのお値段なんだろうか？？

夢枕獏は、試験的にこういうワープロでの口述で１、２冊ほど本を書いた。
だが、その後どうなったのかは、よくわからない。

そして、youtubeの字幕機能って、どんな技術的工夫やコスト経費があるのかな？

2013年の、実装開始時の記事。

http://tipstour.net/website/4327
さてその自動字幕の精度についてですが、ひととおり流し見してみた感じ…精度については、やはり改善の余地ありかなという印象が。
実際、“serious smoke!!” (意訳：ひどい煙だ！)が、“serious bold”と字幕では表示されていました。　意味が通るかといわれると、ちょっと怪しいような。
しかしながら、完全に正確な字幕でなくてもリスニングのヘルプにはやはりなるようですね、たとえ正確でないにしても、ある程度近い音の単語が表示されていること、そしてそれを見ながら実際なんて喋ってるのかをリスニングすると、字幕なしで聴くよりもすんなりと頭に入ってくるような気がしますね

いったんしゃべりをyoutubeにUPして、その字幕を取り込んで、テキストにする方法を提示している。

その実験結果

YouTube“自動字幕”で文字起こしはできる？ http://ascii.jp/elem/000/000/619/619852/

東浩紀氏の論考にもう一度戻ろう。

東　字幕といえば、自動翻訳の技術もさらに進むでしょう。一度、人工知能の専門家の方も呼んでお話を聞いたのですが、ディープラーニングというのは革命的な技術で、自動翻訳の精度は飛躍的に上がるだろうと予測されています。

加藤　10年後にはだいたいできてしまいそうですよね。
東　時期は予測できませんが、もう時間の問題でしょう。それは、さっきの動画の字幕の話とあいまって、僕のやっている事業を変えるきっかけになると思います。
加藤　おお。ゲンロンの事業がワールドワイドに認知されるのか。
東　はい。ゲンロンカフェで話されていることには、外国の人は知らないけど、重要なことが多くあります。政治的にもね。だから飜訳されればインパクトを持つと思います。たとえば、小林よしのりさんと宮台真司さんがしゃべっている動画に、リアルタイムで英語や韓国語の字幕がつくようになる技術が生まれれば、トークイベントの意味が大きく変わる

まあ、そう思うんだけど、
ただし、翻訳の精度も、しゃべり言葉が文字になる精度も、将棋コンピューターが強くなったほどの進歩ほどには、自分がパソコンをいじるようになったここ20年、25年では進まなかったことも事実だよなあ。
自分は「将来は、100％の精度をほこる自動翻訳機が出来るはずだ…」と期待して英語の勉強をさぼったところもなくはない、ような…（笑）。

逆にその当時、「将棋の名人にコンピューターが勝つのは、火星に人類が立つより難しい」とも称されたもんだった。

それほど、翻訳も筆記も、技術的な面で難しいところがあったのだろう。
最後はあれだ、コンピューターが将棋のプロ棋士たちと団体対抗戦をやったように、

音声文字起こしソフトｖｓ　長州力、前田日明、天龍源一郎

をやって、彼らの滑舌をものともせず、ちゃんと文章になっていればコンピューターの勝利（笑）