みたいもん

トップ > iPod,iPod touch,Podcasting > Wiki小話/Vol.7「Podcastle開発について」とすごすぎるブラジルさんのプレゼンについて

いしたにまさきの新刊:HONDA、もうひとつのテクノロジー ~インターナビ×ビッグデータ×IoT×震災~ 01 それはメッカコンパスから始まったHonda、もうひとつのテクノロジー 02 ~インターナビ×GPS×ラウンドアバウト~ 運転する人をサポートすることHonda、もうひとつのテクノロジー 03 ~インターナビ×災害情報×グッドデザイン大賞~ 通行実績情報マップがライフラインになった日

HONDA、もうひとつのテクノロジー ~インターナビ×ビッグデータ×IoT×震災~ 01 それはメッカコンパスから始まった (カドカワ・ミニッツブック) Honda、もうひとつのテクノロジー 02 ~インターナビ×GPS×ラウンドアバウト~ 運転する人をサポートすること<「HONDA、もうひとつのテクノロジー」シリーズ> (カドカワ・ミニッツブック) Honda、もうひとつのテクノロジー 03 ~インターナビ×災害情報×グッドデザイン大賞~ 通行実績情報マップがライフラインになった日<「HONDA、もうひとつのテクノロジー」シリーズ> (カドカワ・ミニッツブック)

2007.01.11

Wiki小話/Vol.7「Podcastle開発について」とすごすぎるブラジルさんのプレゼンについて




Clip to Evernote

このエントリーをはてなブックマークに追加

Wiki小話/Vol.7に参加してきました。内容は「Podcastle」。

基本的にWikiというのは体質に合わないので、これまでWiki系のイベントは避けてきたのですが、今回は音声認識、それもPodcastingを食わせてあげると全文テキストにしてくれるというすごいサービス「Podcastle」の構築の話だったので、勇んで参加したというわけです。結論を先に言うとすげえ面白かった。これは未来があるサービスです。

 リンク: Wiki小話/Vol.7.

第七回は、12月8日にサービスが開始された「Podcastle」について、プロジェクトメンバーである江渡さん、緒方さん、上津さんにセミナーをお願いします。

以下、Podcastleについてのプレゼンのサマリーです。

Podcastle開発について

【アジェンダ・産業総合研究所 緒方さん】
2006/9月スタート、12月に実装
後藤+緒方→江渡+上津→新井の順番で参加

皆様に相談
・ユーザーが使ってくれない心配
・ユーザーが殺到する心配

BフレッツとP4のサーバのみ

音声認識を育てるには
 Podcastle+ユーザーの方々の協力
Podcastleを育てるには
 開発チーム+ここにいる皆様の協力

当面は口コミ程度で
商業誌でのご紹介は事前にお願いします

現状は学会発表のみ

【音声認識について・産業総合研究所 緒方さん】
・これまでにあった技術
Podscope
PodZinger
 これまでの音声認識の問題点
  英語のみ
  検索語周辺の一部のみ

・Podcastleの特徴
 世界初の日本語の全文検索
 検索語周辺を表示、全文表示も可能、カーソルが動く
 編集機能、みんなで修正可能、全単語の候補が全部出る
 (ノイズなし、講演口調はかなりの精度)

 検索可能になることで!
  関心のあるものが見つけられる
  キーワードがどこにあるかわかる
  検索エンジンにひっかかる

・訂正はアノテーション
  ユーザーがシステムを便利にしていく
  積極参加、参加型アーキテクチャー
  音声認識が正しくなるだけでなく、学習していくことで未訂正のPodcastに対する性能も向上
  これまではデータを集めて学習させてきた

・これまでの音声認識は
  あまり普及していない
  市販ソフトはリアルタイム性重視
  研究レベルでは性能重視

・ユーザーに最先端の研究レベルの性能に触れてもらいたい

・使いようによっては使える音声認識
  何が得意で
  何が不得意か

・音声認識の啓蒙活動

・言語モデルと音響モデルを利用 
 言語モデル
  N-gram、大枠の性能
  大量のテキストデータにより学習
  学習テキストの影響を強く受ける
  設定した単語以外は認識できない

 Podcastleのテキストデータは
  より多くの語彙で
  毎日新聞記事の10年分
  日本語話し言葉コーパス
  11万語
  最新の話題、単語が頻繁に出るのでWebニュース(Yahoo!ニュースと
Googleニュース)を活用
  今日現在15万語

・訂正インターフェイス
  競合候補を表示して訂正作業を支援
  候補が多いところはあいまい
  訂正結果が集まると学習が集積されていく

・みんなで育てよう!
  認識率の底上げ
  全テキストを外部公開してさらけだす
  現状のユーザーとの共有

【サーバサイド構築記・新井さん】

・RonR+MySQLで実装
・分散処理エンジン
・1個のデータ解析、リアルタイムの10倍
・分析サーバ10台
・非同期処理がいっぱい発生
・音声解析器が向上したとき再び認識
・訂正したデータは上書きしない

【上津さんおもしろすぎ】

プレゼン内容はあとで

【集合知を活用したPodcastleの技術・産業総合研究所 江渡さん】

・3つの違う顔を持つWebサイトである

・新しい検索サービスの形
  結果が誤っていたら、ユーザーが訂正できる

・ジミー・ウェールズの新しい検索システム

・CD-DB
  ユーザーが誰でも入力できる

・ソーシャルブックマークのTag 
 Japanize
  ユーザーがテキストを作ることができる

・Amazon Mechanical Turk 
 人はお金で動くという謝った前提によっている

・Wikipedia
  Wikipediaをベースとした検索サービスへ

でで!

圧巻はid:brasilこと、上津さんのプレゼン。

あまりにもおもしろすぎて、障りだけ撮影するつもりが全部撮ってしまったので、ここでそのプレゼンのすべてを公開。いやあ、素敵すぎる。

全部手で撮影しているので、一部ぶれますけど、そこは手が痛いのだと思ってご勘弁ください。

では、どうぞ!

※上津さん(id:brazil)のプレゼン映像については、ご本人の了解を得ています。

« 時をかける少女のDVDが予約受付スタートです。 | トップページ | NIKE+ CHALLENGER「ドリカム++」なんと全員目標達成! »

投稿:by 2007 01 11 04:16 PM [iPod,iPod touch,Podcasting] | 固定リンク

トラックバック

この記事のトラックバックURL:

この記事へのトラックバック一覧です: Wiki小話/Vol.7「Podcastle開発について」とすごすぎるブラジルさんのプレゼンについて:

» 今日は Wiki 小話の日 (2007-01-11の追記) from まちゅダイアリー
公式ページのコメント欄に、感想のリンクが続々追加されてる。 (ホントは参加者欄に各自がリンクを貼るほうがWiki的かもだけどね) Wiki小話/Vol.7「Podcastle開発について」とすごすぎるブラジルさんのプレゼンについて:[mi]みたいもん!にて、超絶プレゼンの動画が公開されてる(ご本人の了解は取られてるのかな?)。 改めて見ても、うまいなーって思う。 というか、みたいもんの人に挨拶しておけばよかったと後悔�... 続きを読む

受信: Jan 11, 2007, 10:51:27 PM

» MITAIMODO - The Best of みたいもん!2007.01 from Gizmodo Japan(ギズモード・ジャパン)
  GIZMODOの皆さんこんにちは! 「みたいもん!」管理人のいしたにまさき... 続きを読む

受信: Jan 26, 2007, 6:15:28 PM

 
We are bloggers.