Build 2018 の 以下セッションで発表していた Video Indexer の機能をまとめておきました。 つまり、2018年5月時点の情報です。
前段として、ざっくりまとめるとこんな機能だよってのを書いておくと、
- 動画(または音声)のファイルの音声をテキストにする
- アダルト、または不快なコンテンツを判別する
- 動画検索ができるようになる
- 話している語句、顔、もの、トピック やブランド
- アップロードしてる動画全てが対象
- 動画のキャプション生成、表示が可能 - 多くの言語で可能(日本語対応済み)
- 動画内でどの部分が視聴者に人気があったか・興味があったかを理解し、類似の動画のレコメンドを行う
- 動画内の特定の人物、トピック、またはシーンに基づいて動画の自動要約を作成
ここからが本題です。
動画で「Bundling 20 Features Together」っていう話をしているのですが、公式ドキュメント(5/10時点)よりも詳しかったのでメモ。
私が微妙に理解できてない?怪しい部分もあるので、あくまで参考程度のメモです。
Bundling 20 Features Together
ここからは、機能を詳しく紹介。英語 と日本語両方かいてますが、日本語は英語の翻訳ではなく、ざっくりな私の理解や心の声を書いてます。わからんものもある...
Linguistic Transcript
Convert speech to text for 10 languages
アップロードした動画の音声データをテキストにできる。現時点では10言語。
Noise canceling
Eliminate background noise for call recordings using skype filters
Skypeフィルターを使用して通話記録のバックグラウンドノイズを除去。
Face detection
Find when does each face appears in the video
動画に出ている人の顔が表示されるタイミングを検知。
Keywords Extraction
Find out the keywords discussed in each segment
動画の各セグメントのキーワードを抽出。
Contextual Search
Understand the context of search results
(今ある検索の機能のことだよね..)
Spoken Language ID
Detect spoken language to support multi language content
マルチ言語コンテンツをサポートできるよう、話している言語を検出。。。。
Call recording enhancement
Optimize ingestion for calls
むむ。
Face grouping
Identify multiple appearances of the same person
同一人物が複数登場している場合、それを認識。
Sentiment Analysis
Compare levels of positive vs negative spoken or written moments over the timeline
タイムライン上のポジティブとネガティブを表示。
In-place Editing
Make manual fixes for errors detected
Insights の内容は修正可能。
Custom Vocabulary
Fit to Industry, market, and domain specific terms
業界、市場、ドメイン固有の用語にフィット。
Custom Speech の言語モデルを使って認識精度をあげているということかな...
Annotations
lag object such as cat, table, car, ball etc when appear
猫、テーブル、ボールとか車など、モノの出現を検知。
Identification
See name, job and biography of celebrities and ordinary people
(人によっては)名前や経歴を見ることが可能。
例えばサティアナデラと detect されたら「Microsoft CEO」と表示され、経歴の表示可能。Entity Link の機能で Wiki から経歴とってるのかと思ったら、ちょっと違うっぽい。
Content Moderation
Detect explicit visuals or text in audio or overlay
音声や画像から画像やテキストを検出して、コンテンツモデレートしてくれる。
Sub-Clipping
Source video is stored once for multiple playlists of video segments
Speaker Diarization
Map and understand who spoke when
誰がいつ話しているかを認識。
OCR
Extract text that appears in video as overlay, slides or background
OCR!。
Shot Detection
Detect when a shot starts/ends based on visual analysis
動画を分析してシーンの切り替わりを検知。
Recommendations
Find more videos with similar people discussing similar topics
同じような人々が同様の話題を論じている他の動画を(同一アカウントのVideo Indexer の動画内から)の検索。
Programmatic APIs
Index / Search API and UI widgets enables embedding in other website/apps
Web API で検索やデータの取得が可能、また、他のWebアプリとかに動画プレーヤーや Insights を埋め込むことが可能。
Translation
Translate source to 54 languages - text or voice
54言語に翻訳。
Brand detection
Trace brand mentions in speech or on screen overheads
動画の音声や画像からブランドを検知。
現在開発中の機能
- Emotion sensing
Detect emotions expressed in speech, vocal signals and facial expressions - Logos
Identify visual logos that appear on screen - Live Analytics
Analyze content coming from a live broadcast source
これらの機能も面白そう。
まとめ
めちゃ便利なプラットフォームだし、英語の動画には強い気がする。まだ日本語の動画分析の精度は高くないって感は個人的にあります。 (特に日本語動画は...)どこまで実用的に使えるかは未知数ですが、今後も目が離せないかなと感じてます。
まださわったことない方向けに、サクッと試せるよう GitHub にてハンズオンも公開しています。
(日本マイクロソフトのコンファレンス de:code 2018 のHands-on Bar で利用したものですが、Microsoft 公式ではありません。私が用意したハンズオンマテリアルです。)
GitHub - beachside-project/video-indexer-hands-on
ブログ9割くらい書いてから...1カ月放置してしまった...