Video Indexer の機能（2018-05時点）

Build 2018 の以下セッションで発表していた Video Indexer の機能をまとめておきました。つまり、2018年5月時点の情報です。

channel9.msdn.com

前段として、ざっくりまとめるとこんな機能だよってのを書いておくと、

動画（または音声）のファイルの音声をテキストにする
アダルト、または不快なコンテンツを判別する
動画検索ができるようになる
- 話している語句、顔、もの、トピックやブランド
- アップロードしてる動画全てが対象
動画のキャプション生成、表示が可能 - 多くの言語で可能（日本語対応済み）
動画内でどの部分が視聴者に人気があったか・興味があったかを理解し、類似の動画のレコメンドを行う
動画内の特定の人物、トピック、またはシーンに基づいて動画の自動要約を作成

ここからが本題です。

動画で「Bundling 20 Features Together」っていう話をしているのですが、公式ドキュメント（5/10時点）よりも詳しかったのでメモ。

私が微妙に理解できてない？怪しい部分もあるので、あくまで参考程度のメモです。

Bundling 20 Features Together

ここからは、機能を詳しく紹介。英語と日本語両方かいてますが、日本語は英語の翻訳ではなく、ざっくりな私の理解や心の声を書いてます。わからんものもある...

Linguistic Transcript

Convert speech to text for 10 languages

アップロードした動画の音声データをテキストにできる。現時点では10言語。

f:id:beachside:20180606172658p:plain

Noise canceling

Eliminate background noise for call recordings using skype filters

Skypeフィルターを使用して通話記録のバックグラウンドノイズを除去。

Face detection

Find when does each face appears in the video

動画に出ている人の顔が表示されるタイミングを検知。

Keywords Extraction

Find out the keywords discussed in each segment

動画の各セグメントのキーワードを抽出。

Contextual Search

Understand the context of search results

(今ある検索の機能のことだよね..)

Spoken Language ID

Detect spoken language to support multi language content

マルチ言語コンテンツをサポートできるよう、話している言語を検出。。。。

Call recording enhancement

Optimize ingestion for calls

むむ。

Face grouping

Identify multiple appearances of the same person

同一人物が複数登場している場合、それを認識。

Sentiment Analysis

Compare levels of positive vs negative spoken or written moments over the timeline

タイムライン上のポジティブとネガティブを表示。

In-place Editing

Make manual fixes for errors detected

Insights の内容は修正可能。

Custom Vocabulary

Fit to Industry, market, and domain specific terms

業界、市場、ドメイン固有の用語にフィット。

Custom Speech の言語モデルを使って認識精度をあげているということかな...

Annotations

lag object such as cat, table, car, ball etc when appear

猫、テーブル、ボールとか車など、モノの出現を検知。

Identification

See name, job and biography of celebrities and ordinary people

（人によっては）名前や経歴を見ることが可能。

例えばサティアナデラと detect されたら「Microsoft CEO」と表示され、経歴の表示可能。Entity Link の機能で Wiki から経歴とってるのかと思ったら、ちょっと違うっぽい。

f:id:beachside:20180607182400p:plain

Content Moderation

Detect explicit visuals or text in audio or overlay

音声や画像から画像やテキストを検出して、コンテンツモデレートしてくれる。

Sub-Clipping

Source video is stored once for multiple playlists of video segments

Speaker Diarization

Map and understand who spoke when

誰がいつ話しているかを認識。

OCR

Extract text that appears in video as overlay, slides or background

OCR！。

Shot Detection

Detect when a shot starts/ends based on visual analysis

動画を分析してシーンの切り替わりを検知。

Recommendations

Find more videos with similar people discussing similar topics

同じような人々が同様の話題を論じている他の動画を(同一アカウントのVideo Indexer の動画内から）の検索。

Programmatic APIs

Index / Search API and UI widgets enables embedding in other website/apps

Web API で検索やデータの取得が可能、また、他のWebアプリとかに動画プレーヤーや Insights を埋め込むことが可能。

Translation

Translate source to 54 languages - text or voice

54言語に翻訳。

Brand detection

Trace brand mentions in speech or on screen overheads

動画の音声や画像からブランドを検知。

現在開発中の機能

Emotion sensing
Detect emotions expressed in speech, vocal signals and facial expressions
Logos
Identify visual logos that appear on screen
Live Analytics
Analyze content coming from a live broadcast source

これらの機能も面白そう。

まとめ

めちゃ便利なプラットフォームだし、英語の動画には強い気がする。まだ日本語の動画分析の精度は高くないって感は個人的にあります。（特に日本語動画は...）どこまで実用的に使えるかは未知数ですが、今後も目が離せないかなと感じてます。

まださわったことない方向けに、サクッと試せるよう GitHub にてハンズオンも公開しています。

（日本マイクロソフトのコンファレンス de:code 2018 のHands-on Bar で利用したものですが、Microsoft 公式ではありません。私が用意したハンズオンマテリアルです。）

GitHub - beachside-project/video-indexer-hands-on

ブログ9割くらい書いてから...1カ月放置してしまった...

BEACHSIDE BLOG

Azure と GitHub と C# が好きなエンジニアの個人メモ ( ･ㅂ･)و ̑̑