dotnetrocksのTranscribeにチャレンジ!2
すっかりここステージングエリアですね。 大体30分を2時間くらいで出来るみたいです。
でも、ヘッドホンで訊きながらもくもくとタイプするのって結構トランス状態になって面白い。
Carl Franklin氏の許可が出たので、Qiitaに載せます。
ええと、Qiitaに載せないといけないモノは、 元リンクと、元ページのスクショ、かな?
======================================
R この(カード会社の会員特典での使用例)「選択パラドクス
T デジタル広告のからくる依頼には、広告の前に来た人を数えて、見たかどうか、どのくらい長く見たかってのを分析するってのがあるよ。それをビッグデータに流してAzure上で解析するんだ。 やつらにとっては金の山さ。6人しか一度には見れないKinect使ってさ。たぶんそのプロジェクトはやるんじゃないかな。6人少なくともトラックして、いつスクリーンを見たか、いつ目をそらしたか、いつハッピーになったかとか。
R: で、蛍光灯にそんな弱いなら、どこでこれを使えるの? ショッピングモールなんか無理でしょ。
でも、ヘッドホンで訊きながらもくもくとタイプするのって結構トランス状態になって面白い。
Carl Franklin氏の許可が出たので、Qiitaに載せます。
ええと、Qiitaに載せないといけないモノは、 元リンクと、元ページのスクショ、かな?
======================================
(Timさんはもし$5000貰ったらHololensが欲しいのだそう。値段がどうであっても。)
R:
で、僕が犬の散歩をするときの話に戻るけど、それっていつもやってんだよ。近くのStarbucksに行くんだけど、もうオーダーしなくても、そこの店員は僕が近くに来てドアのところに犬の紐結ってるともうコーヒー作ってんだ。君がさっき言った僕の顔を認識したりどうのっての、近所のStarbucksと何が違うの?
C でもリチャード、違うよ。人間がやってんじゃないんだし。君が薬局に行ったら「リチャード、君の痔にこのPreparationHとお勧めするよ」なんて言われたら 何で知ってんだ!?ってなるだろ。
R だってそこで買ったことあるから、経験値を投げてるだけだろ。
C じゃ、たとえば「そのおなかの傷あとに何か塗ったほうがいい」とか言われたら、明らかに服の仲間で見ているわけだろ?
T や、キモい仮説はいくらでもたてられるけど、服の中までは見れないよ
C やんないとは限らないじゃないか!
T プライバシー保護法もあるしね。でもほかにリチャードや君が絶対イエスという使用法もあるよ。たとえばリチャードが犬のザックと地元じゃないトロントのスターバックスに飛んだとして、そこでも同じ顧客サービスが実現できるんだよ。20フィート近くまで来たら同じコーヒーを作る。こういうのは消費者としていいよね。
C 僕が今あるもので考えていたのは、店の入り口は行ったらクレジットカードか何かをスキャンして次に買いそうなものを予測する技術とかね。
T それってさっきお気楽に話したオプトインサービスと連携できるよね。たとえば君のIOSとかAndroidの携帯にインストールしたアプリに、低消費電力のBluetoothかなんかとひもつけて、Geofencingかなにかを空港で実現する。で君が領域内に入ってきて、もしクレジットカードか何かのプレミアム会員だったら、Pushで通知を送るんだ。この「クラブラウンジ」に入る資格がありますよ。誰もクレジットカードの会員特典なんて把握してないだろ?
C そりゃいいね
R だよね。だってカウンターで聞いたりしたくないしね。あんたは入れないよ、って言われて恥ずかしい思いするかかもだし。
T 正直言って、クレジットカードの会員特典なんてすべて把握してる?
R ぜんぜん。
T Seinfield は分かってるかもだけど。俺も全然。(訳者注:Amexの昔のCMネタです)
C それっていいアイデアだなって思うのは、摩擦を減少させるからね。リチャードとよく話しているんだけど、がっかりする結果の可能性があることは、やりたくないもんね。サービスデスクで断られるとか。
R だよね。拒否られるのはたくさんだ。カミさんにたくさんやられているから。
C はははは
R え、今声に出して言っちゃった?
C 訂正しといたほうがいいよ
R 訂正するごめん。愛しているよディア!
R この(カード会社の会員特典での使用例)「選択パラドクス
だよね(注 Barry
Schwartzによるベストセラー心理学本)さらに力のあるものになろうとすると、他に「使われる」チャンスの方が増える、と。
で、そのパラドクスを小さくするツールがあるっていいよね。
C まったくだ。
T これができるってすごいことだし、うれしいんだよね。しかも何億もするようなセキュリティシステムを使わずに200ドルだけでやっちまってて、.Netの高レベル言語でやってんだから。むしろ美しいよ。
R 僕にとってはこれは屋内収容度センサーとして使いたいな。ビルの部屋が使われているかどうか知るための。これ使えばばかなり正確なところまでだれかが部屋にいるかどうかわかるし、何をしているかもわかるかもしれない。
T
それもできるよね。でも、人種性別年齢トラッキングのデモでもやったけど、何かの前に行かないといけないんだ。
だから、Vimeoかなにかで開発者用のビデオを作ったほうがいいかな、とも思っている。だってこれを必要としている人たちにいきなり見せたら、パニクるからね。
C やってみたいのは、100人くらい入る部屋に人入れて、Kinectをあちこちにおいてサービスを走らせて何人中にいるか数えるんだ。結構面白いプロジェクトになるんじゃないかな。
T デジタル広告のからくる依頼には、広告の前に来た人を数えて、見たかどうか、どのくらい長く見たかってのを分析するってのがあるよ。それをビッグデータに流してAzure上で解析するんだ。 やつらにとっては金の山さ。6人しか一度には見れないKinect使ってさ。たぶんそのプロジェクトはやるんじゃないかな。6人少なくともトラックして、いつスクリーンを見たか、いつ目をそらしたか、いつハッピーになったかとか。
C この比較的安いデバイスをデイジーチェーンするのは面白そうだよね。コンファレンスとかでさ。
T 面白いだろ。ああそういえば、スコット・ガスリー(Microsoftの偉い人)がBuildイベントで何かアナウンスしたときに、聴衆がハッピーだったかどうかを統計とって、きれいにグラフ化して見せればさ、来ているようなプログラマとかにはウケるんじゃないかな。.Net
とかHololensとかUniversal
APIとかに興味あるやつらなんだし。
R ところでどうやって ハッピーかどうか、を判断するの?
T や、あまりちゃんとはできないよ。(笑)
Carl
知ってると思うけど特にAPI使ってたりするとさ結構だませちゃうんだよ。ブランドやCPGはそんなの気にやしないけど、人はハッピーだってふりができる。うそ笑いしてね。
基本的には数学なんだよリチャード。 口の周りを見て、上弦かどうかっていう。それで笑っていれば多分ハッピーだ、と判断すると。
C Tim、写真を顔の前にもってきて試したことある?
T もちろんあるよ!そういうの沢山やったよ。ばかばかしいほどにね。サングラスや付け髭とか。冗談みたいなテストやったり、ブラッドピットの写真に棒つけて年齢性別プロファイルとったりして。
でも君もよく知っているように、Kinectはそれでは騙されないんだよ。
T:Kinectってスケルトンデータを基にして認識しているから、人間かどうかは骨構造でわかってしまうんだ。写真は2Dだから、僕らのソフトウェアにとってはただのゴミとして認識される。たとえブラッドピットの写真でもね。全部試してみたよ、リチャード。
C: ハロウィンのかぶりものとかはどう?
T:3Dのもので、出来が良ければハロウィンのかぶりもので、人種年齢性別のプロファイルとれるんじゃないかな。僕らのソフトはどれだけの自信を持って言えるかの数値も答えにつけるんだ。「ティム、君は男性で、これは80%正確な答えです。 ティム、50歳代で、60%正確な答えです」とかね。
C: ティム、今日のお肌はなんだかゴムっぽいね、とか?
T:そうそう。 で、キモいってところの話に戻るけど、一応但し書きをつけないといけないんだ。「お客様が年齢より上にみられたくなければ、または違う性別に判断されることを良しとされないなら、この装置の前に立たないでください。」ってね。うちの嫁さん、キャリーとは結婚してもう26年目だけど、彼女は絶対、絶対この装置の前に立たないだろうね。だって、歳がばれちゃうじゃん!(笑)
R:こないだ見かけた商品でさ、メガネなんだけどカメラの光を反射して、顔を真っ白にしてしまうってのがあったよ。普通のめがね見えるんだけど、CCD受光カメラから見ると、顔がすっかり真っ白になるってやつ。
T: 面白いじゃん!
C: それ見た!
T: もし顔認識でトラッキングされたくなかったら…たとえば空港とか今はセキュリティでいっぱいだろ。もし、顔認識をカメラをごまかしたかったら、顔を横向きに倒すといいよ。すべての顔認識プロ恨むhw平行な二つの目の位置を見つけるところから始まって、そこから顔認識をするんだ。
R: へえ
T: うん。言わないほうがよかったかも(笑)
R: じゃ、アイパッチつけてる奴とかどうなるの?
T: 難しいね。認識正確度ゼロ。サングラスつけている奴とか、髭とか。そう、髭づらの君を45歳から55歳のカナダ人だと見分けるのは難しいよ。
R: 顔の輪郭を壊しちゃうから。
T:
や、顔の部品が多くなると、計算をしなきゃいけない所も多くなって、それが互いに一々ちぐはぐになるんだ。
R: emotivの話に戻るけど、一つのセンサーに注目していると間違ったデータを貰うことがあるんだよね。だから間違ったデータを正しいデーターとを常に比べて両方見ないと。軍隊なんかが使っているF22(ステルス飛行機)やD25(カメラセンサー)なんかはそうやってて、間違ったデータはどんどん捨ててしまって合成されたデータで正確性を上げているんだ。
このKinectがやっているのは光学レンズと、赤外線レンズで合成したデータを取ってきている。もし複数のKinectでとれる情報を増やして合成できたらもっとすごいよね。
T:
正直な話、この200ドルのKinectカメラを使ってだとけっこう環境の影響を受けやすいんだ。結局これって赤外線使っているから、蛍光灯に光に弱くってね。僕らのラボでテストしているところは蛍光灯だらけだから完全な環境ではないんだ。蛍光灯で顔の輪郭がぼやけてしまうからね。写真に詳しい人なら良くわかる話だと思うけど。
顔の輪郭がぼやけてしまうと、なかなかちゃんとデータが取れない。正確性が下がるよね。
C: ティム、スケルトンのトラッキングに関しては、古いKinectは蛍光灯でうまくいかなくて、太陽光だと全くダメだったんだけど、この二つは新しいKinect
v2ではずいぶん解決したと思うよ。特に蛍光灯の下の環境では何よりもいい。もしそれでもしビットレートをこぼし続けるようなら、窓を開けるといいよ。
太陽光を入れればいいんだ。少なくともスケルトントラッキングはそれでうまくいくよ。
T: いいこと教わったよ。ここのInterknowlogyのエンジニアの中でどの光の塩梅が一倍、新バージョンのデバイスのテストに良いのか、まだ把握してないからね。いろいろ試しているけど、焦点をあてた顔に光を当てるてのもいいみたいなんだけど、何が一番なのかはわからない。分からないなりに正確性の戻り値で返してはいるけど。
C;太陽光けっこういいよ。他にはねえ、僕が書いたプログラムの中でスケルトンとビデオを重ねるのがあるんだけど、1、同期を取ること と 2.十分な反応速度を出すこと が難しかった。
知ってると思うけど、もし十分反応速度がほしかったら、MultiframeReaderは使わないこと。あれはゴミだよ。ほんとに。これはKinectチームから聞いたんだ。
あれ使わないで、Body Frame ReaderとほかのすべてのFrameをもってきて、最後にColor Frameを取りに行くんだ。BodyFrameReaderの中のColorFrameを使えば、毎秒30フレームをずっと持ってき続けることができる。そうすれば十分速い。
あれ使わないで、Body Frame ReaderとほかのすべてのFrameをもってきて、最後にColor Frameを取りに行くんだ。BodyFrameReaderの中のColorFrameを使えば、毎秒30フレームをずっと持ってき続けることができる。そうすれば十分速い。
それでKinect
ツールの抽象化ツールを書いて、Githubにのっけてるんだ。CarlFranklinって僕のアカウント名であげたよ。Kinect
Toolはそのプロセスを抽象化したものだよ。かなり暗いところでも、
MultiframeReaderと同じでイベントを投げるだけだけど、毎秒30フレームを実現できる。
T: Kinect
Toolはすごくいいよね。よく知ってるよ。
R: で、蛍光灯にそんな弱いなら、どこでこれを使えるの? ショッピングモールなんか無理でしょ。
T: そうなんだけどね。CPGやブランドにとってはそこまで正確である必要がないんだ。ただ、エンジニアは100%正確であることを求めるから、彼らにはあまり人気ないよ。CPGにとっては半分でいいんだけどね。50%正しければ、説得できる。あ、説得ってのは何かを買ってもらうことって意味で彼らが使ってる言葉だよ。見て、その商品を買ったら、説得できたってこと。
C:ここで発表することがある。Gesture
Pack、あれ、オープンソースにするよ。たった今から。(笑)
T:いいじゃん。Linuxでも動くようにしてよ。
C: や、それは誰かほかの人にやってもらって。
R: ははは。
T: ああそれでね、R&Dでやっていることなんだけど、もう時間足りないかな?手短に話すね。Kinectの最終到達点だよあれ。このInterknowlogyで、IOSとAndroid上でKinectトラッキングをするんだ。Bluetoothで飛ばしてね。なぜそんなことするかって?エンジニアたちはただ遊んでただけなんだけど、これでArgumented
Reality(現実に投影したデジタルデータ)を実現できる。そうそうStacyがやってるようなさ。スクリーンの前に立ってKinectが着せ替えをしてくれるんじゃなくて、その着せ替えをの中で携帯でできるんだ。
C: それ、Signal
Rを使ってやったよ。Pwopスタジオ(Carlの運営するスタジオ)でね。で、それをブラウザで実現してほかのデバイスで見れるようにしたんだ。Signal
Rは、普通のソケットだからどこでも動くし。リアルタイムでできるし。
T:
うん。KinectってUSB3を使うし、しかも早くデータを流すし、低出力のBluetoothがそのデーターを流すことができるとは知らなかった。あれはすごいな
C: 僕はBlue
Toothは苦手でね。最近はよくなってきているのかもだけど
T:Bluetoothは皆に嫌われているけど避けて通れないじゃん。
C: 僕はBluetoothがなくても生きていける。
T': だってさ、NFCはソフトウェアスタンダードではなかったんだけど、Starbucksがその権利を買って独自で使っている。 で今になってNFCが虫の息だって話。あまりいい技術でもないしね。
Faxだってさ、90年代の過去の技術だけど、今でも使われてるじゃん?
R:法律サービスだけだよ
C:もう時間かな? ティム、ありがとう。またおしゃべりしよう。
T:そうだね。もっと頻繁に会わないとね。Gentlemen!