永久免费无码网站在线观看,欧美,麻豆精产三产区区别

快手宿華：我們7年累計(jì)50億條視頻，靠 AI 提升長(zhǎng)尾用戶的幸福感水煮娛

砍柴網(wǎng) / 李程程 / 2018-05-27 10:51

對(duì)快手來(lái)講，我們是要構(gòu)建一整套的以AI技術(shù)為核心的基礎(chǔ)設(shè)施，能夠用科技的力量提升每一個(gè)人獨(dú)特的幸福感覺，能夠讓每一個(gè)人更多更好的感受這個(gè)世界，也能夠更好的被這個(gè)...

快手創(chuàng)始人兼CEO 宿華

上周，快手上的視頻總數(shù)已經(jīng)超過(guò)了50億，如何讓這50億視頻與觀看視頻的用戶進(jìn)行匹配是一個(gè)前所未有的挑戰(zhàn)。在過(guò)去，業(yè)內(nèi)常規(guī)的做法是運(yùn)營(yíng)好長(zhǎng)尾曲線中頭部的“爆款”視頻，但快手表示，希望尾部視頻同樣能被感興趣的人觀看。

在上周日，2018年中國(guó)圖靈大會(huì)上，快手創(chuàng)始人兼CEO宿華出席，發(fā)表了以“AI 如何提升幸福感”的主題演講，分享了快手在人工智能最新的探索與應(yīng)用。

大約12年前，宿華加入了谷歌，開始接觸、學(xué)習(xí)和應(yīng)用機(jī)器學(xué)習(xí)技術(shù)。在谷歌，他一直在研究如何嘗試?yán)肁I和機(jī)器學(xué)習(xí)，解決信息匹配和信息分發(fā)的問(wèn)題。

宿華認(rèn)為，之前的視頻平臺(tái)不是那么需要 AI，是因?yàn)橐曨l的數(shù)量沒有達(dá)到一個(gè)量級(jí)。如果每年只新增兩百部電影、三百部電視劇，可以通過(guò)人工標(biāo)注的方式把它分析和理解的特別清楚。但是，假如每天新增千萬(wàn)級(jí)的視頻，面對(duì)50億的生活片段，是不可能去依靠人工編輯和傳統(tǒng)的媒體板塊去分發(fā)，也無(wú)法照顧到長(zhǎng)尾的用戶。

在宿華看來(lái)，“記錄”本身是能夠提升幸福感的。每個(gè)人心中都有一個(gè)渴望——看見別人和被別人看見。幸福感需要讓我們每一個(gè)人都可以看見，被這個(gè)世界發(fā)現(xiàn)，能夠讓自己的情緒情感被別人知道，被人感知，被別人看到和理解。

他表示，快手最想做的事情，是要構(gòu)建一整套的以 AI 技術(shù)為核心的基礎(chǔ)設(shè)施，能夠用科技的力量提升每一個(gè)人獨(dú)特的幸福感，能夠讓每一個(gè)人更多更好的感受這個(gè)世界，也能夠更好的被這個(gè)世界所感受到。

當(dāng)要照顧每一個(gè)人的需求，尤其是長(zhǎng)尾用戶的需求時(shí)，就需要依靠人工智能?？焓謱?AI 主要應(yīng)用在四個(gè)環(huán)節(jié)：內(nèi)容生產(chǎn)，內(nèi)容理解，用戶理解和視頻分發(fā)。

今年4、5月份，快手上線了一個(gè)魔法表情、肢體識(shí)別舞蹈游戲以及 AR 模型特效。這些特效背后，涵蓋了人臉關(guān)鍵點(diǎn)、背景分割、人體姿態(tài)估計(jì)、視覺慣性里程計(jì)等人工智能技術(shù)。為了支撐這些技術(shù)，快手自主研發(fā)了 3D 引擎及 YCNN 深度學(xué)習(xí)推理引擎。即便使用低配置的手機(jī)，算法與模型依然可以高效快速運(yùn)轉(zhuǎn)，讓更多用戶的記錄過(guò)程體驗(yàn)更加豐富有趣的玩法。

快手會(huì)通過(guò)大數(shù)據(jù)去理解每一位用戶的興趣偏好，同時(shí)，得益于快手是一個(gè)分享社區(qū)，快手的用戶理解不僅基于內(nèi)容，還基于行為數(shù)據(jù)。每天有上億的用戶在進(jìn)行“數(shù)據(jù)標(biāo)注”，包括點(diǎn)擊點(diǎn)贊、關(guān)注轉(zhuǎn)發(fā)、播放時(shí)長(zhǎng)、用戶關(guān)系等，交織成了網(wǎng)狀的關(guān)系，幫助快手來(lái)更好的理解用戶，除了用戶興趣偏好，更理解用戶潛在的興趣，幫助用戶挖掘探索更大的未知領(lǐng)域。

在未來(lái)，快手還將探索 AI 諸多方向，例如，通過(guò)多模態(tài)信息融合的視頻理解器能夠像人類一樣理解一個(gè)視頻，理解人類復(fù)雜的情緒。

“如何把用戶的行為數(shù)據(jù)和內(nèi)容清晰組合在一起，特別是把內(nèi)容里面的視覺，加上時(shí)間軸以后進(jìn)行連續(xù)的視頻分析，再加上深度的分析，用戶的行為分析，整個(gè)多模的集成組合在一起，也是一個(gè)非常有意思的課題。”宿華說(shuō)。（本文首發(fā)鈦媒體，作者/李程程）

以下是宿華的演講全文，略經(jīng)鈦媒體編輯：

大概12年前，我剛加入谷歌，開始接觸、學(xué)習(xí)和應(yīng)用機(jī)器學(xué)習(xí)的技術(shù)，主要為解決搜索引擎當(dāng)中的一些問(wèn)題，學(xué)了很多前人的推導(dǎo)公式，學(xué)了很多的模型、思想。后來(lái)我思考，AI應(yīng)該用來(lái)解決什么樣的問(wèn)題，不是數(shù)學(xué)上的問(wèn)題，而是說(shuō)為社會(huì)、為人類應(yīng)該解決什么問(wèn)題？

想了很長(zhǎng)時(shí)間，有了一個(gè)答案。在這些年實(shí)踐的領(lǐng)域中，我想明白了，不管我們做什么樣的技術(shù)，最后都應(yīng)該用于提升人類的幸福感，或者是做到幸福感的改善。AI當(dāng)然是當(dāng)下最火最熱的技術(shù)，下面我給大家分享的就是，我這些年是怎樣去用AI解決幸福感的問(wèn)題。

“記錄”可以提升幸福感

首先，我們發(fā)現(xiàn)“記錄”是可以提升人們幸福感的。因?yàn)槊恳环萦涗浂加袃深惾耍阂粋€(gè)是記錄的產(chǎn)生者、記錄者，一個(gè)是記錄的觀察者。

對(duì)于觀察者來(lái)講，通過(guò)別人的記錄可以看到更廣闊的世界。在城市里可以看到鄉(xiāng)村農(nóng)產(chǎn)品生產(chǎn)，在鄉(xiāng)村里可以看到國(guó)外的世界，土耳其的熱氣球。非洲的小孩可以和中國(guó)人交朋友，在日本的留學(xué)生可以和自己在中國(guó)的家人、朋友交流。

我們想每個(gè)人心中都有一個(gè)渴望，一個(gè)是看見別人，一個(gè)是被別人看見。我們希望自己的狀態(tài)，自己的情感，自己的靈感，能夠被更多的人看見，被更多的人理解。我想，記錄是其中最關(guān)鍵的一環(huán)，是能夠使得每個(gè)人幸福感都得到提升的可能的方案。

快手是2011年成立的，我們干了7年的時(shí)間，一路上經(jīng)歷了非常多的挑戰(zhàn)，經(jīng)歷了日活在1億量的網(wǎng)絡(luò)社區(qū)。我們?cè)趺醋龅哪兀?/p>

我們?cè)谟每萍嫉牧α咳ヌ嵘恳粋€(gè)人的幸福感。我們?cè)趪L試讓每一個(gè)人都能夠記錄自己的生活狀態(tài)，每個(gè)人都有機(jī)會(huì)留下自己的記錄呈現(xiàn)給這個(gè)世界，每個(gè)人都能夠讓世界發(fā)現(xiàn)自己，每個(gè)人都能夠因此消減一點(diǎn)點(diǎn)的孤獨(dú)感，提升一點(diǎn)點(diǎn)的幸福感，從而能夠提升整個(gè)社會(huì)幸福感的總和。

我們?cè)谶@條路上已經(jīng)走了七年的時(shí)間，直到上周，我們大概累計(jì)有50億條視頻。50億條視頻是什么概念？

這里面是快手用戶，平均每天能夠產(chǎn)生一千萬(wàn)到兩千萬(wàn)條視頻。中國(guó)有兩千多個(gè)縣，我們能夠拍到每個(gè)縣，在座的各位你們的家鄉(xiāng)每個(gè)縣都能夠看到數(shù)千條量級(jí)的視頻。用戶在任何時(shí)刻打開快手，都可以看到任何一個(gè)地方。這50億條視頻，幾乎都不重復(fù)。并非某些視頻的庫(kù)雖然很大，但是大體是同一個(gè)電影、或者綜藝的剪輯。在快手產(chǎn)生的、留下來(lái)的50億條視頻，都是生活中活生生的、新鮮的生活狀態(tài)，形形色色的人，形形色色的事。

AI 如何理解長(zhǎng)尾用戶生活片段

我們剛才講，其實(shí)幸福感需要讓我們每一個(gè)人都可以看見，被這個(gè)世界發(fā)現(xiàn)，能夠讓自己的情緒情感被別人知道，被人感知，被別人看到，被別人理解。但是，50億的量級(jí)是非常龐大的量級(jí)，我們過(guò)去的視頻平臺(tái)，庫(kù)里每天新增的視頻從來(lái)沒有突破過(guò)千萬(wàn)量級(jí)的，這在歷史上都是沒有過(guò)的。

所以在座的這些內(nèi)容、這些視頻，和那些觀察者之間匹配的時(shí)候，實(shí)際上以前說(shuō)照顧好頭部就可以了，可是面對(duì)50億的生活片段，我們?cè)趺窗验L(zhǎng)尾的用戶照顧好，真的能夠讓每一個(gè)人都得到一些關(guān)注，每個(gè)人都消減自己的孤獨(dú)感，這實(shí)際上是非常艱難的課題。

我在十幾年前，在谷歌的時(shí)候就研究這個(gè)問(wèn)題，我們做很好的匹配，做很好的信息的分發(fā)。實(shí)際上我們整體是在用AI，用機(jī)器學(xué)習(xí)的技術(shù)在嘗試去解決。

歷史上的其他的視頻平臺(tái)不是那么需要，特別是每個(gè)視頻數(shù)量沒有那么多的時(shí)候。如果每年只新增兩百部電影，三百部電視劇。每一個(gè)電影、每一個(gè)電視劇，或者每一個(gè)綜藝節(jié)目，我們都可以用人工標(biāo)注的方式把它分析、理解的特別清楚。但是，每天新增千萬(wàn)量級(jí)視頻，不可能找人標(biāo)出來(lái)，也不能找編輯去像傳統(tǒng)的媒體按板塊分發(fā)。我們想要去照顧長(zhǎng)尾用戶、想要去照顧每一個(gè)人，這樣的平臺(tái)，我們更加無(wú)法挑選那些頭部的，極少數(shù)的熱的視頻給大家看。

那么我們的解決方法是什么？是用AI，應(yīng)用在四個(gè)環(huán)節(jié)。第一個(gè)環(huán)節(jié)內(nèi)容的生產(chǎn)，是記錄的產(chǎn)生環(huán)境。第二個(gè)環(huán)節(jié)，如何讓這些人去理解視頻。

我是80后。80后從小就喊理解萬(wàn)歲，我相信理解也是機(jī)器今天能夠做的一個(gè)主要的方向之一。讓機(jī)器像我們?nèi)祟愐粯幽軌蚶斫膺@個(gè)世界，能夠理解每一個(gè)人，讓機(jī)器理解每一個(gè)生活的片斷，這也是快手公司在做的事情。

基于這樣的理解，我們后面才會(huì)有整個(gè)很好的分發(fā)，有一個(gè)更好的平臺(tái)去照顧到每一個(gè)人。我們理解每一段視頻，每一個(gè)視頻片斷，我們要理解每一個(gè)用戶的偏好，理解每一個(gè)用戶潛在的偏好，最后才能做一個(gè)很好的分發(fā)視頻。

第一個(gè)模塊在記錄，今年4月份、5月份快手上線的一個(gè)魔法表情，能夠快速模擬一個(gè)人，從年輕到老去的過(guò)程。第二個(gè)是整體的姿態(tài)檢測(cè)，里面還有AR的玩法，實(shí)際上他背后是基于我們自己研發(fā)的一套3D系統(tǒng)的AR系統(tǒng)，我們YCNN的深度學(xué)習(xí)系統(tǒng)，這個(gè)深度學(xué)習(xí)系統(tǒng)它的核心優(yōu)勢(shì)就是能夠在非常低端的手機(jī)上，跟我們一起實(shí)現(xiàn)跨平臺(tái)，不止在安卓、iPhone上運(yùn)行的效率提高，同時(shí)能夠把模型做得非常小，速度做得非?？?。最重要的是做了非常多的視頻中的記錄的玩法，解決人體姿態(tài)識(shí)別的問(wèn)題，人臉關(guān)鍵點(diǎn)檢索問(wèn)題，視覺慣性里程計(jì)，還有手勢(shì)識(shí)別。

讓機(jī)器理解這些視頻是什么內(nèi)容，當(dāng)一個(gè)生活的片斷上傳過(guò)來(lái)以后，我們立即會(huì)將一系列的信息拿掉，比如檢測(cè)有幾個(gè)人，進(jìn)一步需要檢測(cè)是男人還是女人，是老人還是小孩，是中國(guó)人還是外國(guó)人，能夠把之間的關(guān)系理解，就變得越來(lái)越難。

我們除了跟人有關(guān)的識(shí)別，還做了大量圖像方面的，有場(chǎng)景的識(shí)別，是在會(huì)場(chǎng)還是在操場(chǎng)，是在家里或辦公室，我們做了很多的場(chǎng)景識(shí)別。更進(jìn)一步、更難一點(diǎn)的，在做飯、做菜，還是在釣魚，各方面場(chǎng)景的場(chǎng)所，還有他正在做的事，是在賽車，還是在大馬路上騎自行車，還是卡車、轎車，有更多的更高級(jí)的識(shí)別。當(dāng)然我們還做了顏值識(shí)別，比較好玩，目前線上還沒有這個(gè)應(yīng)用。

這其中還有和語(yǔ)音有關(guān)的理解，就是我們經(jīng)常發(fā)現(xiàn)一個(gè)視頻，他里面很多信息是包含在音頻里面，特別是傳遞情緒，人類的很多情緒是在聲音里面，再轉(zhuǎn)化為語(yǔ)速、語(yǔ)調(diào)起伏，或者他用得配樂(lè)，就是音樂(lè)本身的情感屬性，我們做了大量的音樂(lè)的結(jié)構(gòu)化的理解。

我們最高的并發(fā)大概是20萬(wàn)，在快速的語(yǔ)言里面，有幾十萬(wàn)的并發(fā)的、實(shí)時(shí)的語(yǔ)音識(shí)別的需求，我們到現(xiàn)在為止，還是僅用自己自研的，因?yàn)?0萬(wàn)的并發(fā)率，對(duì)機(jī)器的要求特別高，找第三方的話，不愿意投入機(jī)器。

另外，快速的語(yǔ)音識(shí)別還有一個(gè)難點(diǎn)，我們的場(chǎng)景是生活場(chǎng)景，它不是收音干凈的。在生活中可能有兩個(gè)人在說(shuō)話，可能有汽車在叫，可能在操場(chǎng)里面，或者在教室，整個(gè)是一個(gè)復(fù)雜的場(chǎng)景，這里面我們?cè)鯓幽軌蜃龅阶詈玫?，速度要最快的語(yǔ)音識(shí)別，幾十萬(wàn)部的并發(fā)識(shí)別，對(duì)我們來(lái)說(shuō)也是一個(gè)非常大的挑戰(zhàn)。

從全球板塊來(lái)講，我們會(huì)接受一定程度上的識(shí)別率的下降，但是要讓性能和讓場(chǎng)景的適應(yīng)性更好，這是快手目前面臨的問(wèn)題之一。在底層，我們有自己研發(fā)的，一個(gè)大規(guī)模并行的機(jī)器學(xué)習(xí)的平臺(tái)，是做模擬訓(xùn)練和推理，也包括做一些數(shù)據(jù)的標(biāo)注。

當(dāng)然對(duì)快手來(lái)講，我們做視頻內(nèi)容的理解，很大程度上得益于我們是一個(gè)社區(qū)，社區(qū)里面每天有上億的人在幫我們標(biāo)注，他們的點(diǎn)擊點(diǎn)贊行為，他們的關(guān)注行為，他們的轉(zhuǎn)發(fā)行為，他們的播放時(shí)長(zhǎng)，他們?nèi)撕腿酥g相互的關(guān)系，網(wǎng)狀的關(guān)系，就在幫助我們更好的理解用戶。我們不是純粹從內(nèi)容出發(fā)的，我們還有行為數(shù)據(jù)。

但是，如何把用戶的行為數(shù)據(jù)和內(nèi)容清晰組合在一起，特別是把內(nèi)容里面的視覺加上時(shí)間軸以后進(jìn)行連續(xù)的視頻分析，再加上深度的分析，再加上用戶的行為分析，整個(gè)多模的集成組合在一起，也是一個(gè)非常有意思的課題。

AI 如何探索社區(qū)用戶的興趣邊界

第三個(gè)部分是理解用戶，當(dāng)然這里面的用戶并不是內(nèi)容的記錄者，是指看內(nèi)容，當(dāng)你拿出你的手機(jī)，打開一個(gè)APP的時(shí)候，我們希望幫助你發(fā)現(xiàn)這個(gè)世界，這時(shí)候?qū)ζ脚_(tái)來(lái)講，我們需要理解你的興趣偏好，更主要的我們還需要理解你潛在的興趣，就是你過(guò)去還沒有探索過(guò)，但是你可能會(huì)喜歡的方向和領(lǐng)域把它挖掘出來(lái)，才能幫你探索更大的未知領(lǐng)域。

在快手，我們也是得益于我們做的是一個(gè)社區(qū)，舉個(gè)例子，其實(shí)在日常生活中，我們?cè)趺慈U(kuò)展自己的興趣偏好，一個(gè)是隨機(jī)的，不小心看到的、很好玩的。比如我當(dāng)年為什么會(huì)選擇做AI，真的是不小心碰到了有一個(gè)團(tuán)隊(duì)在做機(jī)器學(xué)習(xí)的應(yīng)用，我跟他們聊了以后很感興趣，從此走上了這個(gè)路，這是一個(gè)非常隨機(jī)的狀態(tài)。

還有一個(gè)做法是問(wèn)朋友，比如在你的朋友圈里面，或者你的室友、你的同學(xué)，到處說(shuō)我昨天打了棒球，很好玩，你要不要一起來(lái)玩一下，我剛學(xué)了一個(gè)C++語(yǔ)言不錯(cuò)，要不要一起來(lái)學(xué)一起，朋友告訴你，幫助你擴(kuò)展你的興趣偏好。

在快手我們利用類似的邏輯去做，就是在一個(gè)大的社區(qū)里面，總有那么一些人跟你很相似，但又不完全一樣，跟你相似又關(guān)注他們喜歡的東西，他們喜歡的那些跟你偏好不一樣的東西，你極大的可能會(huì)喜歡，我們嘗試去擴(kuò)展興趣的時(shí)候，去理解一個(gè)用戶群偏好的時(shí)候，我們會(huì)應(yīng)用到里面，盡心去做，這樣可以幫助每一個(gè)人，你不是一個(gè)人在探索，是有社區(qū)里面成千上萬(wàn)的人跟你相似又不同的人在探索，同時(shí)你幫助其他一些跟你相似而不同的人去探索，這樣我們可以更好的理解一個(gè)人的潛力。

接下來(lái)就是視頻分發(fā)，我們的記錄能夠更好的產(chǎn)生，在內(nèi)容、視頻、生活片斷中會(huì)最好的理解，在用戶的偏好，潛在的興趣，能夠可以更好的挖掘的基礎(chǔ)之上，我們才能做一個(gè)更好的分發(fā)系統(tǒng)。這個(gè)分發(fā)系統(tǒng)可以真正照顧長(zhǎng)尾，能夠讓更多的人找到自己喜歡的人，找到喜歡自己的人，能夠讓更多的人被看見，讓我們看見更大的世界。

我們現(xiàn)在已經(jīng)進(jìn)化到的用實(shí)時(shí)的方法做整個(gè)的日志系統(tǒng)，可能有同行知道，早年我們都是用一些偏Linux的方法去做，到現(xiàn)在線上已經(jīng)能夠?qū)崟r(shí)的運(yùn)行深度學(xué)習(xí)的方法，并且還不是一個(gè)模型，可能是一個(gè)層疊的組合的復(fù)雜的模型。但是，事實(shí)上能夠做到標(biāo)值的響定，用戶的每次行為，事實(shí)上在一秒鐘以后，就能夠反應(yīng)到視頻中去，能夠給用戶更好、更準(zhǔn)、更廣闊的世界，等待用戶去發(fā)現(xiàn)。

未來(lái)我們還有很多想要研究的方向，這里面列了其中一些，我自己最感興趣的是多模態(tài)信息融合的視頻理解，我覺得總有一天我們的機(jī)器能夠像人類一樣理解一個(gè)視頻。我自己有一次看到一個(gè)特別有意思的視頻，那個(gè)視頻很短，是一個(gè)男生和一個(gè)女生走在一起，擁抱，然后分開?？吹侥莻€(gè)視頻的時(shí)候，我是能夠理解他們是一對(duì)情侶，他們應(yīng)該是最后一個(gè)擁抱，不清楚什么原因分開了。

我當(dāng)時(shí)就想說(shuō)，是不是機(jī)器有一天也能夠理解到這一層，我在理解這個(gè)視頻的時(shí)候，我發(fā)現(xiàn)有兩個(gè)人，我發(fā)現(xiàn)他們擁抱了之后，發(fā)出的聲音是包含了非常悲傷的情緒，他們分開的時(shí)候又很決絕，我們就得到了這樣一個(gè)結(jié)論。也許有一天我們做的人工智能系統(tǒng)，能夠像我一樣，像人類一樣去理解生活中的片斷，能夠更好的理解人類的情緒、情感，甚至是靈感。我很期待那一天的到來(lái)。

對(duì)快手來(lái)講，我們是要構(gòu)建一整套的以AI技術(shù)為核心的基礎(chǔ)設(shè)施，能夠用科技的力量提升每一個(gè)人獨(dú)特的幸福感覺，能夠讓每一個(gè)人更多更好的感受這個(gè)世界，也能夠更好的被這個(gè)世界所感受到，這是快手最想做的事情。

謝謝大家。

作者：李程程

快手

1.砍柴網(wǎng)遵循行業(yè)規(guī)范，任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來(lái)源；2.砍柴網(wǎng)的原創(chuàng)文章，請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來(lái)源：砍柴網(wǎng)"，不尊重原創(chuàng)的行為砍柴網(wǎng)或?qū)⒆肪控?zé)任；3.作者投稿可能會(huì)經(jīng)砍柴網(wǎng)編輯修改或補(bǔ)充。

閱讀延展