国产精品28P,亚洲午夜精品无码专区在线观看,国产高清自产拍在线观看

智變未來(lái)-淺談人工智能技術(shù)應(yīng)用與實(shí)踐

發(fā)布日期： 2019-04-01 瀏覽次數(shù)： 1,244

由騰訊優(yōu)圖主辦，騰訊云、騰訊 Ai Lab 和極客邦協(xié)辦，主題為「智變未來(lái)-淺談人工智能技術(shù)應(yīng)用與實(shí)踐」的技術(shù)沙龍活動(dòng) 3 月 23 日在北京舉辦，沙龍上來(lái)自騰訊、intel 的五位嘉賓就技術(shù)、產(chǎn)品、實(shí)踐和應(yīng)用等 Ai 話題展開(kāi)分享。

活動(dòng)一開(kāi)始，騰訊優(yōu)圖產(chǎn)品負(fù)責(zé)人周可菁先為我們帶來(lái)《計(jì)算機(jī)視覺(jué)技術(shù)在智慧零售中的實(shí)踐與應(yīng)用》的分享。

智變未來(lái)-淺談人工智能技術(shù)應(yīng)用與實(shí)踐

近年來(lái)，隨著網(wǎng)上銷(xiāo)售增速放緩，網(wǎng)購(gòu)競(jìng)爭(zhēng)正式步入存量階段。2016 年智慧零售的提出，進(jìn)一步說(shuō)明人們消費(fèi)結(jié)構(gòu)在轉(zhuǎn)型，變得更注重線下真實(shí)體驗(yàn)。同一時(shí)間，技術(shù)的快速進(jìn)步有效降低了落實(shí)智慧零售的所需成本。

智慧零售，即是以人為核心的線上—線下聯(lián)動(dòng)，在場(chǎng)景數(shù)據(jù)化+數(shù)據(jù)網(wǎng)絡(luò)化的基礎(chǔ)上，實(shí)現(xiàn)全景數(shù)據(jù)化的洞察，從而提升商業(yè)運(yùn)營(yíng)效率。在此之中，計(jì)算機(jī)視覺(jué)主要扮演人-貨-場(chǎng)三者聯(lián)系的關(guān)鍵紐帶，從到店-逛店-購(gòu)買(mǎi)，完成知人知面知心的AI 賦能。

周可菁簡(jiǎn)單介紹了計(jì)算機(jī)視覺(jué)在線下運(yùn)營(yíng)不同階段的功能，以及所涉及技術(shù)：

過(guò)店-進(jìn)店

目的：運(yùn)營(yíng)、防盜

涉及技術(shù)：人臉檢測(cè)、人臉屬性分析、大規(guī)模人臉檢索

逛店

目的：細(xì)粒度客流統(tǒng)計(jì)、精準(zhǔn)定位客群屬性、軌跡熱區(qū)

涉及技術(shù)：人頭體追蹤技術(shù)方案、人體ReID 技術(shù)方案

收銀

涉及技術(shù)：人臉識(shí)別+活體檢測(cè)

第二位分享的是騰訊優(yōu)圖的AI 應(yīng)用研究高級(jí)研究員王川南，其題目為《從硬件到算法——騰訊優(yōu)圖AI 終端產(chǎn)品實(shí)踐》。

隨著計(jì)算機(jī)視覺(jué)技術(shù)的逐步成熟，催生越來(lái)越多的計(jì)算機(jī)視覺(jué) + 硬件需求，并且廣泛被應(yīng)用至各行各業(yè)中去。由此詳細(xì)介紹了活體檢測(cè)技術(shù)的演進(jìn)之路：最初期的數(shù)字語(yǔ)音（唇動(dòng)+語(yǔ)音）到后來(lái)的動(dòng)作交互防翻拍，17 年優(yōu)圖推出首創(chuàng)的光線活體技術(shù)，通過(guò)屏幕發(fā)出隨機(jī)光信號(hào)同時(shí)采集圖像，可以驗(yàn)證是否為人臉的三維形狀和質(zhì)感。乃至最新的 3D 活體檢測(cè)技術(shù)的廣泛應(yīng)用。

即便是效果最佳的 3D 檢測(cè)方案，在具體落地時(shí)依舊遇到不少的困難，尤其是要能適應(yīng)各種復(fù)雜光照環(huán)境，保證人臉區(qū)域的清晰，在 isp、分辨率、幀率、深度精度以及工作距離上都有相應(yīng)的要求，需要我們一起努力攻克解決。

此外，為了在讓軟件能夠更好地與硬件進(jìn)行適配，這就要求我們必須對(duì)算法終端的性能進(jìn)行優(yōu)化。為此，騰訊優(yōu)圖研發(fā)了移動(dòng)端高性能前向計(jì)算框架 NCNN 以及深度學(xué)習(xí)推斷框架 RapidNet，兩者皆由騰訊優(yōu)圖自主開(kāi)發(fā)，其中前者已對(duì)外開(kāi)源。

NCNN 是一個(gè)為手機(jī)端極致優(yōu)化的高性能神經(jīng)網(wǎng)絡(luò)前向計(jì)算框架，其主要優(yōu)勢(shì)體現(xiàn)在：

支持卷積神經(jīng)網(wǎng)絡(luò)，支持多輸出和多分支結(jié)構(gòu)，可計(jì)算部分分支

ARM NEON 匯編級(jí)良心優(yōu)化，計(jì)算速度極快

精細(xì)的內(nèi)存管理和數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)，內(nèi)存占用極低

支持多核并行計(jì)算加速，ARM BIG.LITTLE cpu 調(diào)度優(yōu)化

可擴(kuò)展的模型設(shè)計(jì)，支持 8bit 量化和半精度浮點(diǎn)存儲(chǔ)，可導(dǎo)入 caffe 模型

而 RapidNet 則是一款深度學(xué)習(xí)推斷框架，同時(shí)擁有跨平臺(tái)、高性能、模型壓縮、代碼裁剪等眾多突出優(yōu)勢(shì)。其在各個(gè)平臺(tái)提供了統(tǒng)一的接口調(diào)用，以及同步的優(yōu)化策略。面對(duì)異構(gòu)網(wǎng)絡(luò)，RapidNet 可以有效發(fā)揮硬件加速技術(shù)，并保證多核 CPU/GPU 的任務(wù)調(diào)度。至于面對(duì)量化難點(diǎn)，RapidNet 可以確保手勢(shì)檢測(cè)、跟蹤等模型效果在大部分機(jī)型上提升 20%—40%，同時(shí)精度降低平均在 0.5 % 以?xún)?nèi)。

隨后，來(lái)自騰訊 AI Lab 的高級(jí)研究員金明杰為我們帶來(lái)《基于 AI Lab 語(yǔ)音技術(shù)的應(yīng)用與實(shí)踐》的分享。

語(yǔ)音是人的聲音，機(jī)器要想理解人的聲音，通常使用的是音頻信號(hào)。而音頻信號(hào)是一個(gè)有規(guī)律的聲波的頻率、幅度變化信息載體，其關(guān)注的核心要素是采樣率、量化位數(shù)以及編碼算法。常見(jiàn)的語(yǔ)音技術(shù)展現(xiàn)形式可以分為兩種：一種是語(yǔ)音到目標(biāo)的信息，一種是給定信息到語(yǔ)音。涉及技術(shù)主要包括語(yǔ)音喚醒、聲紋識(shí)別、語(yǔ)音識(shí)別、語(yǔ)音活動(dòng)檢測(cè)以及語(yǔ)音合成等。

以音箱產(chǎn)品為例，音箱通過(guò)前端接收人們說(shuō)話的信號(hào)，再經(jīng)過(guò)語(yǔ)音喚醒，各種前端技術(shù)處理過(guò)猴，音箱把信號(hào)傳到云端，讓云端做聲紋識(shí)別和語(yǔ)音識(shí)別。在識(shí)別成文字后，進(jìn)而轉(zhuǎn)至語(yǔ)義理解，通過(guò)文本處理的方式進(jìn)行意圖識(shí)別，然后調(diào)用功能模塊，讓用戶可以聽(tīng)歌曲、獲得天氣預(yù)報(bào)、聽(tīng)有聲書(shū)等等，最后才是回復(fù)術(shù)語(yǔ)。

語(yǔ)音喚醒主要看 3 個(gè)指標(biāo)：FA（誤喚醒）、FR（未喚醒）以及 EER（FA 等于 FR 的狀態(tài)）。具體操作流程上，首先是要確定建模單元，然后通過(guò)一個(gè)已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型進(jìn)行訓(xùn)練。為了保證喚醒效果，過(guò)程中我們需要保證模型在說(shuō)話內(nèi)容符合時(shí)序延續(xù)、說(shuō)話語(yǔ)序等條件的情況下才能被喚醒，至于如何進(jìn)行設(shè)置，就屬于產(chǎn)品經(jīng)驗(yàn)層面的東西。語(yǔ)音喚醒的常見(jiàn)結(jié)構(gòu)主要可以分為兩種：?jiǎn)螁拘涯Ｐ秃碗p喚醒模型——前者結(jié)構(gòu)簡(jiǎn)單，然而模型復(fù)雜功耗高，一些小芯片可能會(huì)抗不??；后者結(jié)構(gòu)復(fù)雜，功耗較低，而且可以把部分喚醒模型放在云端，可避免誤喚醒情況的出現(xiàn)。

至于在前段技術(shù)方面，主要會(huì)通過(guò)麥克風(fēng)陣列來(lái)達(dá)到以下效果：

語(yǔ)音增強(qiáng)/去混響

聲源定位

回聲消除

語(yǔ)音識(shí)別技術(shù)是把人類(lèi)的語(yǔ)音中的詞匯內(nèi)容轉(zhuǎn)換成計(jì)算機(jī)可讀的輸入，即是將音頻信號(hào)發(fā)送到云端，云端作為解碼器將會(huì)識(shí)別出結(jié)果。

解碼器負(fù)責(zé)把音頻信號(hào)轉(zhuǎn)化成建模單元的部分是聲學(xué)模型，目前比較常見(jiàn)的有：

DNN 網(wǎng)絡(luò)——下面輸入層，中間 N 個(gè)隱層，上面輸出層。它的計(jì)算量相對(duì)較小，非常容易部署，基本上所有的設(shè)備都可以搞定。

CLDNN 網(wǎng)絡(luò)——C 就是卷積網(wǎng)絡(luò)，L 是 LSTM 網(wǎng)絡(luò)，D 就是 DNN。這個(gè)網(wǎng)絡(luò)的優(yōu)點(diǎn)是快速收斂，快速達(dá)到比較好的識(shí)別效果。

最后，金明杰也為我們展望了一下語(yǔ)音產(chǎn)品的發(fā)展，目前有待完善的部分包括：

方言、方普

多語(yǔ)種混合

變聲

多人說(shuō)話

活動(dòng)最后，來(lái)自騰訊云大數(shù)據(jù)及人工智能產(chǎn)品中心高級(jí)產(chǎn)品經(jīng)理周吉成帶來(lái)《騰訊云人臉核身技術(shù)原理與最佳實(shí)踐》的分享。

所謂的人臉核身技術(shù)，換句話說(shuō)即是實(shí)名、實(shí)人：實(shí)名，就是你的名字是合法有效的。實(shí)人，是要證明你是你。

早期我們都有這種體驗(yàn)，比如說(shuō)去銀行、運(yùn)營(yíng)商開(kāi)卡都需要本人到現(xiàn)場(chǎng)，領(lǐng)養(yǎng)老退休金的，年紀(jì)已經(jīng)很大了，還要去社保局親自做實(shí)人證明，這些成本都非常高。此外，網(wǎng)絡(luò)辦事在當(dāng)下已經(jīng)很普遍，然而要想進(jìn)行網(wǎng)上身份驗(yàn)證依然非常困難，更別說(shuō)還有身份冒用的問(wèn)題，以及線下場(chǎng)景遇到檢查卻沒(méi)帶身份證的情況。因此，無(wú)論央行、運(yùn)營(yíng)商還是保險(xiǎn)行業(yè)都提倡利用 OCR 技術(shù)運(yùn)用至業(yè)務(wù)流程中以提升效率，這是國(guó)內(nèi)人臉技術(shù)的應(yīng)用背景。

活體檢測(cè)方面，最典型的流程是通過(guò)遠(yuǎn)程進(jìn)行核身——第一步是身份證 OCR 識(shí)別，然后系統(tǒng)提示讀數(shù)字，以證明是在場(chǎng)的人，最后再錄制視頻給出最終結(jié)果，在這過(guò)程中系統(tǒng)會(huì)進(jìn)行照片比對(duì)。這個(gè)流程會(huì)嵌入到很多業(yè)務(wù)環(huán)節(jié)里，比如說(shuō)身份證更新或者身份證號(hào)更改。

總的來(lái)說(shuō)，活體核驗(yàn)技術(shù)是一個(gè)不斷演化的過(guò)程，活體算法在落地實(shí)際場(chǎng)景時(shí)，實(shí)際上是一個(gè)用戶體驗(yàn)與安全性上兩者相互妥協(xié)的過(guò)程。比如早期做動(dòng)作交互，用戶就對(duì)此表示厭惡，認(rèn)為這種驗(yàn)證模式特別傻；后來(lái)微眾銀行做讀數(shù)字，雖然安全性有所提升，用戶依然不買(mǎi)賬；這才有了后來(lái)的「激光守衛(wèi)」——通過(guò)屏幕反光做活體檢測(cè)以及更高安全級(jí)別的紅外、3D 結(jié)構(gòu)光照。

核身從某種程度上也要做多種模式的融合，才能有更高的安全性，即便如此，依然免不了遭遇很多「攻擊」。遇到這種情況，純粹依賴(lài)底層算法是不現(xiàn)實(shí)的。其他可考慮的方案就包括接入渠道層面做安全控制、后端風(fēng)控、人工審核或者多種活體模式的組合。

·上一篇: 光啟技術(shù)核心的AI覆蓋技術(shù)
·下一篇: 讓你想不到的蛇形機(jī)器人各種場(chǎng)合都有它的身影

其他關(guān)聯(lián)資訊

電子元器件的封裝形式

2021-10-31

Melexis累積出廠第10億顆Triaxis位置傳感器

2019-05-16

焊條電弧焊原理特點(diǎn)_焊條電弧焊的應(yīng)用

2020-03-13

PCB工藝中的OSP表面處理工藝要求

2023-08-23

LM2576可調(diào)集成塊詳細(xì)參數(shù)和應(yīng)用

2024-01-02