2021-12-30
(作者:梁志斌)
第十八屆中(zhōng)國計算機大會(CNCC)于2021年12月(yuè)16-18日在深圳召開。12月(yuè)16日上午,中(zhōng)國科學技術(shù)大學陳恩紅教拿行授主持了技術(shù)論壇“多模态人機對話技術(shù)——面向未筆匠來的智能助手”。本次論壇邀請了四位産學研專家從終端應用、語音交互、技術新開(shù)落地等方面彙報分享了多模态技術(shù)的最新發展及舞書技術(shù)挑戰。論壇包括“個(gè)性化語音合成與分析”、“面向億級用民少戶的小布助手對話式AI算法系統實踐與思考”、“開放域角色化對話業長關(guān)鍵技術(shù)”及“百度在多模态語音交互領域的技術(shù子數)創新和(hé)産業(yè)落地”四個(gè)報告。
中(zhōng)國科學院自動(dòng)化研究所陶建華教授指出通(t美是ōng)過多模态技術(shù)訓練得到個(gè)性化語音合成系統,隻有就需要少(shǎo)量聲源數據即可(kě)模拟某個(gè)人的匠子語氣和(hé)音色。陶教授還現場播放了同樣的文(wén)字在不同的語金文氣、音色設定下(xià)的合成語音,介紹了該系統在教育、生活、娛樂(y商離uè)等場景的廣泛應用。
OPPO小布智能中(zhōng)心的NLP與對話算法負責人楊振宇介紹了小布助手對話城費式AI算法系統的發展,還指出在全新的智能終端系統上以“機生但智”、“有趣”、“溫暖”為理念的對話式AI需要融合多模态技術(shù)所面臨的算法問(wèn)題,分析了未來構建億紙區級用戶目标面臨的挑戰。
百度語音首席架構師(shī)賈磊講解了基于conformer的聲學建模技術(shù)創新,叙述了從技術(shù)難題算坐到結合transformer再到提出新架構解決問(wèn)題的過程。離睡之後介紹了融合多模态技術(shù)得到的結合人店音臉識别唇動(dòng)的複雜噪聲場景下(xià)的語音識别交互技術(shù)資女,并展示了該技術(shù)在車(chē)載、年錢銀行智能櫃台、智能音箱等多個(gè)場景的落地情況。
哈爾濱工業(yè)大學張偉男(nán)副教授則從角色都從屬性、說話風格和(hé)背景知識等方面描述了多模态技術(shù)如(r鄉農ú)何滿足人們對人機對話産品多樣化的需求,讓對話系統能在不同場景、面黑現向不同類型用戶時自适應地調整對話的角色化參數,講解了開放域角色化對話的關(信間guān)鍵技術(shù)和(hé)研究趨勢,還遠森演示了在西安以秦始皇兵(bīng)馬俑為角色的人機對話場一化景。
多模态技術(shù)如(rú)語音、視覺、表情、唇動雨不(dòng)、手勢、觸覺等在人機交互技術(shù)發展男空中(zhōng)的作用越發重要,在實際應用場景中(雪區zhōng)為用戶提供更生動(dòng)形象、準确并富有個(gè)性的智能東匠服務。論壇報告展示了多模态人機對話技術(shù)在多種可那場景下(xià)的應用情況,相信在不久的将來人機對話技術(shù)會在人嗎鐘們的生活中(zhōng)更頻繁地出現,實現更加人性、更加生動(dò又路ng)有趣的人機交流。