<label id="ydtpl"><meter id="ydtpl"><bdo id="ydtpl"></bdo></meter></label>
    <label id="ydtpl"><meter id="ydtpl"></meter></label><span id="ydtpl"><optgroup id="ydtpl"><xmp id="ydtpl"></xmp></optgroup></span>

      1. <li id="ydtpl"><mark id="ydtpl"><strong id="ydtpl"></strong></mark></li>

        <thead id="ydtpl"><optgroup id="ydtpl"></optgroup></thead>
        您當前的位置 :首頁 > 人物專訪
        投稿

        獨家對話百度副總裁王海峰:NLP 還有很長的路要走

        2017-03-06 23:49:51 來源:機器之心 作者: 點擊圖片瀏覽下一頁

             近日,機器之心獨家對話百度副總裁王海峰博士,針對時下的 NLP 熱點、百度相關的技術情況及其個人經歷展開討論。

        同時,機器之心與百度聯合推出技術專欄,探討百度在自然語言處理領域的研究成果、實踐經驗與心得。王海峰博士也表示,「理解語言、擁有智能、改變世界,希望我們的專欄能一起朝這個方向努力」。此篇專訪作為合作專欄的開篇,希望讀者能從中有所獲益。專欄后續內容,請持續關注機器之心。

        王海峰博士現任百度副總裁,負責百度搜索引擎、手機百度、百度信息流、百度新聞、百度手機瀏覽器、百度翻譯、自然語言處理、語音搜索、圖像搜索、互聯網數據挖掘、知識圖譜、小度機器人等業務。

        學術方面,王海峰博士是 ACL(Association for Computational Linguistics)50 多年歷史上唯一出任過主席(President)的華人,也是迄今為止最年輕的 ACL 會士(Fellow)。同時,王海峰博士還在多個國際學術組織、國際會議、國際期刊兼任各類職務。

        此前,我們曾專訪過百度自然語言處理部技術負責人吳華、高級總監吳甜,就百度機器翻譯技術展開過詳細討論。想要進一步了解百度機器翻譯,可移步《獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類》(可點擊文末閱讀原文查看)。

        因涉及方面較多、篇幅較長,根據專訪情況將內容分為上、下兩篇。《上篇:產品與技術》,談百度翻譯系統、信息流、知識圖譜的特點與技術,以及對數據、知識、記憶等解決 NLP 問題關鍵點的看法;《下篇:過去與現在》,談王海峰博士自 1993 年來專注研究機器翻譯與自然語言處理的過程,以及發展百度自然語言處理相關技術過程中的經歷與思考。

        上篇:產品與技術

        機器之心:首先請您介紹一下,目前所負責的研究和關注的重點有哪些?

        王海峰:從整體上,我在百度負責搜索、信息流、手機百度,百度新聞、百度翻譯、手機瀏覽器、自然語言處理、知識圖譜等業務,既包括技術和產品,也包括運營等。我們的很多產品如搜索、信息流等,都是技術驅動的,既有工程上的架構、策略,也有很多人工智能技術,如機器學習、數據挖掘、知識圖譜、自然語言處理和語音圖像技術等等。

        自然語言處理一直是這些業務中非常重要的基礎技術。從做搜索引擎誕生的第一天開始,最基本的 query 分析,網頁內容分析,文本匹配等,都需要自然語言處理。近些年來大家都很關注人工智能,隨著深度學習的應用,語音圖像很多問題已解決得比較好,但自然語言處理仍然面臨很多難題,也是現在人工智能的重點和熱點。

        十幾年來,自然語言處理工作在百度一直很重要,并已有很多積累。2010 年初我加入百度后,建立了獨立的自然語言處理部門。既致力于支持百度最核心的搜索和廣告等業務,也對自然語言處理技術進行了完整布局。不管是偏基礎的分析理解、生成,還是各種應用系統,像機器翻譯、問答系統、對話系統都在開展。

        百度自然語言處理技術的開展,一方面依托百度強大的數據和計算能力,另一方面將自然語言處理技術實際應用于產品也產生了更多數據。每天有非常多的用戶使用搜索,而背后又有萬億量級的網頁數據,絕大多數都用語言文字表示,蘊含了非常多可以挖掘的、有價值的信息和知識。這些既為自然語言處理的研究提供了非常好的基礎,同時提供了非常重要的應用場景。

        機器之心:您在 AAAI 上的演講中提到百度會在 query 中用到 BOW、CNN、RNN 等技術,這些不同的技術在語義理解上有什么樣的作用?怎么去應用這些技術?

        王海峰:Query 理解是一個研究了很多年的方向。Query 理解分很多層,比如最基礎的中文 query 理解,要做分詞、命名實體識別、短語結構分析等等。在應用深度學習之前百度就達到了很好的效果,在這過程中也積累了非常豐富的用戶數據。這些數據的積累又為后來應用深度學習提供了基礎。

        百度是世界上最早將深度學習技術應用在搜索引擎中的公司。深度學習本身具有很強的表示能力及大數據學習能力,基于百度積累的海量數據以及強大的計算資源,我們設計研發的針對性的新模型,展現出非常好的學習效果。

        學習出來的是什么?更多是語義層面的匹配。用戶在 query 中用的是一種表達方式,網頁中對應的可能是另外一種。在用戶的使用過程中,他的點擊數據、行為數據隱藏著不同表達方式之間的關聯,機器學習、深度學習就能學到這種關聯。本質上,還是更好地利用更多的數據學到了更多東西。BOW(Bag-of-Words,詞袋)就是對這些詞的語義表示做簡單的組合,我們用了更復雜的網絡如 CNN、RNN,CNN 能更好自動捕捉一些局部結構信息,RNN及其變體在序列建模中更能體現句篇的長距離依賴特性,它們的表示能力、學習能力就會進一步增強。

        神經網絡不是近幾年才出現的。20 多年前我讀博士的時候,博士論文也用了 RNN,但那時候的數據量要小很多,計算機的計算能力甚至跟現在的手機都沒法比。那時只能用很小的數據去跑模型,能跑出來、也有效果,但遠遠達不到今天的效果。深度學習很多基礎理論也并不是近幾年才產生的,但是近幾年爆發式的在應用中取得了非常多的成果,大數據和強大的計算能力起到了至關重要的支撐作用。

        機器之心:百度在前幾年就上線了機器翻譯系統,我們知道機器翻譯系統可能用到神經網絡、基于規則方法、基于實例的方法,還有基于統計的。這些不同的方法,如何在一個翻譯系統中結合?

        王海峰:我們在世界上最早把深度學習應用到大規模線上翻譯系統,2015 年 5 月系統正式上線。但上線的同時,并沒有把原來的方法直接替換掉。我們發現多個模型融合使用的效果是最好的,因為深度學習有些問題解決的并不好,每一種方法都有它擅長的地方。

        在應用深度學習之前,基于統計的、規則的、實例的方法我們都用了。比如規則方法,擅長抽象語言知識并顯式地表示出來,比如語法知識、局部的規則等。

        從一種語言到另一種語言并不是完全依靠規則的,如果有限的語法能覆蓋所有語言現象,翻譯這件事就會變得非常簡單。現實中語言是非常復雜的,表示很靈活,很多時候并不是從語法演繹出來,而是約定俗成就這么說,這時候基于實例的方法就會效果更好、效率更高。就像我們學英語時,很多時候不需要去分析,一聽到中文,相應的英文就會脫口而出。

        統計機器翻譯方法和神經網絡機器翻譯有一些相似的優點,同樣可以從非常龐大的語料庫中學習。因為它基于參數和模型,魯棒性也更好。統計方法需要從詞,到短語,到句子一層一層去做對齊、抽取、重排序等等;而神經網絡翻譯模型則可以是端到端的系統,用足夠的語料去訓練,就可以得到不錯的結果。從這個角度看,機器翻譯入門的門檻變低了,但想做到特別好仍然非常難。

        這幾種方法,我們現在更多是在結果級進行融合。

        機器之心:我們現在的知識圖譜包含 3 種:實體圖譜、意圖圖譜、關注點圖譜,我們為什么要做這些不同的知識圖譜,它們的情況和應用是怎么樣的?

        王海峰:做不同的圖譜,其實是應用驅動的。基于實體的知識圖譜,就是通常意義上的知識圖譜。基本節點是實體,實體的屬性、實體和實體之間的關系,一個基本的實體知識圖譜就是這樣。

        為什么做關注點圖譜?因為我們現在在做信息流,用戶關注的不一定是實體。它可以是一個實體或者概念,比如關注人工智能、機器翻譯;但也可以是一個事件,比如 AAAI 會議在舊金山召開,這不是實體或概念,而是一個事件,在實體圖譜里是沒有表示這樣的事件的節點的。這時就需要關注點圖譜。

        意圖圖譜我們在內部也稱為需求圖譜,用戶對話的過程中提出了一個需求,下一個需求會是什么?比如「阿拉斯加」,用戶關注的是城市還是寵物?如果關注寵物那么接下來關注的是喂養、習性還是其它?這既不是一個實體,也不是一個事件關注點。所以每一種知識圖譜都是由不同的應用驅動的。

        機器之心:包括 UC、今日頭條等等大家都在做信息流,百度在技術上有哪些不同之處?

        王海峰:信息流從基本原理上講,一端是對用戶的理解,一端是對內容的理解,然后對它們進行匹配。從這個最基本點看,大家都在做類似的事,但我們可以對內容、對用戶理解得更好、更充分。這背后既有數據的優勢,也有技術的優勢。

        數據方面,通過信息流中的用戶行為可以分析用戶的一些興趣點,但不限于此,比如用戶搜索的 query,明確表達了用戶的需求,而這些需求與用戶興趣愛好或者個體屬性等是相關的。再比如用戶關注了某個貼吧,這是一個非常強的信號,意味著他對這個東西很感興趣。

        所以我們做信息流不是孤立的,而是基于百度整體的各種產品,綜合起來會對用戶有更好的理解。

        另一方面是技術。百度在人工智能的方方面面都有著非常深厚的技術積累,我們會綜合利用各種技術。剛才談到不少深度學習技術模型在百度產品中已得到很多應用,而在真正的產品應用中,其它各種機器學習方法,比如 SVM 、CRF、GBDT 等也都會用。技術的選型,是基于對應用需求的充分理解及對數據的深入分析進行的。

        對內容理解這部分,則更多依賴自然語言理解。在搜索中,雖然也用到大量的自然語言處理技術,例如 query 的理解、改寫等,但搜索系統的基礎是關鍵詞與文本的匹配,使用的理解技術相對簡單。而對于信息流推薦系統,則需要先對一篇完整的文章有深度的分析理解,比如打上合適且豐富的標簽,需要的分析理解程度會更深。

        機器之心:目前我們的信息流里也有機器生成的文章,沒有語病、讀起來非常通順,但會缺少所謂的「意圖」。對于自動寫作的意圖和創造這件事,您是怎么看的?

        王海峰:目前有相對做得比較好的一面,也有局限性。

        寫稿子、甚至寫詩時,機器是在做什么?一方面是基于系統里的結構化數據,把數據組織成語句或者文章。比如我們做籃球解說,首先是拿到比賽賽況的實時數據,基于這些數據模擬解說,學習解說員的常用語言,也做一些簡單的推理。再比如寫詩也是首先明確詩的主題,比如「桃花」還是「月亮」?然后去規劃詩的內容。其背后是基于一個大規模詩集訓練得到的生成模型,基于確定好的主題和規劃的內容,最后生成的很多詩歌的確看上去讓人覺得很驚艷。

        機器能做到上面這些,也并不意味著機器具備了真正的深層次的理解。比如桃花開了,每個人的感受不一樣,聯想的東西也不一樣。機器并沒有像人一樣真正去具備這些情感,更多的是模仿已有數據。

        機器相對人來說有很多更擅長的能力,但也有一些遠不如人的方面。例如,讓搜索匹配到合適的網頁,但深層的基于背景知識進行深層次的理解及聯想則比較困難。還有,比較個大小長短的,對機器來說易如反掌,但要真正去推理則很困難。再比如,機器可以模仿人來寫詩,但讓機器真正有感而發去搞藝術創作則很難。總結一下,機器很善于匹配、比較、模仿,但要具備像人一樣的理解、推理、創造能力,則還有很長的路要走。

        機器之心:對于這個問題,常識和記憶是解決的方法嗎?

        王海峰:知識很重要,所以我們現在很重視建設知識圖譜。知識圖譜的建設已經是非常浩大的工作,而如何利用這些知識進行理解、推理,是更復雜的事。

        簡單的推理相對容易,比如在搜索里詢問名人的年齡,這不是匹配可以得到的,因為答案和當下的時間有關。靜態的知識是這個名人的生日,有了生日和當前時間,做個減法就能得到年齡。這是一個簡單的推理過程。

        再說記憶,首先是記什么,然后是怎么用。機器可以記住網頁,可以記用戶日志,也可以把經過分析提取后結構化的數據和知識記住。記住了這么多,接下來就是利用這些數據和知識,去分析、去推理、去解決實際問題。

        機器之心:大家都在研究用無監督學習或少量數據代替大量的標注數據,來達到同樣的訓練效果,在 NLP 領域我們有相關的研究或者進程嗎?

        王海峰:具體還是要看問題的目標是什么。如果目標是最終的結果,比如在機器翻譯中使用雙語語料達到源語言輸入、經過翻譯之后目標語言輸出的目的,就可以用端到端深度學習,訓練一個模型找到結果。怎么標注數據,甚至是不是真正有對詞、對短語的理解就不那么重要。如果目標是做一個 Parser,得到一棵符合人的認知、人對語法理解的句法樹,那就一定需要標注數據,在此基礎上加入某些特定的無標注數據也可以進一步提升效果。

        關于少還是多的問題,可以首先用較少的數據作為原始標注數據訓練一個模型,然后設法全自動或半自動的得到更多數據。

        再舉一個更基本的例子,分詞。有些任務涉及到理解就需要分成符合語言學定義的詞,有些任務就不太關心片段是不是真正的詞。有時候做信息檢索是一些片段放在一起,分析 query、分析網頁時是同樣的片段,兩個片段只要能匹配上就可以了。這時候分詞的粒度是什么、分出的詞是不是符合語言學定義就不那么重要了。

        機器之心:現在生成對抗網絡比較熱門,在計算機視覺領域得到很多應用。那么生成對抗網絡可以在 NLP 中應用嗎?

        王海峰:現在在 NLP 領域是有人在研究,但是還沒有特別顯著的突破。

        不止是生成對抗網絡,近年來深度學習在語音圖像等領域的應用很成功,在 NLP 領域也出現大量研究成果,但是這些研究成果真正對應用帶來質的飛躍還不多。語言的復雜性在于,語言不僅僅是表面的字符串,語言的內涵太豐富了,語言實際上是人對整個客觀及主觀世界的認知、描述和表達。

        機器之心:那 NLP 領域,接下來需要著重解決的是哪些問題?

        王海峰:根本問題還是語言的分析理解,語言的生成,以及知識的掌握和運用。

        真正要讓先進的 NLP 技術實現大規模應用,我認為更重要的是更好地利用大數據,尤其是實際產品應用中產生的數據。數據是動態增長的,用戶會不斷產生和反饋新數據。在這個動態過程中,技術會越來越完善。積累到一定程度我相信會帶來質變。

        下篇:過去與現在

        機器之心:您 1993 年讀大四的時候,為什么選擇智能翻譯作為本科畢業設計題目?

        王海峰:這其中有我個人興趣的因素,當時我覺得能讓計算機來做翻譯很神奇,特別有興趣。另一方面也有機緣的因素,學校把我分配到了李生老師的課題組做畢業設計。

        (注:李生,哈爾濱工業大學教授,自然語言處理領域專家,ACL 終身成就獎得主)

        機器之心:當時所謂的「智能翻譯」是怎樣的狀況?

        王海峰:那時統計機器翻譯方法剛剛出現,Peter Brown 那篇最經典的文章就是在 1993 年發表的(注 1)。1993 年初我做畢業設計時,還不知道那篇文章,當時最主流的還是基于規則的方法。我做畢業設計用的是基于規則的方法,這些規則都是人工寫的。因為我本科是計算機學科,比較擅長把它們用程序、代碼實現出來,當時還有外語系同學和我一起工作,專門負責寫語言規則。

        (注 1:Peter Brown et al. The Mathematics of Machine Translation: Parameter Estimation, In Computational Linguistics, 1993.)

        機器之心:您碩士期間,僅用了一年就開發出了當時 863 測評第一的機器翻譯系統,能和我們分享一下這段經歷嗎?

        王海峰:剛上碩士時,我用的還是基于規則的方法。當時我寫了一個很復雜的規則系統,也有小伙伴一起寫語言規則、詞典。那時候和現在的互聯網方法相似,也是不斷快速的迭代。我們會不斷進行大量測試,發現翻譯得不好的地方,就迅速分析解決。需要改代碼,我就馬上改代碼;需要調規則,外語系的小伙伴就立刻調規則。有時候午飯前發現了一個修改的地方,我就直接不去吃午飯。趁小伙伴們去午飯的時間,我的代碼就改好了。等他們回來,就可以繼續寫規則了。

        那時非常有干勁兒,幾乎每天都是實驗樓一開門我就進實驗室了,一直到晚上熄燈。當然,現在我也仍然每天很早就到辦公室(笑)。

        機器之心:您當年的同學們可能已經轉到其他的方向,您為什么 20 多年來一直在堅持機器翻譯、NLP 的研究?

        王海峰:可以說很幸運,這些年一直有需要我的專業能力的工作。但也和個人性格有關,我做事比較堅持,選擇了做一件事,就要負責到底,持之以恒不斷地做得更好。我已經堅持了 20 多年,相信還會堅持下去,因為自然語言處理的路還很長。

        機器之心:從您開始研究機器翻譯,到現在機器翻譯都有哪些比較重要的變化?

        王海峰:之前說過的四種方法,基于規則的、實例的、統計的、神經網絡的,每種方法我都經歷過,每個方法都是一個很大的變化。

        從根本上,我認為還是我們所擁有的基礎在變。比如數據的基礎,我記得剛來百度的時候,那時候特別開心,因為原來我們用統計方法找一些語料非常困難,幾十萬句對語料就覺得很好了。然而在百度,通過互聯網挖掘到的語料要遠遠比這個數字大,所以百度翻譯效果迅速地就上去了。

        不只是機器翻譯,人工智能這些年很多突破都跟數據有關,語音也是,相比早些年,語音數據獲取速度在變快,成本則在降低。

        機器之心:2010 年時您為什么加入百度?

        王海峰:這個因素就比較多了。

        首先根本的來說是整體的發展趨勢。我畢業時是在外企,那時中國的 IT 公司還比較弱小,也不需要那么多特別深入的技術。隨著近些年的發展,像百度這樣的公司越來越強大,對 NLP 等技術的需求越來越強。到了 2010 年前后,更多的人都開始選擇中國自己的企業。

        比較直接的契機是 2009 年 8 月,Robin 在百度世界大會上發布框計算。我對此很關注,在我看來如果要做框計算,背后需要大量的自然語言處理的技術。所以當時就感覺到,百度要做框計算,那就該有我的用武之地了。

        通過與百度人的接觸,發現除了業務本身以外,大家的價值觀、做事的方式等也特別匹配,所以聊過之后我很快就決定過來了。

        機器之心:NLP 在百度是從您開始建設的,這個過程是怎樣的?

        王海峰:確切地說,自然語言處理部這個部門是我建設的,而百度自然語言處理技術的研發則在我加入百度之前就有了,當時大搜索有一個小組在做這個。我來了以后,從十幾個人開始,正式成立了自然語言處理部,致力于直接滿足搜索等業務需求的同時,也規劃了更完整的布局及長期發展路線圖。這個路線圖中,既包括技術發展路線,也包括團隊成員的個人成長路線。團隊和業務都增長得很快,第一年團隊規模就翻了好幾倍,做的事情也多了很多。

        機器之心:您現在主管包括搜索、手機百度、信息流等業務,在這些業務之間您如何平衡自己的精力?在學者和管理者之間又該怎樣平衡?

        王海峰:團隊不是只有我一個人,很多人都很優秀,大家會各自有分工。這些業務在一起也有非常多的協同。

        對于我來說,更重要的是把整體的目標和方向定好,并組建最適合達成這些目標的團隊,然后就是帶領大家高效執行及協同。因為我本人是技術背景,在全面帶業務的同時,我的確也會在技術角度投入較多,會看技術發展方向和趨勢,也會和大家一起去分析解決具體技術問題。

        對于一個大型團隊,大到你已經不可能認識每一個人,這時候更重要的是建立機制和形成文化。百度的大搜團隊,有著原汁原味的簡單可依賴的工程師文化。

        機器之心:您最近比較關注的技術點是哪些?

        王海峰:更多是希望能把人工智能的能力在各種業務充分發揮出來,比如搜索、信息流、手機百度等等。

        如果人工智能再向前走,真正做到像人一樣思考,除了對語言的理解還要有對知識的掌握和對人的理解。這些都要有一定的應用場景支撐,搜索就是可以支撐這件事的最大平臺。到目前為止,搜索引擎擁有最多的數據和知識,它的背后是整個互聯網,人類的大量知識都蘊含其中。搜索引擎有條件更快地積累需要的數據。

        機器之心:在此前的采訪中您提到過,「希望 NLP 的技術能更好地觸及每一個人」。那接下來 NLP 觸及每個人的方式,應用也好、呈現方式也好,具體會是怎樣的?

        王海峰:事實上 NLP 已經在觸達幾乎每一個人,因為它用在各種產品里。

        百度絕大多數產品背后都有 NLP,2013 年我們做平臺化時,NLP 的平臺化也是其中一部分。當時 NLP 做了兩個平臺,一個是 NLPC(NLP Cloud),另一個是機器學習平臺 Malloc。這兩個平臺當時的應用量都排在前幾名,NLPC 平臺現在每天調用量已經有上千億。現在不只是百度,很多公司都很重視 NLP,應該說 NLP 已經在觸達每一個人。

        說到具體產品,獲取信息是人的基本需求之一,在沒有計算機的時代,甚至人類還沒有文字的時代,始終都需要信息。獲取信息最重要方式:一種是有明確需求,輸入 query 去找信息;另一種是用戶沒有主動表達需求,但系統能個性化地猜到用戶所需并推薦給用戶。這就分別對應著搜索和信息流,一個是人找信息,一個是信息找人。這兩種都應用了大量的自然語言處理技術。

        人們每天通過搜索或信息流獲取知識的同時,機器也可以不斷沉淀數據和知識,不斷變得更強。

        面向未來看,自然語言對話會成為未來最自然的人機交互方式,這將會改變每個人使用手機及其它設備的方式,會更加直接地觸達每個人。

        責任編輯:今日報道網
        版權聲明:
        ·凡注明來源為“今日報道網”的所有文字、圖片、音視頻、美術設計和程序等作品,版權均屬今日報道網所有。未經本網書面授權,不得進行一切形式的下載、轉載或建立鏡像。
        ·凡注明為其它來源的信息,均轉載自其它媒體,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。
        不良信息舉報信箱 網上投稿
        關于本站 | 廣告服務 | 免責申明 | 招聘信息 | 聯系我們
        今日報道網 版權所有 Copyright(C)2005-2016 魯ICP備16043527號-1

        魯公網安備 37010402000660號

        亚洲成在人线在线播放无码| 久久99精品久久久久久水蜜桃| 精品一区二区三区在线观看| 国产伦一区二区三区高清| 91精品欧美一区二区综合在线| 国产精品色午夜免费视频| 一个妈妈的女儿在线观看5| 城中村找个白皙丰满妇女在线播放| jizz国产视频| 国产综合精品在线| chinese乱子伦xxxx视频播放| 国产黄A三级三级三级| www.a级片| 国产精品美女在线观看| 2019av在线视频| 国产在线麻豆精品观看| 美女视频免费看一区二区| 国产在线麻豆精品| 精品日韩在线视频一区二区三区| 午夜小视频免费| 波多野结衣在线中文| 免费鲁丝片一级在线观看| 污网址在线观看| 人人妻人人澡人人爽曰本| 欧美性猛交xxxx乱大交| 亚洲精品午夜国产va久久成人| 欧美xxxx新一区二区三区| 亚州**色毛片免费观看| 无翼乌全彩我被闺蜜男口工全彩| 久久精品国产99国产精偷| 成人羞羞视频国产| 久久99精品免费视频| 女人张开腿让男人桶个爽| acg里番全彩侵犯本子福利| 国产福利不卡视频| 色爱无码av综合区| 又大又粗又爽a级毛片免费看| 精品国产免费观看久久久 | 国产特黄特色一级特色大片| 24小时日本韩国高清免费| 国产国语**毛片高清视频|