推薦一本自然語言處理開源書籍

NLP基礎知識

  • 常用數據集簡介

  • 推薦更新源

  • 打造NLP工具箱

  • 如何衡量機器學習分類模型

  • 詞袋模型和TFIDF模型

  • Word2Vec模型和Doc2Vec模型

  • 自己動手訓練word2vec模型

  • 使用多層感知機進行文檔分類

  • 使用fasttext進行文檔分類

  • 使用LDA進行文檔主題建模

  • 使用Jieba進行中文詞性標注

  • 使用TextRank和TFIDF進行關鍵字自動提取

  • 文檔相似度

NLP應用案例

  • 對美食評語進行情感分析

https://github.com/duoergun0729/nlp/blob/master/%E9%A2%84%E6%B5%8BYelp%E7%BE%8E%E9%A3%9F%E8%AF%84%E5%88%86.md

讓機器理解文字

圖像、文字和聲音是人類接觸、理解外部世界最常見的三種形式,其中文字又是最容易保存和進行交換的形式。大量的人類文明,最終都是以文字的形式保留下來的;大量的信息交換,都是是文字的形式進行。如何能讓機器可以與人交流,理解人類的思想,最終能像人類一樣理解文字以及文字背后的各種想法、意圖呢?自然語言處理,即所謂的NLP是重要的支撐技術。

NLP與安全

在傳統的web攻防中,大家與http協議結下了不解之緣。但是在安全領域,web攻防只是很小一個分支。許多明顯的與工作和生活無關的垃圾郵件,人一樣就可以看出來,但是基于規則的垃圾郵件網關處理起來卻總是差強人意。越來越多的電商、論壇甚至是視頻網站的彈幕,總是可以看到明顯的人身攻擊或者違法違規信息,但是基于規則的過濾機制總是被繞過。人類可以很輕松的理解二十四口交換機,知道蘋果是水果還是手機,但是機器如何做到呢?答案就是NLP。

一本開源的NLP入門書籍

作者:

這可能是第一本用開源的思想寫的NLP入門書籍,整個寫作過程都在我的Github上。

https://github.com/duoergun0729/nlp  

之所以想用開源的思路去寫,主要是因為NLP技術,尤其是基于機器學習的NLP技術發展非常快,比如目前已經廣泛使用的fasttext技術,2016年發布論文,2017年已經進入大量生產領域,但是許多自然語言處理書籍還停留在大學課程的范圍,甚至連詞向量都很少涉及。相對周期繁瑣的紙質書籍編寫,在Github上我可以很方便的進行編寫和更新,有勘誤也可以很快修改。目前我已經完成了其中的三篇,后面我將不斷更新內容。



?------------------------------------------------

原文地址:https://mp.weixin.qq.com/s/DiIQSFhR60GMsPpvRFppDA

轉載請標明來之:阿貓學編程
更多教程:阿貓學編程-python基礎教程

所有評論

如果對文章有異議,請加qq:1752338621