【Github】NLPer-Interview: NLP 算法工程師相關(guān)的面試題

印度阿三17 2021-03-28

展開全文

周末推薦一下老宋同學整理的Github項目：songyingxin/NLPer-Interview?，該倉庫主要記錄 NLP 算法工程師相關(guān)的面試題：

https://github.com/songyingxin/NLPer-Interview

老宋目前是百度算法工程師，也是知乎老宋的茶書會專欄作者，以下主要來自老宋對該倉庫的描述，點擊"閱讀原文"直達該倉庫主頁面，推薦Star，內(nèi)容相當豐富。

本倉庫主要記錄本人對 NLP 相關(guān)知識的積累，之前筆記做的很多，考慮到秋招已至，在復(fù)習的過程中，慢慢將這些知識屢清楚，然后將相關(guān)的知識筆記整理成專題，來幫助我更好的復(fù)習。

同時，開源出來，希望大家能幫助我補一補相關(guān)的技術(shù)棧，看看我哪方面比較弱，同時也幫助諸位秋招中的伙伴更好的復(fù)習。如果希望一起做的同學，可以聯(lián)系我，畢竟一個人做這么多，的確有點難，還好我前期筆記做的比較全。

推薦使用 Typora 編輯器打開，所見即所得。

1. 編程語言基礎(chǔ)

該文件夾下主要記錄 python 和 c 的一些語言細節(jié)，畢竟這兩大語言是主流，基本是都要會的，目前還在查缺補漏中。

C 面試題
Python 面試題

2. 數(shù)學基礎(chǔ)

該文件夾下主要記錄一些數(shù)學相關(guān)的知識，包括高數(shù)，線性代數(shù)，概率論與信息論，老宋親身經(jīng)歷，會問到，目前尚在查缺補漏中。

概率論
高等數(shù)學
線性代數(shù)
信息論

3. 計算機基礎(chǔ)理論知識

這部分內(nèi)容一般不怎么考，因此，沒有把重心放在上面，至少現(xiàn)在幾乎沒有遇到問這方面的，有意思的是，投了阿里某部的NLP算法，居然來了個不懂NLP的來面，全程真的瞎聊，全是開發(fā)。

4. 機器學習基礎(chǔ)

這部分已經(jīng)開始進入正題了，事實證明，部分大廠會提及一些基礎(chǔ)的機器學習算法知識，因此，這部分我覺得幾個核心的模型是要會的。

機器學習項目流程
判別模型 vs 生成模型
頻率派 vs 貝葉斯派
數(shù)據(jù)預(yù)處理
特征工程
特征工程-關(guān)聯(lián)規(guī)
模型 - SVM
模型 - 聚類算法
模型 - 決策樹
模型 - 邏輯回歸
模型 - 樸素貝葉斯
模型 - 隨機森林
模型 - 線性回歸

5. 深度學習基礎(chǔ)

這部分主要講述深度學習方面的基礎(chǔ)知識，是核心點，但很多情況下，很多面試官的題基本差不多，不過我個人覺得，有這種全局的，全面的知識框架是有益的。

深度學習項目流程

5.1 基礎(chǔ)理論部分

基礎(chǔ)理論 - 多任務(wù)學習
基礎(chǔ)理論 - 集成學習
基礎(chǔ)理論 - 分類問題評估指標
基礎(chǔ)理論 - 距離度量方法
基礎(chǔ)理論 - 目標函數(shù)，損失函數(shù)，代價函數(shù)
基礎(chǔ)理論 - 偏差 vs 方差，欠擬合 vs 過擬合
基礎(chǔ)理論 - 數(shù)據(jù)角度看深度學習
基礎(chǔ)理論 - 梯度消失，梯度爆炸問題
基礎(chǔ)理論 - 維數(shù)災(zāi)難問題
基礎(chǔ)理論 - 指數(shù)加權(quán)平均
基礎(chǔ)理論- 局部最小值，鞍點
基礎(chǔ)理論 - 集成學習
基礎(chǔ)理論 - 集成學習

5.2 基本單元

基本單元 - CNN
基本單元 - MLP
基本單元 - RNN

5.3 調(diào)參相關(guān)

調(diào)參 - 超參數(shù)調(diào)優(yōu)
調(diào)參 - 激活函數(shù)
調(diào)參 - 權(quán)重初始化方案
調(diào)參 - 優(yōu)化算法

5.4 Tricks

Trick - Dropout
Trick - Normalization
Trick - 融合訓(xùn)練集，驗證集，測試集
Trick - 提前終止
Trick - 學習率衰減
Trick - 正則化

6. 統(tǒng)計自然語言處理

這部分前期的筆記做的不多，因此還沒怎么開始。

7. 深度學習自然語言處理

這部分算是核心的知識了，這部分還需要逐漸完善，時間有點緊啊。

文本數(shù)據(jù)預(yù)處理
各大任務(wù)的評價指標
改進 NLP 模型的一些思路

7.1 詞向量三部曲

詞向量 - Word2Vec
詞向量 - Glove
詞向量 - FastText

7.2 預(yù)訓(xùn)練語言模型

預(yù)訓(xùn)練語言模型 - BERT改進研究
預(yù)訓(xùn)練語言模型 - 融入知識圖譜
預(yù)訓(xùn)練語言模型 - 自然語言生成

7.3 Attention 機制

7.4 文本分類

7.5 語義匹配

7.6 閱讀理解

8. 源碼閱讀

這部分主要推薦一些自己閱讀過的一些源碼，有些源碼是 NLP 相關(guān)，有些是深度學習相關(guān)的，部分源碼我個人有做注釋，會相應(yīng)的列出來。

9 . 老宋渣渣算法面經(jīng)

這部分主要是自己面試過程中的一些感悟，哎，快面到自閉了。

Reference

[1] DeepLearning-500-questions -- 一個很好的倉庫

[2] Algorithm_Interview_Notes-Chinese -- 知識比較舊了，但也很好

其他主要是自己的日常積累和看的論文。

關(guān)于AINLP

AINLP 是一個有趣有AI的自然語言處理社區(qū)，專注于 AI、NLP、機器學習、深度學習、推薦算法等相關(guān)技術(shù)的分享，主題包括文本摘要、智能問答、聊天機器人、機器翻譯、自動生成、知識圖譜、預(yù)訓(xùn)練模型、推薦系統(tǒng)、計算廣告、招聘信息、求職經(jīng)驗分享等，歡迎關(guān)注！加技術(shù)交流群請?zhí)砑覣INLPer(id：ainlper)，備注工作/研究方向加群目的。

來源：https://www./content-1-905701.html