日韩黑丝制服一区视频播放|日韩欧美人妻丝袜视频在线观看|九九影院一级蜜桃|亚洲中文在线导航|青草草视频在线观看|婷婷五月色伊人网站|日本一区二区在线|国产AV一二三四区毛片|正在播放久草视频|亚洲色图精品一区

分享

Python 實(shí)現(xiàn)一個(gè)自動(dòng)化翻譯和替換的工具

 昵稱16619343 2019-04-14

閱讀內(nèi)容包含大量英文的 PPT、Word、Excel 或者記事本時(shí),由于英語不熟悉,為了流利地閱讀,需要打開瀏覽器進(jìn)入谷歌翻譯的主界面,然后把英文復(fù)制到谷歌翻譯的輸入框中,最后又把翻譯結(jié)果復(fù)制回 PPT、Word 和 Excel。

要是一個(gè)兩個(gè)單詞還好,要是發(fā)現(xiàn)有 100 個(gè)單詞不認(rèn)識(shí),就必須復(fù)制粘貼 200 次,如此機(jī)械性重復(fù)性的工作,應(yīng)該交給程序來做,這就是我設(shè)計(jì)下面這個(gè)自動(dòng)化翻譯工具的初衷。

提升辦公效率的法寶

如上圖所示,運(yùn)行程序并保持后臺(tái)運(yùn)行,在電腦上的任何一個(gè)軟件中選擇一段文本,并 Ctrl + C 復(fù)制到系統(tǒng)剪貼板中,程序就會(huì)自動(dòng)幫助我們完成翻譯,并將翻譯結(jié)果自動(dòng)復(fù)制到系統(tǒng)剪貼版中,只需 Ctrl + V,就完成了翻譯結(jié)果對(duì)原文的替換。

編碼實(shí)現(xiàn)

程序主要分為兩部分,第一部分為谷歌翻譯爬蟲,第二部分就是實(shí)現(xiàn)這個(gè)將翻譯結(jié)果自動(dòng)替換的業(yè)務(wù)邏輯。

谷歌翻譯爬蟲

通過瀏覽器 F12 開發(fā)者工具,很容易定位到翻譯請(qǐng)求的URL:http://translate.google.cn/translate_a/single?client=t&sl=en&tl=zh-CN&hl=zh-CN&dt=at&dt=bd&dt=ex&dt=ld&dt=md&dt=qca&dt=rw&dt=rm&dt=ss &dt=t&ie=UTF-8&oe=UTF-8&clearbtn=1&otf=1&pc=1&srcrom=0&ssel=0&tsel=0&kc=2

這個(gè)請(qǐng)求接受兩個(gè)參數(shù),一個(gè)就是我們要翻譯的字符串 q,另一個(gè)是用于用戶認(rèn)證的 tk(token),其中 q 很容易構(gòu)造,tk 的構(gòu)造就需要花費(fèi)一番心力了,需要我們調(diào)試 js 代碼,這里參考 Github 上大神的輪子: https://github.com/cocoa520/Google_TK

谷歌翻譯爬蟲的主要代碼如下:

1def translate(tk, content):
2 if len(content) > 4891:
3 print('too long to translate')
4 return
6 param = {'tk': tk, 'q': content}
8 result = requests.get('''http://translate.google.cn/translate_a/single?client=t&sl=en
9 &tl=zh-CN&hl=zh-CN&dt=at&dt=bd&dt=ex&dt=ld&dt=md&dt=qca&dt=rw&dt=rm&dt=ss
10 &dt=t&ie=UTF-8&oe=UTF-8&clearbtn=1&otf=1&pc=1&srcrom=0&ssel=0&tsel=0&kc=2''', params=param)
11
12 data = result.json
13 print(data[0][0][0])

返回結(jié)果是 json 形式的,翻譯結(jié)果保存在結(jié)果的第一個(gè)元組中。

Python 操作系統(tǒng)剪貼板

1def getText:#讀取剪切板
2 # 打開剪貼板
3 w.OpenClipboard
4 # 讀取剪貼板的內(nèi)容
5 d = w.GetClipboardData(win32con.CF_TEXT)
6 # 關(guān)閉剪貼板
7 w.CloseClipboard
8 try:
9 return d.decode('utf-8')
10 except:
11 return d.decode('gbk')

返回值 d 是字節(jié)類型的,需要解碼,中文按 gbk 格式解碼,英文按 utf-8 解碼。

類似地,寫入剪貼板的代碼如下:

1def setText(aString):#寫入剪切板
2 # 打開剪貼板
3 w.OpenClipboard
4 # 清空剪貼板
5 w.EmptyClipboard
6 # 寫入剪貼板
7 w.SetClipboardText(aString)
8 # 關(guān)閉剪貼板
9 w.CloseClipboard

實(shí)現(xiàn)將翻譯結(jié)果自動(dòng)替換原文的邏輯的代碼如下:

1while(True):
2 # 如果剪貼板正在被占用
3 try:
4 cs = getText
5 except:
6 time.sleep(1)
8 print('cs',cs)
9 if cs and cs != ls:
10 print('準(zhǔn)備翻譯')
11 content = getText
12 tk = js.getTk(content)
13 res = translate(tk, content)
14 setText(res)
151)
16 ls = res

值得注意的是,系統(tǒng)剪貼板對(duì)象是單例模式的,在操作系統(tǒng)范圍內(nèi)只有一個(gè),而且讀寫剪貼板都是互斥的,在讀(寫)剪貼板的同時(shí)不允許任何對(duì)剪貼板的寫(讀)操作。試想這樣一種情景,我們?cè)谄渌浖?Ctrl + C 寫入剪貼板,而此時(shí)我們的程序代碼正好執(zhí)行到讀剪貼板那一行,毫無疑問會(huì)報(bào)錯(cuò),我的解決辦法是使用 try…except 語句延時(shí) 1 s再讀取,這樣可以大大降低讀寫碰撞的概率,但無疑消耗了程序性能。

最好的辦法是判斷剪貼板對(duì)象句柄是否被占用,其實(shí)我一直在尋找是否存在判斷剪貼板對(duì)象句柄是否被占用的 API,但是一直沒有找到

    本站是提供個(gè)人知識(shí)管理的網(wǎng)絡(luò)存儲(chǔ)空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請(qǐng)注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評(píng)論

    發(fā)表

    請(qǐng)遵守用戶 評(píng)論公約