上海順源印務有限公司是上海印刷廠、印刷公司行業(yè)知名企業(yè),專注于宣傳冊印刷丨畫冊印刷丨彩色印刷丨單頁印刷丨樣本印刷等印刷業(yè)務,為客戶提供設計印刷一條龍服務!
時間:2016-12-05 來源:新華網
我國傳統(tǒng)蒙古文印刷體文字識別軟件(OCR)研究取得重大進展。據(jù)其研發(fā)者烏日力嘎博士向新華網內蒙古頻道獨家披露,目前OCR軟件對蒙古文白體的識別率已達到99%以上,對鉛印版的識別率也達到95%以上。
隨著互聯(lián)網的高速發(fā)展,網絡已經成為人們共享信息的一個大平臺?!霸谛畔⒐蚕淼拇笃脚_之中,蒙古文信息的傳播因為數(shù)字化處理的識別限制,變得極為繁瑣和無奈?!碑厴I(yè)于內蒙古大學的烏日力嘎博士直言不諱。
“傳統(tǒng)蒙古文有大量的圖書、報刊,但其中很多都沒有實現(xiàn)數(shù)字化,”烏日力嘎博士介紹說,高效數(shù)字化需要OCR(Optical Character Recognition)軟件自動識別掃描或拍照的圖片,將圖片中的文字轉換成文本。
據(jù)了解,本世紀初伊始,就陸續(xù)有科研機構、相關公司嘗試開發(fā)傳統(tǒng)蒙古文自動識別軟件,但因為識別準確率不高、操作繁瑣等諸多原因,使用者至今未能等到可廣泛使用和可信賴的產品。烏日力嘎博士卻憑借自己的執(zhí)著追求和一己之力,用不到兩年時間完成了這一傳統(tǒng)蒙古文印刷體OCR。
“讀博士期間研究機器翻譯,機器翻譯需要大量的語言資源,但是蒙古文的資源特別少,我們在建立語言數(shù)據(jù)庫時需要大量的人力、時間和經費,”烏日力嘎博士說:“從那個時候起,我就萌發(fā)一個念頭,自己是否也試著研發(fā)一款高精度的蒙古文自動識別系統(tǒng)?!?/span>
2015年夏天博士畢業(yè)之后,烏日力嘎開始全身心地投入到傳統(tǒng)蒙古文OCR軟件的開發(fā)之中,她參考了國內外大量學術文獻,并使用深度學習和語言模型等高新技術,在短時間內成功研發(fā)出了蒙古文高精度自動識別軟件。據(jù)介紹,這一軟件的優(yōu)勢是既能識別掃描圖片,又能識別拍照的圖片,并且將打字和校對的功能融為一體。
“上世紀90年代以前的書本都是鉛印版本,但目前還沒有其他可以把鉛印版轉換成文本的軟件,而烏日力嘎博士研究的軟件優(yōu)勢是能識別鉛印版,并且有承前啟后的作用,”內蒙古大學教授那順烏日圖認為,烏日力嘎研究的軟件理論上有創(chuàng)新,這一軟件結合語言規(guī)則和統(tǒng)計方法,再利用深度學習和神經網絡等新技術來完成的。因為以前的OCR軟件是基于規(guī)則或者是基于統(tǒng)計的方法來實現(xiàn)的,他們最終效果都不理想。
烏日力嘎最后表示,希望她所開發(fā)的這款軟件能為廣大的蒙古語言文字工作者帶來更多的工作上的便利。
電話:021-64696976 021-64684606 021-64697746
傳真:021-64683812
郵箱:shunyuanprint@126.com
網址:http://yyuda.com.cn/
全國客戶熱線: 400-188-1388