近日,由清華大學(xué)承擔(dān)的多體蒙古文(混排漢英)印刷文檔識別暨統(tǒng)一平臺(tái)少數(shù)民族文字識別系統(tǒng)通過了教育部科技發(fā)展中心組織的鑒定。
在教育部、國家語委、國家自然科學(xué)基金委的支持下,清華大學(xué)與內(nèi)蒙古大學(xué)、內(nèi)蒙古師范大學(xué)協(xié)作研究開發(fā)成功了多體蒙古文(混排漢英)印刷文檔識別系統(tǒng),并結(jié)合清華大學(xué)已研制成功的的藏維文等文檔識別研究成果,在世界上首次推出了統(tǒng)一平臺(tái)上蒙古文、藏文、維吾爾文、哈薩克文、柯爾克孜文及朝鮮文(混排漢英)印刷文檔識別系統(tǒng)。在多體蒙古文(混排漢英)印刷文檔識別系統(tǒng)研究方面,根據(jù)蒙古文的實(shí)際特點(diǎn)和難點(diǎn),采用基于字素的文本切分識別方案。
主要技術(shù)特點(diǎn)如下:
1.提出了一種基于統(tǒng)計(jì)鑒別分析的多字體多字號蒙古文字符識別的方法,對蒙古文的常見多種字體(白體、黑體、報(bào)體、哈旺體/楷體等二十余種字體)具有良好適應(yīng)性,單字測試平均識別率達(dá)99%以上;
2.提出并實(shí)現(xiàn)多字體蒙古文文本切分方法,在提取單詞基線位置后,通過定義代價(jià)函數(shù),綜合分析字符幾何位置、形狀等多種信息,取代價(jià)函數(shù)極小值處作為切分點(diǎn);提出了蒙漢英語種判別方法,結(jié)合漢、英文識別技術(shù),實(shí)現(xiàn)蒙漢英混排文本識別。文本識別率可達(dá)96.8 %以上。
3.具有蒙古文印刷文檔版面分析方法,可分析處理文本、圖片、表格區(qū)域。
4. 研制字符形碼到Unicode標(biāo)準(zhǔn)蒙古文編碼轉(zhuǎn)換方法。
共有 網(wǎng)友評論