在信息爆炸的時(shí)代,文本數(shù)據(jù)正以前所未有的速度增長,其復(fù)雜性也在不斷增加。傳統(tǒng)的信息抽取技術(shù)已難以滿足日益增長的需求,而深度學(xué)習(xí)模型的高昂訓(xùn)練成本和泛化能力不足,成為制約其進(jìn)一步發(fā)展的瓶頸。針對這些痛點(diǎn),合合信息TextIn平臺(tái)重磅上線智能文檔抽取產(chǎn)品,可實(shí)現(xiàn)“零樣本”抽取,為文本信息的高效利用開辟了新道路。
TextIn平臺(tái)的智能文檔抽取產(chǎn)品,基于合合信息自研的垂直領(lǐng)域語義模型,融合了文字識別、文檔解析、文檔檢索和文本生成等關(guān)鍵技術(shù),能夠模擬人類的推理方式,自動(dòng)識別并提取訓(xùn)練階段從未見過的新事物。
傳統(tǒng)的文檔抽取方式依賴于大量的標(biāo)注樣本進(jìn)行模型訓(xùn)練,而TextIn智能文檔抽取則采用了“開箱即用”的設(shè)計(jì)理念。用戶只需在平臺(tái)上配置需要提取的關(guān)鍵字段,模型便能自動(dòng)完成信息抽取。例如,在處理發(fā)明專利證書時(shí),用戶只需指定發(fā)明名稱、證書號等字段,模型即可迅速準(zhǔn)確地提取出相關(guān)信息,極大地提高了工作效率。
TextIn智能文檔抽取的泛化性是其另一大亮點(diǎn)。通過對海量基礎(chǔ)數(shù)據(jù)的預(yù)訓(xùn)練,該平臺(tái)能夠兼容各種不同版式的文檔材料,無需針對每一種版式進(jìn)行單獨(dú)的標(biāo)注訓(xùn)練。以醫(yī)療險(xiǎn)理賠場景為例,傳統(tǒng)的標(biāo)注訓(xùn)練方式需要針對各種不同版式的住院病案、出入院小結(jié)等進(jìn)行大量的樣本標(biāo)注和模型訓(xùn)練,而TextIn智能文檔抽取則能夠輕松應(yīng)對各種版式變化,實(shí)現(xiàn)精準(zhǔn)抽取。
此外,TextIn智能文檔抽取還具備對復(fù)雜版面解析的準(zhǔn)確性。在處理包含復(fù)雜表格、手寫體、印章等元素的非結(jié)構(gòu)化文檔時(shí),該平臺(tái)能夠準(zhǔn)確還原文檔結(jié)構(gòu),實(shí)現(xiàn)表格信息的結(jié)構(gòu)化抽取。這一能力在機(jī)動(dòng)車保單、企業(yè)內(nèi)部結(jié)算申請等場景中得到了充分體現(xiàn),為用戶提供了更加全面、準(zhǔn)確的信息支持。
除了對文檔的準(zhǔn)確解析外,TextIn智能文檔抽取還具備“多模態(tài)”抽取能力。它能夠處理雙層PDF電子件、拍攝件、掃描件等不同格式的文件,并支持對長文本和短文本的兼顧處理。無論是單頁的非標(biāo)卡證、票據(jù)、表單,還是幾十甚至上百頁的長文檔,TextIn平臺(tái)都能輕松應(yīng)對,實(shí)現(xiàn)信息的快速抽取和整理。
最后,TextIn智能文檔抽取還具備通用及領(lǐng)域知識。合合信息通過對涵蓋金融(研報(bào)、財(cái)報(bào)、公告、招股書等)、政務(wù)(公文、公告、規(guī)章制度、政府工作報(bào)告等)、法律(法律法規(guī)、法律文書等)等各行業(yè)高質(zhì)量語料庫的應(yīng)用,使得語義模型既具備通識能力,也具備不同行業(yè)的專項(xiàng)領(lǐng)域知識。
總體而言,合合信息TextIn智能文檔抽取為文本信息的高效利用提供了強(qiáng)有力的支持。隨著技術(shù)的不斷進(jìn)步和應(yīng)用的不斷拓展,相信TextIn平臺(tái)會(huì)為智能文檔抽取領(lǐng)域帶來更多價(jià)值。
關(guān)鍵詞: