隨著知識更新的速度越來越快,信息發布、知識傳播的時效性要求越來越高,新聞出版從業人員編輯加工文字的工作量越來越大,編校質量面臨的挑戰也越來越多。與此同時,人工智能技術、自然語言理解技術、機器深度學習技術的發展,為內容質量把關和提升提供了新的解決辦法。
12月30日,方正電子正式發布方正智能輔助審校系統V1.0。這是方正電子聯合數字出版技術國家重點實驗室、高等院校、行業專家等一起進行技術研究和攻關的成果,也是在眾多新聞出版單位的積極參與和應用檢驗下,經過不斷迭代更新的產品,在字詞審校、知識審校、格式審校、邏輯審校方面都取得了實質性的進展。
▲方正智能輔助審校產品功能介紹
系統簡介
方正智能輔助審校立足新聞出版行業,并逐漸向整個文化傳媒領域延伸,為出版社、報刊社、民營書商、排版公司、互聯網企業、政府機關等機構用戶以及作者、工作室等個人用戶提供強大且易用的智能輔助審校服務。
該系統是專門為新聞出版機構提供數字化內容輔助審校的工具,能夠對內容進行多方面檢校,包括:字詞檢查、標點符號檢查、文章邏輯檢查、上下文查重、專業術語檢查、敏感詞檢查等。
該系統提供兩種產品形態的服務,支持對Word稿件和標準PDF稿件進行內容審校,滿足不同人員角色、不同工作場景的使用需求。
01.Word客戶端插件
▲產品形態之一:Word客戶端插件
02.云端在線審校平臺
▲產品形態之二:云端在線審校平臺
功能介紹
方正智能輔助審校通過語言模型和機器深度學習技術,通過構建算法模型對海量真實語料不斷訓練及優化,累積的錯詞、專業術語、敏感詞、慎用詞、異形詞等類型的編校知識詞條超過百萬。
方正智能輔助審校系統參考并依據《作者編輯常用標準及規范》(第三版)《標點符號用法 GBT 15834-2011》以及《圖書編輯校對實用手冊》《通用規范漢字表2013版》等標準規范或權威資料,將模型、語料、規則三者相結合,研發出邏輯類、字詞類、知識類、格式類四類審校功能。
通過方正智能輔助審校系統,使用者不僅能夠對稿件中的錯詞錯字、敏感詞、相似內容、公元紀年、歷史紀年、干支紀年、標點符號進行檢查,還可以對稿件的大綱標題、圖表公式列表的序號等進行檢查,對于識別出的錯誤還可以給出修改建議,并且支持對錯誤進行快速定位、導出及修改。具體功能介紹如下:
錯詞錯字檢查
檢查稿件中是否存在錯字、別字、疊字、疊詞,以及“的地得”類錯誤。
▲圖中:“因些該尺度具有﹥和﹤的數學特性”,“因些”需改為“因此”
敏感詞檢查
敏感詞檢查包括國家主權和領土完整、港澳臺問題、民族宗教問題、國際關系等敏感內容檢查。
▲不得稱為“全國人大副委員長”
▲“珠穆朗瑪峰”不得稱為“額菲爾士峰”
▲“從香港征集回國”,有將香港視為國家的嫌疑
▲“回族就是伊斯蘭教”將民族和宗教混為一談
▲“錫金是中國的鄰國”,2005年5月起,不得將錫金作為獨立國家提及
▲對有身體傷疾的人士不使用“獨眼龍”等蔑稱
標點檢查
檢查稿件中是否存在成對標點符號缺失或格式不一致,以及不同標點符號是否疊用、連用的錯誤。
▲圖中:“但其也有一些缺陷,如發展速度易受資金、,人力、時間等方面的限制”,標點“、,”不應該連用
大綱檢查
檢查稿件大綱的標題序號是否連續,體例或格式是否一致,標題內容是否重復,是否為孤標題。
▲圖中“3.為加強業務管理……”中的序號“3.”應改為“2.”
圖、表、公式、列表序號檢查
檢查稿件中圖片、表格、公式的序號是否存在不連續、體例或格式不一致、缺少引用的錯誤。
▲圖中“圖1-6”應改成“圖1-5”,“圖2-2”應改成“圖2-1”
上下文查重
檢查稿件中是否存在相似度較高或者完全相同的內容。
▲圖中稿件第10頁和第82頁兩句話重復,且內容完全相同
紀年檢查
檢查稿件中的紀年類內容是否存在公元年份、干支紀年以及歷史紀年的錯誤。
▲圖中稿件“正德三年(1508)”應改為“正德三年(1713)”;“明嘉靖癸己年(1533)”應改為“明嘉靖癸巳年(1533)”
格式檢查
檢查稿件中數值的千分空是否使用正確,數值與單位符號之間是否使用了不間斷空格,以及數學符號是否使用了中文全角。
▲圖中:“有兩個鄉的水稻平均單產都是400kg,甲鄉的水稻單產在350~450kg之間的地塊”,“400kg”和“450kg”,數值和單位kg之間沒有使用不間斷空格;“%”應該使用半角格式
公式識別
方正審校還提供公式識別功能,除了能夠將圖片格式的公式識別為可編輯的MathType公式外,還可對全文所有公式進行內容一致性檢查。
▲圖片格式的公式利用公式識別功能,可以快速轉換為可編輯的文字公式
此外,該產品還內嵌正版《大辭海》,用戶可以很方便地利用該功能對稿件中的名詞術語進行檢索。
核心技術
方正智能輔助審校系統基于方正三十余年在內容處理方面的技術積累,結合北京大學、數字出版技術國家重點實驗室等在自然語言處理方面的最新研究成果,并在數十家用戶驗證反饋的基礎上研發而成。系統采用云架構、應用機器學習和深度學習,融合分詞、實體識別、句法分析、深度語言模型等技術,圍繞圖書、期刊出版規范標準對內容和體例進行檢查。
通過建立學科領域知識模型和大規模語料庫進行訓練學習,基于深度學習的序列標注和通順度評價算法,利用字詞混淆對集候選結果進行綜合排序,并進一步結合大規模知識和語料庫進行常識檢查,形成包括錯別字、用詞不當、敏感詞等十二類檢查的智能化引擎,生成具有可反饋學習和強交互的勘誤表。
方正智能輔助審校系統具備審校準確率高、查全率高、速度快、語料更新及時、用戶使用方便等特點。在產品試用階段,已在全國范圍內100多個機構用戶試用。
未來,方正智能輔助審校系統還將通過人工智能技術賦能行業智能化升級,以優異的產品和技術為出版行業各單位創造更大的價值。