全球首个藏文搜索引擎“云藏”一连进级满意多种需求
中新网青海海南9月16日电(祁增蓓)“我们正处于云藏大数据语料库的开拓阶段,主要有分词语料库和汉藏双语平行语料库的开拓,目标是提高信息检索系统的查全率和查重率,担保搜索功效的精确性。”15日,青海省海南州藏文信息技能研究中心自然语言处理惩罚研究所副所长航尖才让汇报记者。
云藏大数据中心相关事恋人员先容,云藏搜索是一个集新闻、网页、图片、视频、音乐、百科、文库、知道等搜索于数据库相团结的大型藏文综合网络平台,是海内各大藏文网站的统一进口,以及互联网藏文信息的主要来历和资源共享中心。
图为“云藏”大数据中苦衷恋人员正在编写语料库。 马铭言 摄
云藏搜索回收当下最主流的算法,研制藏文自动分词与语言阐明系统,建树大局限练习语料库,开拓网页收罗、全文搜索、内容打点模块、搜索网站前台、网络爬虫等系统架构建树,完成了网页搜索等多个应用系统的建树事情,全面实现了一个搜索引擎应具备的根基成果。
另外,云藏大数据中心连系业内人士配合研究,乐成研发了藏文自动分词与语言智能阐明系统,实现了藏文同义词搜索、藏文拉丁转写搜索、藏文拼写查抄系统、藏文语义检索、藏文差异编码自动转换等成果,攻陷了藏文智能信息处理惩罚的焦点技能,并乐成实现与搜索引擎系统的集成,使云藏搜索引擎有了本土化或藏语化的人工智能特点。
图为“云藏”大数据中苦衷恋人员讲授“云藏”利用要领。 祁增蓓 摄
“下一步,云藏大数据中心将搭建藏文互联网舆情监控阐明系统,开展藏文信息的搜集整理和阐明,掌握网上信息舆论动向,全面相识社情民意,可以或许为有效办理藏文网络舆情信息监测难、掌控难、研判难的瓶颈问题提供靠得住的参数与依据。”航尖才让说,他认为未来“区块链”技能未来也会在个中发挥很大的浸染。
据悉,云藏大数据中心已申请得到《中国著名品牌》《网络文化策划许可证》,以及《云藏百科》《云藏文库》《云藏知道》《云藏视频》等6项计较机软件著作权,并向国度常识产权局申报了云藏搜索引擎系统、藏文词性标注系统和藏文分词系统三项发现专利且已通过初审,如今处于最终实质审查阶段。(完)