据中媒报导,根据中国国家知识产权局中国专利公布公告网获悉,中国人工智能(AI)新创公司DeepSeek(深度求索)关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据获取的方法及其系统专利”于4月1日公布,可减少数据获取时网络资源消耗。
专利摘要显示,该发明的有益效果在于发现尽可能多的网页连结,并减少对网站的流量冲击;对已下载的内容进行分析,对未下载的链接进行质量推断,透过择优下载分配额度的方式,减少低质量网页下载和重复下载,提高数据质量及下载效率,减少在数据获取过程中网络资源的消耗;采用单独的信息回灌对列,保证网页信息库修改操作的原子性和稳定性。
在专利背景技术说明指出,许多大语言模型(Large Language Models,LLMs)被训练应用于自然语言处理领域,用于研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。然而,现有的数据获取技术存在诸多问题,例如对复杂网站进行采集时,无法获取完整连结;容易过量下载,造成对方网站崩溃;对下载页面不进行内容质量分析和推断,造成重复下载或低质下载、影响数据获取的效率。因此,在大量网页数据获取的过程中,如何快速、精准、安全、高效采集网络数据变得至关重要。
另外,DeepSeek首次用于地震国际救援,近日在缅甸强震救援行动中,一项由中国团队开发的中缅英互译系统发挥了重要作用,为救援工作的顺利开展提供有力支持。地震发生后,中国驻缅甸使馆表示,在救援工作中使用了基于DeepSeek紧急开发的中缅英互译系统,该系统由中国国家应急语言服务团秘书处和北京语言大学迅速组建的语言服务支持团队,在短短七小时内利用DeepSeek开发完成,为中国大模型首次用于地震国际救援。
评论
文明上网理性发言,请遵守新闻评论服务协议
登录参与评论
0/1000