deepseek公布廣度數(shù)據(jù)采集方法專利 deepseek新專利可降低網(wǎng)絡(luò)資源消耗觀點

天眼查財產(chǎn)線索信息顯示,近日,deepseek關(guān)聯(lián)公司杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司申請的“一種廣度數(shù)據(jù)采集的方法及其系統(tǒng)”專利公布。
天眼查財產(chǎn)線索信息顯示,近日,deepseek關(guān)聯(lián)公司杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司申請的“一種廣度數(shù)據(jù)采集的方法及其系統(tǒng)”專利公布。
摘要顯示,本發(fā)明涉及數(shù)據(jù)采集領(lǐng)域,包括建立網(wǎng)頁元信息庫;確定每日調(diào)度單元下載配額及當(dāng)日下載總額度;從網(wǎng)頁元信息庫中選取相應(yīng)數(shù)量的鏈接,分配下載額度;下載過程控制;下載文本進(jìn)行后處理及數(shù)據(jù)清洗后進(jìn)入回灌隊列,通過信息回灌實現(xiàn)網(wǎng)頁元信息庫更新。本發(fā)明的有益效果在于:發(fā)現(xiàn)盡可能多的網(wǎng)頁鏈接,并減少對網(wǎng)站的流量沖擊;對已經(jīng)下載的內(nèi)容進(jìn)行分析,對未下載的連接進(jìn)行質(zhì)量推斷,通過擇優(yōu)下載分配額度的方式,減少低質(zhì)量網(wǎng)頁下載和重復(fù)下載,提高數(shù)據(jù)質(zhì)量及下載效率,減少在數(shù)據(jù)采集過程中網(wǎng)絡(luò)資源的消耗;采用單獨的信息回灌隊列,保證網(wǎng)頁元信息庫修改操作的原子性和穩(wěn)定性。
1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。