當前位置:歷史故事大全網 - 歷史故事 - 新聞推薦(5):主流數據集介紹

新聞推薦(5):主流數據集介紹

本文通過MASR在ACL2020/上的心智數據集論文,介紹了新聞推薦中常用的壹些數據集

(2013)通過收集發表在13德國新聞門戶網站上的新聞文章和用戶的點擊日誌,構建了Plista4數據集。它包含70,353篇新聞文章和65,438+0,095,323次點擊。這個數據集中的新聞文章都是德語的,用戶主要來自德語國家。

根據adreseavisen網站的期刊,Adressa數據是在10周內建立的,該網站有48486篇新聞文章,3083438個用戶和27223576次點擊事件。每個點擊事件包含幾個屬性,如會話時間、新聞標題、新聞類別和用戶ID。每篇新聞文章都與作者、實體和主題等詳細信息相關聯。這個數據集中的新聞文章是用挪威語寫的。整個數據集分為兩個不同尺度的版本。

綜合來看,Adressa在內容上是最全面的,可以用於常規的新聞推薦、基於會話的推薦和基於知識圖譜的推薦。

2018)建立了來自巴西熱門新聞門戶網站globo的新聞推薦數據集。這個數據集包含大約365,438+04,000個用戶,46,000篇新聞文章和300萬次點擊。每個點擊記錄包含用戶ID、新聞ID和會話時間等字段。最早在Kaggle平臺開放,提供訓練有素的新聞嵌入,不需要原始新聞文章信息。

它包含14180條新聞和34022個點擊事件。每篇新聞文章用壹個word id表示,不提供新聞原文。該數據集中的用戶數量未知,因為沒有用戶ID。

如果覺得有用,請喜歡並關註。如果有興趣推薦,歡迎評論區/私信交流~ ~ ~

  • 上一篇:請問,我在哪裏可以找到免費的電子書下載
  • 下一篇:美國隊長變身前後是同壹個人嗎?
  • copyright 2024歷史故事大全網