(2013)通過收集發表在13德國新聞門戶網站上的新聞文章和用戶的點擊日誌,構建了Plista4數據集。它包含70,353篇新聞文章和65,438+0,095,323次點擊。這個數據集中的新聞文章都是德語的,用戶主要來自德語國家。
根據adreseavisen網站的期刊,Adressa數據是在10周內建立的,該網站有48486篇新聞文章,3083438個用戶和27223576次點擊事件。每個點擊事件包含幾個屬性,如會話時間、新聞標題、新聞類別和用戶ID。每篇新聞文章都與作者、實體和主題等詳細信息相關聯。這個數據集中的新聞文章是用挪威語寫的。整個數據集分為兩個不同尺度的版本。
綜合來看,Adressa在內容上是最全面的,可以用於常規的新聞推薦、基於會話的推薦和基於知識圖譜的推薦。
2018)建立了來自巴西熱門新聞門戶網站globo的新聞推薦數據集。這個數據集包含大約365,438+04,000個用戶,46,000篇新聞文章和300萬次點擊。每個點擊記錄包含用戶ID、新聞ID和會話時間等字段。最早在Kaggle平臺開放,提供訓練有素的新聞嵌入,不需要原始新聞文章信息。
它包含14180條新聞和34022個點擊事件。每篇新聞文章用壹個word id表示,不提供新聞原文。該數據集中的用戶數量未知,因為沒有用戶ID。
如果覺得有用,請喜歡並關註。如果有興趣推薦,歡迎評論區/私信交流~ ~ ~