Some useful Links

数据科学

书籍

R语言实战(第2版) 数据科学实战

图神经网络

多模态机器学习

图神经网络-斯坦福图机器学习

图神经网络-宾夕法尼亚大学图神经机器学习

图神经网络必读文献

网络科学

书籍

巴拉巴西数据科学

网络科学导论

抽样技术

书籍

抽样调查-Kish

抽样调查-金勇进

文本挖掘

书籍文本数据挖掘

数据整合

欧盟委员会Multi-sources

微观数据库

国家统计局

国家统计局-中国人民大学数据开发中心微观数据

目前开发应用的微观数据范围为如下十项:

(一)规模以上工业企业财务状况年度调查微观数据;

(二)住户收支调查微观数据;

(三)2010年第六次全国人口普查微观数据;

(四)2015年1%人口抽样调查微观数据;

(五)第三次全国经济普查微观数据;

(六)第三次全国农业普查微观数据;

(七)2014-2016年企业跟踪调查微观调查数据;

(八)2000年第五次全国人口普查微观调查数据;

(九)2016年农业经营户普查微观调查数据;

(十)2013年住户收支与生活状况调查微观调查数据。

中国人民大学中国国家调查数据库,CGSS,CEPS,CRS

国家自然科学基金-北京大学管理科学数据中心,CFPS,CHARLS

中国社会状况综合调查CSS,CLDS

中国收入分配数据CHIPS

中国劳动力动态调查数据CLDS

数据搜索引擎

Google 数据集搜索引擎

Reddit数据集

Paper With Code 数据集

ClUE 数据集

数据挖掘数据库

机器学习方法

因果推断算法数据

数据科学表单

Huggingface数据集

Kaggle数据集

中文语料库

国家语言资源动态流通语料库(DCC) 是由国家语言资源监测与研究中心北京语言大学平面媒体分中心开发维护的语料库。该语料库包含2005年至今18份左右(注:自2016年起,包含100多份各省市报纸)的主流报纸语料。这些语料库主要根据“发行量、发行地域、发行周期、媒体价值、阅读率”等5个因素选定(刘长征,秦鹏,2007)。该语料库属于动态的、历时的、通用的、未加工的语料库,可以全面反映当代中国的语言、媒体、社会生活的全貌,以及历时的语言、社会生活的演变。但遗憾的是,该语料库资源并未免费向公众开放,也不用于商业用途,如有研究需求需联系相关人员。

北京语言大学语料库中心(BCC) “是以汉语为主、兼有其他语种的语言大数据”,“服务语言本体研究和语言应用研究的在线大数据系统”。BCC包含多种语体的语料,包括报刊,科技、文学、微博等,为研究者提供丰富的语言资源。值得注意的是,BCC还包含一些自带的历时词频统计功能。此外,BCC属于标注语料库。在完成生语料的收集工作后,BCC还对其进行分词、词性标注、以及句法标注等。

媒体语言语料库(MLC) 由中国传媒大学国家语言资源监测与研究有声媒体中心开发。它包括2008至2013年期间的34039个广播、电视节目文本转写的文本,所有语料库都进行了标注。MLC是一个免费、开放、检索方便的静态语料库(使用教程参见该网站“帮助”页面)。

英文或多文语料库

美国当代英语语料库(COCA) 是使用最广的英语语料库之一,为英语语言的使用、演变提供了重要的考察依据(主要是美国英语)。该语料库包括1990年至2019年(并定期更新)期间来自8种文体的语料,包括口语、小说、流行杂志、报纸、学术文本、电视和电影字幕、博客和其他网络文本。该语料库还提供简单的搜索、词频统计功能。但该语料库并不供免费使用,使用者需要购买使用权。

英国国家语料库 (BNC) 是由牛津大学创建的包含各种文体的(如口语、小说、杂志、报纸和学术)的语料库。基本上,它代表20世纪末英国英语的使用情况。但BNC是一个共时的语料库,只包含20世纪末的语料库,并不能反映历时的当代英国英语使用状况。

Now Corpus 主要包含2010年至今的网络报纸和杂志,每天实时更新,通过语言为我们及时展示社会生活图景。该语料库只包含英文语料数据,因此不适用于研究中文文本数据的岛友们。此外,英文语料网站包含其他多种语料库,如Coronavirus Corpus(收集了2020年1月至今20多个国家的相关文本)等专用语料。

Nexis Uni 是一个多语的,包含法律、新闻、商业、财务、科技等相关资料,为学术研究提供全方位资讯的数据库。其中新闻文本包含6000多种来自世界各地的新闻来源,包括摘要、杂志、期刊、电子报、新闻稿、广播抄本等9种语言的数据。用户可根据时间范围、关键词、内容类别、地理位置、数据来源、语言等选项进行进一步的数据收集和提取。此外,该数据库有中文版的使用手册,大家可自行下载研读。