\n
课程选题
\n
\n 选题1:数据驱动的古典文献目录分析
\n 选题目标
\n \n 借助计算方法基于目录中的具体典籍进行跨时代的目录分类演变分析、官司目录分类体系对比、典籍存佚分析等\n
\n 可选数据集
\n 历代史志目录、私家目录、四库全书总目等
\n 研究框架及方法
\n \n 利用正则表达式对书目信息进行结构化处理,人工进行规范化及书目认同,统计分析及可视化\n
\n 参考文献
\n \n 李惠, 陈涛, 侯君明, 等. 钩玄提要——古籍目录智能分析工具构建[J].\n 中国图书馆学报, 2021, 47(04): 97-112.\n \n \n 李瑞龙, 李明杰. 数字人文背景下古典目录学“辨考”思想的实现路径初探[J].\n 山东图书馆学刊, 2019(01): 14-19+40.\n \n \n 夏翠娟, 林海青, 刘炜. 面向循证实践的中文古籍数据模型研究与设计[J].\n 中国图书馆学报, 2017, 43(06): 16-34.\n \n \n LI W, WANG F, WANG J. Exploring the Classification of Traditional\n Chinese Bibliographies through Interactive Visualization[C]//2021\n ACM/IEEE Joint Conference on Digital Libraries (JCDL). 2021: 246-249.\n \n \n
\n\n
\n 选题2:文化遗产本体构建
\n 选题目标
\n 从文献中提取数据,构建文化遗产本体\n 数据集
\n 《中国出土青铜器全集》、《中国陶瓷全集》、玉器等出土文献全集:\n 需要对文献进行文本和图像数据提取\n 研究框架及方法
\n \n 文化遗产本体构建:提取数据,分析对象的特征,定义概念,关系、属性,评估\n \n 研究工具:Protege、Cmap等\n 参考文献
\n \n Wei T, Roche C, Papadopoulou M, Jia Y. Using ISO and Semantic Web\n standard for building a multilingual terminology e-Dictionary: A use\n case of Chinese ceramic vases. Journal of Information Science. June\n 2021. doi:10.1177/01655515211022185\n \n \n C.Roche. Ontoterminology: How to unify terminology and ontology into a\n single paradigm . LREC 2012, Eighth international conference on Language\n Resources and Evaluation, Istanbul (Turkey), 21-27 May 2012, pp.\n 2626-2630\n \n \n C.Roche . Saying is not modelling. NLPCS 2007, Natural Language\n Processing and Cognitive Science, Funchal (Portugal), 12-13 June 2007,\n pp. 47-56\n \n \n Nicola Guarino, Daniel Oberle, and Steffffen Staab. What Is an Ontology?\n . Handbook on Ontologies.\n \n \n
\n
\n 选题3:历史人物网络分析
\n 选题目标
\n \n 熟悉历史人物数据库,使用社会网络分析的理论和方法进行数字人文研究实践,以理解历史制度、社会和文化背景。\n
\n 可选数据集
\n \n 根据研究问题构建数据集,可参考材料范围有:《明儒学案》、《四库全书总目提要》\n \n \n 历史人物数据库 :中国历代人物传记资料库(CBDB)、上海图书馆人名规范库等\n \n 研究框架及方法
\n \n 通过人工检索、著录或整合现有历史人物数据库或其他自然语言处理技术构建数据集,需包括节点数据与边(节点的关系)数据;\n \n 进行网络分析与可视化,常见工具有Gephi、Pajek等。\n 参考文献
\n \n 刘飞燕,高剑波.隋唐至宋时期精英社会网络动力学的演化研究[J].数字人文,2020(00):118-127.\n \n \n 赵薇.社会网络分析与“《大波》三部曲”的人物功能[J].山东社会科学,2018(09):50-64.\n \n \n Shang W, Sang Z. Solidity in a Turbulent Flow: The Social Network of\n Aristocratic Families in the Eastern Jin Dynasty (317–420 CE)[J].\n Journal of Historical Network Research, 2022, 5(1).\n \n \n Xiong, H.-L. Path toward the Top Leadership: A Network Analysis of the\n Civil Service System in the Early Southern Song (1131-1164)[J]. Journal\n of Historical Network Research, 2022,5(1).\n \n \n
\n\n
\n 选题4:文化分析
\n 选题目标
\n \n 运用计算机手段,对一定规模古典文献文本数据进行量化处理,进而发现并分析文化现象。\n
\n 可选数据集
\n 古腾堡语料库、美国当代英语语料库(COCA)、殆知阁古文文本数据集
\n 研究框架及方法
\n \n 利用Python预处理较大规模的文本数据,围绕某一特定的文化现象进行多角度的量化分析,从而探索其发展规律或内在联系,并进行可视化展示。包括文本数据清洗、词频统计、获取词向量、文本相似关系检测、数据可视化等。\n \n 常见工具有google n-gram,COCA,北语BCC,Python等。\n 参考文献
\n \n Michel J B , Yuan K S , Aiden A P , et al. Quantitative analysis of\n culture using millions of digitized books.[J]. Science, 2010,\n 331(6014):176-182.\n \n \n Garg N , Schiebinger L , Jurafsky D , et al. Word embeddings quantify\n 100 years of gender and ethnic stereotypes[J]. Proceedings of the\n National Academy of Sciences of the United States of America, 2018,\n 115(16):E3635.\n \n \n Dexter J P , Katz T , Tripuraneni N , et al. Quantitative criticism of\n literary relationships[J]. Proceedings of the National Academy of\n Sciences of the United States of America, 2017.\n \n \n
\n\n
\n
\n