大地语料库・大地コーパス —— 软件下载
大地语料库
大地コーパス
下载链接
【最新版本】
【历史版本】
- 大地语料库(ver1.2)24.09.20
- 大地语料库(ver1.1)24.07.08(于日本九州大学主办「学際シンポジウムシリーズ『接続する人文学』公开)
- 大地语料库(ver1.0)24.04.23(于上海外国语大学主办“日语语言数据科学前沿对话”系列讲座第10讲公开)
检索功能
- 大地语料库软件在“检索”标签页提供KWIC检索功能。用户可在检索框输入字词或语句,并选择语料范围,如全部文献、中国文献、日本文献等,还可选择下位分类如“中国诗文词赋”、“日本汉诗文集”,以及添加自己的语料文件进行查询。查询模式分为不含异体字和包含异体字的查询。检索完成后,用例总数在左侧视图显示,详细结果在右侧视图显示,包括国别、年份、作品、卷次、例句等。如需更长上下文,请点击例句或文件名点击例句查看完整文本,或右键点击打开完整文本并跳转至关键词位置。点击检索结果最右侧“底本”链接,可以获取底本相关信息和所藏网站链接。检索结果可通过复制粘贴或CSV文件形式进行保存。
分析功能
- 大地语料库软件在“分析”标签页内设置了共起分析和相似词检索功能。共起分析可输入检索字词并选择分析模式(统计邻近字词、指定跨距内N-gram或单词),用以观察字词用法。例如,检索“鯨”后1字,会获得“鲸鲵(23次)”、“鲸鱼(12次)”、“鲸吞(9次)”、“鲸吸(4次)”、“鲸波(3次)”等结果。相似词检索则利用Word2Vec模型查找相似字词,支持单字及多字词检索,显示最相似的词及余弦相似度值,有助于深化语义理解和拓展研究。例如检索“孔子”,会获得“夫子(相似度:0.8802)”、“孟子(相似度:0.8756)”、“仲尼(相似度:0.8364)”等结果。大地语料库软件通过这些功能,支持用户把握汉字词用法并进行中日比较。
引用挖掘
- 在中日的古代典籍中,引用的现象广泛存在,它不仅是一种修辞技巧,也是研究文化和词汇传播的重要途径。为了满足这一研究需求,大地语料库软件在“引用”标签页中集成了三项引用挖掘功能:(1)单个文献间引用挖掘,通过2-gram相似比指标,挖掘A、B两文件间的引用或互文关系,适用于字词和语序变化的引用挖掘;(2)基于全同窗口的多个文献间引用挖掘,用户选定文件夹和窗口长度,可以快速比对出完全相同的文本内容;(3)考虑异体字的多个文献间引用挖掘,在第二项功能的基础上考虑1个异体字,有助于获得更多含异体字的引用结果。
画图功能
- 大地语料库软件针对汉字词历时及历史研究,设计了“画图”标签页中的多样化数据分析与可视化功能:(1)提供柱状图&折线图功能,展示词汇频次与频率的历史变化,并进行中日间的比较。(2)设计对比图功能,实现时代间、板块间N-gram使用频率的可视化对比。(3)提供词共现网络图功能,揭示检索关键词的搭配情况。大地语料库软件通过集成在“画图”标签页中的各项功能,从多个方面回应了汉字词历时与历史研究的需求。
报告生成
- 为便用户,本软件增设自动报告功能。用户在“报告”标签页中依次输入调查字词、选比较范围(中日全部文献或日本汉诗文与中国诗文词赋)、选择是否含异体字、指定保存路径,最后点击生成,即可获得docx格式的报告。报告分时代加入中日用例,从整体使用情况、历时的使用变化、搭配情况三个角度进行比较,并附初步结论。此功能节约使用者手动整理数据和进行统计计算的时间,可以有效提升汉字词研究的效率。
苏ICP备12043372号-2