因为当写过两篇文章之后,偶尔来个汇报之类的,就需要将之前文章的参考文献汇集在一起处理。然而这些文献本身可能是大量重复的,如何将多个bib文件中的重复文献去掉,仅保留不重复的部分,并最终输出到一个合并之后的bib文件中,是写这个小工具的一个背景。
原来的bib文件已经有自己的citation key,而且自己也习惯于这样的生成方式。虽然有一些文献管理软件也有此功能,但有如下弊端:
1)基于title来去重,而不是citation key去重;
2)bib文件中的其他非文献信息会被清除掉;
3)导出后原来的citation key无法保持原样
考虑到以上因素,所以就写了这个小工具:https://github.com/tpu01yzx/BibtexParser
这个工具的用法很简单,主要是几个参数:
1) -O --output 设置合并后输出到的文件名,缺省是标准输出设备。
2) --onlyregular 是否只输出Reguler(类似article,book,misc之类表示具体的文献记录,而非辅助信息如comment, string)的记录,默认为否。
3) --outputplain 是否输出非@开头的记录,这类块大部分是注释或者用于格式控制的,默认为否。
当然了,仅有这个工具,用起来还是有点麻烦,所以最后送上一个Bat批处理文件,把这个批处理文件,bib合并小工具,以及要合并的所有bib文件放在同一个目录。执行这个批处理文件,就不用每次都去找命令行,对于大部分习惯了Windows的用户来说应该是件好事。
@echo off
SetLocal EnableDelayedExpansion
set allbib=_all.bib
set exec=bib_combiner.exe
echo @comment{this file is generated by BibtexParser.exe} > %allbib%
set list=
for %%i in (*.bib) do (
if not "%%i" == "%allbib%" (
set list=!list! "%%i"
)
)
%exec% "%allbib%" %list% -O "%allbib%" -R
%exec% --help
set exec=
set allbib=
set list=
pause
给伸手党准备好了,Windows下的打包(包含上面提到的一个工具和一个批处理文件:bib_combiner.exe和一个run.bat),点击这里下载。