繁体   English   中英

Python:如何将字典值与文件名匹配?

[英]Python: how to match dictionary value to file name?

我对Python相对较新,并且在以下方面苦苦挣扎:

我有大约52,000个字典的列表,这些字典包含PDF(单独存储)上的元数据。 现在,我想将这些PDF中的5,000个与它们相应的元数据字典进行匹配,但是我不确定如何做到这一点。

元数据:

[{'Title': 'This is the title', 'Author': 'John A.', 'Code': '8372', ...}, {'Title': 'This is another title', 'Author': 'Peter B.', 'Code': '5837_c', ...}, ...]

PDF文件名对应于“代码”值(即文件名是5346、8372、3475_c,0294、5837_c等,始终为三个,四个或五个数字或三个,四个或五个数字,以_c补充)。 有没有一种方法可以使用PDF的文件名来将PDF与元数据字典列表中的正确字典进行匹配?

其他解决方案也非常欢迎!

编辑:我的目的是创建一个Textacy语料库,其中每个条目都是一个Textacy Doc(即一个PDF的内容)及其对应的Textacy元数据(即PDFs元数据)。

textacy_corpus = textacy.Corpus(u'en', texts=pdfs_list, metadatas=metadata_list)

来自Textacy的文档: “ [[Metadata]流必须与textsdocs完全对齐,否则元数据将被错误分配。更具体地说, metadatas的第一项将被分配给textsdocs的第一项,依此类推。那里。” 这就是为什么我想将PDF与正确的元数据进行匹配。

dict((x['Code'],x) for x in <YOUR_LIST>)

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM