繁体   English   中英

从大文本中解析数字,可能没有正则表达式(对性能至关重要)

[英]Parse numbers from large text, possibly without regex (performance critical)

在大家开始回答以下变化时,我对regex非常熟悉:/ d +

我想知道是否有正则表达式的替代方法来解析大型文本文件中的数字。

我正在解析大量文件,需要对关键字的位置进行一些组/位置分析。 现在,我需要开始寻找数字组,并且紧紧嵌套在我感兴趣的内容上。 我想尽可能避免使用正则表达式,因为这需要一个快速的过程。

可以占用文件的大部分来检查感兴趣的数目。 然而,这将需要更多的工作并增加搜索的硬编码限制。 (我想避免这种情况)

我愿意接受任何建议。

UPDATE

很抱歉缺少示例数据。 出于HIPAA的原因,我什至不考虑加扰文本并将其发布。

一个很好的替代品是任何stackoverflow.com问题页面的HTML源代码。 想象一下,我需要获得发布问题答案的所有人的声誉(分数)。 这也意味着也需要使用逗号(,)。 我无法删除html来简化内容,因为我正在使用一些密度分析来清除不相关的内容。 删除HTML会使内容混合得太紧密。

除非该文件是某种SGML,否则我不知道任何方法(并不是说没有,我只是不知道一种方法)

但是,这并不是说您无法创建自己的解析器; 您可以通过编写仅查找数字范围的内容来消除.Net正则表达式库的某些开销。

从根本上讲,我想这是所有库在最基本的级别上要做的。

如果您可以发布要处理的数据样本,可能会有所帮助吗?

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM