繁体 English 中英

从大文本中解析数字，可能没有正则表达式（对性能至关重要）

[英]Parse numbers from large text, possibly without regex (performance critical)

原文 2011-09-12 00:00:12 5 1 c#/ parsing/ text-processing

在大家开始回答以下变化时，我对regex非常熟悉：/ d +

我想知道是否有正则表达式的替代方法来解析大型文本文件中的数字。

我正在解析大量文件，需要对关键字的位置进行一些组/位置分析。 现在，我需要开始寻找数字组，并且紧紧嵌套在我感兴趣的内容上。 我想尽可能避免使用正则表达式，因为这需要一个快速的过程。

可以占用文件的大部分来检查感兴趣的数目。 然而，这将需要更多的工作并增加搜索的硬编码限制。 （我想避免这种情况）

我愿意接受任何建议。

UPDATE

很抱歉缺少示例数据。 出于HIPAA的原因，我什至不考虑加扰文本并将其发布。

一个很好的替代品是任何stackoverflow.com问题页面的HTML源代码。 想象一下，我需要获得发布问题答案的所有人的声誉（分数）。 这也意味着也需要使用逗号（，）。 我无法删除html来简化内容，因为我正在使用一些密度分析来清除不相关的内容。 删除HTML会使内容混合得太紧密。

1 个解决方案

除非该文件是某种SGML，否则我不知道任何方法（并不是说没有，我只是不知道一种方法）

但是，这并不是说您无法创建自己的解析器； 您可以通过编写仅查找数字范围的内容来消除.Net正则表达式库的某些开销。

从根本上讲，我想这是所有库在最基本的级别上要做的。

如果您可以发布要处理的数据样本，可能会有所帮助吗？

通过在大文本上多次调用 Regex.IsMatch 来优化性能

[英]Optimize performance with multiple calls to Regex.IsMatch on large text

解析大型文本文件时如何提高性能-StreamReader + Regex

[英]How to improve performance when parsing large text file - StreamReader + Regex

正则表达式解析数字组

[英]Regex parse group of numbers

从大字符串中删除数字时的性能问题

[英]Performance issue when removing numbers from large string

使用RegEx从大文件中提取文本？

[英]Extract text from large file using RegEx?

从没有正则表达式的字符串中获取一组数字

[英]Get set of numbers from string without regex

从正则表达式模式解析部分文本

[英]parse part of the text from regex pattern

没有点的数字的正则表达式

[英]Regex for numbers without dots

RegEx从文本解析URL（文本包含HTML标记）

[英]RegEx to Parse URL from text (text Contains HTML tags)

使用正则表达式解析文本文件

[英]Parse text file with regex

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 通过在大文本上多次调用 Regex.IsMatch 来优化性能解析大型文本文件时如何提高性能-StreamReader + Regex 正则表达式解析数字组从大字符串中删除数字时的性能问题使用RegEx从大文件中提取文本？从没有正则表达式的字符串中获取一组数字从正则表达式模式解析部分文本没有点的数字的正则表达式 RegEx从文本解析URL（文本包含HTML标记）使用正则表达式解析文本文件

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM