繁体   English   中英

在C#中从itext.layout.element提取属性

[英]Attribute extraction from itext.layout.element in c#

目前,我正在一个项目上使用itext生成pdf目录,我所拥有的是元素列表(itext.layout.Element对象)。

我创建了一个dictionary <string,int>用来存储(章节标题和起始页码)。 我想考虑

<p class="Heading2ANOC" >类别为Heading2ANOC的段落是章节标题

我的代码:

var toc = new Dictionary<string,int>();
foreach (IElement element in elements)
{
    Console.WriteLine(element.GetType().Name);
    if (element.GetType().Name == "HtmlPageBreak")
    {
        continue;
    }

    else if (element.GetType().Name == "Paragraph")//need a method to check wheather the class is "Heading2ANOC" {

        int count=pdf.GetNumberOfPages();
        toc.Add("section" + i, count);// 
        i++;

    }
   document.Add((IBlockElement)element);
}

我通过使用以下代码获取Elements:

string path = "path for the Html";
string html = File.ReadAllText(path);
IList<IElement> elements = HtmlConverter.ConvertToElements(html);

HTML元素示例:

<div style="mso-element: para-border-div; border: solid #A6A6A6 2.25pt; padding: 3.0pt 4.0pt 3.0pt 4.0pt; background: #D9D9D9;">
<p class="Heading2ANOC"><span style="mso-bookmark: _Toc190800487;"><span style="mso-bookmark: _Toc377720650;"><span style="mso-bookmark: _Toc396995390;"><span style="font-size: 11.0pt; font-family: 'Open Sans',sans-serif; color: black; mso-color-alt: windowtext;">SECTION 1 <span style="mso-tab-count: 1;">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp; </span>Name of the section</span></span></span></span></p>
</div>

与您现在所采用的方法相比,有一种更干净(更灵活)的方法来处理任务,但是它需要编写更多的代码。 幸运的是,该代码非常基本。

要了解需要自定义的内容,您需要了解pdfHTML的工作原理。 粗略地说,它以DFS顺序遍历DOM树,并将DOM树转换为元素树。 每个标记都由标记工作程序遍历,并且该标记工作程序会生成一个元素。 元素足够灵活,可以包含任何自定义属性(只要您使用iText不使用的唯一属性ID),因此可以在标记工作器中设置这些属性,并在以后使用它们。 在这种情况下,您希望传递class property / attribute。

首先,让我们创建一个从PTagWorker派生的自定义标签工作PTagWorker ,该工作程序将处理HTML中的所有段落并设置一个自定义属性:

public static readonly int CUSTOM_PROPERTY_ID = -10;

private class CustomPTagWorker : PTagWorker {
    public CustomPTagWorker(IElementNode element, ProcessorContext context) : base(element, context) {
    }

    public override void ProcessEnd(IElementNode element, ProcessorContext context) {
        base.ProcessEnd(element, context);
        IPropertyContainer elementResult = GetElementResult();
        if (elementResult != null && !String.IsNullOrEmpty(element.GetAttribute(AttributeConstants.CLASS))) {
            elementResult.SetProperty(CUSTOM_PROPERTY_ID, element.GetAttribute(AttributeConstants.CLASS));
        }
    }
}

然后,我们需要以某种方式使用该标记工作程序-为此,我们创建了一个自定义标记工作程序工厂:

private class CustomTagWorkerFactory : DefaultTagWorkerFactory {
    public override ITagWorker GetCustomTagWorker(IElementNode tag, ProcessorContext context) {
        if (TagConstants.P.Equals(tag.Name().ToLower())) {
            return new CustomPTagWorker(tag, context);
        }
        return base.GetCustomTagWorker(tag, context);
    }
}

我们现在需要做的就是通过在转换器属性中传递自定义标记工作程序,使pdfHTML意识到这些自定义:

ConverterProperties properties = new ConverterProperties().SetTagWorkerFactory(new CustomTagWorkerFactory());

为了进行测试,我们可以遍历元素并检查自定义属性的存在(而不是检查类的名称):

String html = "<p class=\"Heading2ANOC\">hello</p><p>world</p>";
ConverterProperties properties = new ConverterProperties().SetTagWorkerFactory(new CustomTagWorkerFactory());
IList<IElement> elements = HtmlConverter.ConvertToElements(html, properties);
foreach (IElement element in elements)
{
    if (element.HasProperty(CUSTOM_PROPERTY_ID)) {
        String propertyValue = element.GetProperty<String>(CUSTOM_PROPERTY_ID);
        Console.WriteLine(propertyValue);
    }
}

请记住,对于元素相互嵌套的更复杂的HTML,您可能希望以不同的方式执行最终分析,例如

foreach (IElement element in elements)
{
    if (element is AbstractElement<Div>) {
        var children = (element as AbstractElement<Div>).GetChildren();
        // analyze children
    }
}

暂无
暂无

声明:本站的技术帖子网页,遵循CC BY-SA 4.0协议,如果您需要转载,请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

 
粤ICP备18138465号  © 2020-2024 STACKOOM.COM