繁体 English 中英

extract_features 句嵌入 BERT

[英]extract_features sentence embedding BERT

原文 2020-05-18 08:26:09 7 1 python/ google-colaboratory/ embedding/ bert-language-model

我正在使用此代码来获取我数据集中句子的嵌入（我正在使用我的预训练模型）。

`python extract_features.py \
  --input_file=/tmp/input.txt \
  --output_file=/tmp/output.jsonl \
  --vocab_file=$BERT_BASE_DIR/vocab.txt \
  --bert_config_file=$BERT_BASE_DIR/bert_config.json \
  --init_checkpoint=$BERT_BASE_DIR/bert_model.ckpt \
  --layers=-1,-2,-3,-4 \
  --max_seq_length=128 \
  --batch_size=32`

但是，有一个问题：有没有办法更快地获得嵌入？ 因为 2000 个句子需要 6 个小时。 我的数据集包含 20000 个句子； 60 小时对于 Colab 来说太长了。 谢谢。

1 个解决方案

我解决了。 我在 input.txt 中写下了所有的句子，然后我使用了这段代码：

import jsonlines
df_emb=pd.DataFrame()
with jsonlines.open('/content/tmp/output.jsonl') as f:
    for line in f.iter():
        s=line['features'][0]['layers'][0]['values']
        df_tmp=pd.DataFrame(s).T
        df_emb=df_emb.append(df_tmp,ignore_index=True)

之后我将 dataframe 保存在 csv 文件中

BERT 获取句子嵌入

[英]BERT get sentence embedding

保存 BERT 句子嵌入

[英]Saving BERT Sentence Embedding

tsfresh extract_features 运行时错误“freeze_support”

[英]tsfresh extract_features runtime error "freeze_support"

通过对最后 4 层求和的 BERT 句子嵌入

[英]BERT sentence embedding by summing last 4 layers

无法使用 tsfresh 包中的“extract_features”方法从时间序列数据中提取特征

[英]Unable to extract features from time series data using 'extract_features' method from tsfresh package

def extract_features（list_images）…给出：NameError：名称“ image”未定义

[英]def extract_features(list_images) …Gives: NameError: name 'image' is not defined

BERT 微调后得到句子级嵌入

[英]BERT get sentence level embedding after fine tuning

将 Sentence-Bert 与 scikit-learn 中的其他功能一起使用

[英]Using Sentence-Bert with other features in scikit-learn

使用 Pandas 和 spaCy 提取句子嵌入特征

[英]Extract sentence embeddings features with Pandas and spaCy

BERT 句子分类

[英]BERT sentence classification

暂无

暂无

声明:本站的技术帖子网页，遵循CC BY-SA 4.0协议，如果您需要转载，请注明本站网址或者原文地址。任何问题请咨询:yoyou2525@163.com.

相关问题 BERT 获取句子嵌入保存 BERT 句子嵌入 tsfresh extract_features 运行时错误“freeze_support” 通过对最后 4 层求和的 BERT 句子嵌入无法使用 tsfresh 包中的“extract_features”方法从时间序列数据中提取特征 def extract_features（list_images）…给出：NameError：名称“ image”未定义 BERT 微调后得到句子级嵌入将 Sentence-Bert 与 scikit-learn 中的其他功能一起使用使用 Pandas 和 spaCy 提取句子嵌入特征 BERT 句子分类

相关标签

粤ICP备18138465号 © 2020-2024 STACKOOM.COM