Knowledge Generation MRC模型复现

扩展知识

环境配置

  • conda
1
2
conda create -n mq_mrc python=3.6
source activate mq_mrc
1
2
3
4
5
6
conda install pytorch  cudatoolkit=10.1 -c pytorch
# 官方版
conda install pytorch torchvision torchaudio cudatoolkit=10.1 -c pytorch
# 测试:
import torch
torch.cuda.is_available()

​ conda 报错可以试试pip

1
pip3 install torch torchvision torchaudio
  • !不使用 pytorch-pretrained-bert
1
pip uninstall pytorch-pretrained-bert

配置:https://www.asimok.site/2020/12/07/Bert预训练模型的使用/

1
/data0/maqi/.conda/envs/mq_mrc/lib/python3.6/site-packages/pytorch_pretrained_bert
  • 使用transformers调用预训练模型
1
pip install transformers

模型

数据集处理

数据集选择原始中文数据集,编码

字段只要段落和作者??

数据集结构

1
2
3
4
5
6
7
8
9
10
11
- pid
- is_classical
- title
- author
- paragraphs
- qas
-- qid
-- question
-- answer
-- pKnowledges
-- qKnowledges

最终需要的数据结构:

  • 将question独立出来
1
2
3
4
5
6
7
- title
- author
- paragraphs
- question
- answer
- pKnowledges
- qKnowledges

数据集类

__init__方法中读取数据集。