import sys
sys.path.append('../')
%load_ext autoreload
%autoreload 2
from src.logger import logger


from llama_index.embeddings import resolve_embed_model
from src.adapter import LinearModel, LossFunction, optimizer
embed_model = resolve_embed_model("local:BAAI/bge-small-en")
adapter = LinearModel(embed_model=embed_model)
device='cpu'
#device='mps'
loss_function = LossFunction(model=adapter, device=device)
opt = optimizer(model=adapter, lr=1e-3)


from llama_index.finetuning import EmbeddingQAFinetuneDataset
from torch.utils.data import DataLoader
from src.adapter import data_to_dataset, collate_fn
from functools import partial


data = EmbeddingQAFinetuneDataset.from_json("../data/train_dataset.json")
data_validate = EmbeddingQAFinetuneDataset.from_json("../data/val_dataset.json")
dataset = data_to_dataset(data)
dataset_validate = data_to_dataset(data_validate)
collate_fn_ = partial(collate_fn, embed_model=embed_model)
data_loader = DataLoader(dataset, batch_size=32, collate_fn=collate_fn_, shuffle=True)
data_loader_validate = DataLoader(dataset_validate, batch_size=32, collate_fn=collate_fn_, shuffle=False)

2023-09-17 13:04:10,338 - src.logger - INFO - **MSP: Number of examples: 198
2023-09-17 13:04:10,339 - src.logger - INFO - **MSP: Number of examples: 204


adapter.to(device)
loss_function.to(device)
epochs = 8
steps_per_epoch = len(data_loader)
num_train_steps = int(epochs * steps_per_epoch)
logger.info(f'Number of steps per epoch: {steps_per_epoch}')
logger.info(f'Number of training steps: {num_train_steps}')

2023-09-17 13:04:10,398 - src.logger - INFO - Number of steps per epoch: 7
2023-09-17 13:04:10,399 - src.logger - INFO - Number of training steps: 56


from tqdm.autonotebook import trange
from llama_index.bridge.langchain import print_text

global_step = 0
lst_train_loss = []
lst_val_loss = []
lst_train_acc = []
lst_val_acc = []
lst_train_top2 = []
lst_val_top2 = []

for epoch in trange(epochs, desc="Epoch"):

    loss_function.zero_grad()
    loss_function.train()
    data_iterator = iter(data_loader)
    for query, context in data_iterator:


        loss_value = loss_function(query, context)
        loss_value.backward()
        print_text(f"> [Epoch {epoch}] Current loss: {loss_value}\n", color="blue")
        
        opt.step()
        opt.zero_grad()

    loss_function.eval()

    train_loss = sum([loss_function(q,e) for q,e in data_loader])
    val_loss = sum([loss_function(q,e) for q,e in data_loader_validate])
    train_acc = loss_function.accuracy(data_loader)
    val_acc = loss_function.accuracy(data_loader_validate)
    train_top2 = loss_function.topk(data_loader)
    val_top2 = loss_function.topk(data_loader_validate)

    lst_train_loss.append(train_loss.item())
    lst_val_loss.append(val_loss.item())
    lst_train_acc.append(train_acc)
    lst_val_acc.append(val_acc)
    lst_train_top2.append(train_top2)
    lst_val_top2.append(val_top2)

    logger.info(f"Epoch {epoch} train loss: {train_loss:.4f}")
    logger.info(f"Epoch {epoch} val loss: {val_loss:.4f}")
    logger.info(f"Epoch {epoch} train acc: {train_acc:.4f}")
    logger.info(f"Epoch {epoch} val acc: {val_acc:.4f}")
    logger.info(f"Epoch {epoch} train top2: {train_top2:.4f}")
    logger.info(f"Epoch {epoch} val top2: {val_top2:.4f}")

Epoch:   0%|          | 0/8 [00:00<?, ?it/s]

> [Epoch 0] Current loss: 2.253431558609009
> [Epoch 0] Current loss: 2.0672128200531006
> [Epoch 0] Current loss: 1.8571759462356567
> [Epoch 0] Current loss: 1.9351911544799805
> [Epoch 0] Current loss: 1.834742784500122
> [Epoch 0] Current loss: 1.692406415939331
> [Epoch 0] Current loss: 1.0663012266159058

2023-09-17 13:08:58,519 - src.logger - INFO - Epoch 0 train loss: 10.2493
2023-09-17 13:08:58,520 - src.logger - INFO - Epoch 0 val loss: 14.1755
2023-09-17 13:08:58,520 - src.logger - INFO - Epoch 0 train acc: 0.7828
2023-09-17 13:08:58,520 - src.logger - INFO - Epoch 0 val acc: 0.4363
2023-09-17 13:08:58,520 - src.logger - INFO - Epoch 0 train top2: 0.8990
2023-09-17 13:08:58,520 - src.logger - INFO - Epoch 0 val top2: 0.7647

> [Epoch 1] Current loss: 1.534096598625183
> [Epoch 1] Current loss: 1.8350330591201782
> [Epoch 1] Current loss: 1.391573190689087
> [Epoch 1] Current loss: 1.4553757905960083
> [Epoch 1] Current loss: 1.370334506034851
> [Epoch 1] Current loss: 1.3472861051559448
> [Epoch 1] Current loss: 0.49824264645576477

2023-09-17 13:12:04,330 - src.logger - INFO - Epoch 1 train loss: 8.2132
2023-09-17 13:12:04,330 - src.logger - INFO - Epoch 1 val loss: 13.4065
2023-09-17 13:12:04,331 - src.logger - INFO - Epoch 1 train acc: 0.8030
2023-09-17 13:12:04,331 - src.logger - INFO - Epoch 1 val acc: 0.4363
2023-09-17 13:12:04,331 - src.logger - INFO - Epoch 1 train top2: 0.9242
2023-09-17 13:12:04,331 - src.logger - INFO - Epoch 1 val top2: 0.7647

> [Epoch 2] Current loss: 1.1350276470184326
> [Epoch 2] Current loss: 1.299754023551941
> [Epoch 2] Current loss: 1.3014869689941406
> [Epoch 2] Current loss: 1.2366515398025513
> [Epoch 2] Current loss: 1.2049376964569092
> [Epoch 2] Current loss: 0.9717578291893005
> [Epoch 2] Current loss: 0.28100889921188354

2023-09-17 13:15:08,444 - src.logger - INFO - Epoch 2 train loss: 6.5618
2023-09-17 13:15:08,444 - src.logger - INFO - Epoch 2 val loss: 12.8465
2023-09-17 13:15:08,444 - src.logger - INFO - Epoch 2 train acc: 0.8485
2023-09-17 13:15:08,445 - src.logger - INFO - Epoch 2 val acc: 0.4314
2023-09-17 13:15:08,445 - src.logger - INFO - Epoch 2 train top2: 0.9596
2023-09-17 13:15:08,445 - src.logger - INFO - Epoch 2 val top2: 0.7647

> [Epoch 3] Current loss: 1.071411371231079
> [Epoch 3] Current loss: 1.0222755670547485
> [Epoch 3] Current loss: 0.9441150426864624
> [Epoch 3] Current loss: 0.9400334358215332
> [Epoch 3] Current loss: 0.9538522362709045
> [Epoch 3] Current loss: 1.1783583164215088
> [Epoch 3] Current loss: 0.2680402100086212

2023-09-17 13:18:16,541 - src.logger - INFO - Epoch 3 train loss: 6.0409
2023-09-17 13:18:16,541 - src.logger - INFO - Epoch 3 val loss: 12.4533
2023-09-17 13:18:16,541 - src.logger - INFO - Epoch 3 train acc: 0.8232
2023-09-17 13:18:16,542 - src.logger - INFO - Epoch 3 val acc: 0.4314
2023-09-17 13:18:16,542 - src.logger - INFO - Epoch 3 train top2: 0.9697
2023-09-17 13:18:16,542 - src.logger - INFO - Epoch 3 val top2: 0.7745

> [Epoch 4] Current loss: 0.8915044665336609
> [Epoch 4] Current loss: 0.8074014782905579
> [Epoch 4] Current loss: 0.8702660202980042
> [Epoch 4] Current loss: 0.9202234745025635
> [Epoch 4] Current loss: 1.1031086444854736
> [Epoch 4] Current loss: 0.8841409683227539
> [Epoch 4] Current loss: 0.2813877463340759


import matplotlib.pyplot as plt
x = list(range(1, epochs+1))


plt.plot(x, lst_train_loss, 'o-', label='train loss')
plt.plot(x, lst_val_loss, 'o-',label='val loss')
plt.legend()
plt.show()


plt.plot(x, lst_train_acc, 'o-', color='blue', label='train acc')
plt.plot(x, lst_train_top2, '-', color='blue', label='train top2')
plt.plot(x, lst_val_acc,  'o-', color='red', label='val acc')
plt.plot(x, lst_val_top2,  '-', color='red', label='val top2')
plt.legend()
plt.show()

Improving Retrieval w Finetuned Embeddings (Manually!)

1. Load base embedding model; use Helper fns for adapter model, loss, optimizer¶

2. Create a Dataset and a DataLoader¶

3. Set up parameters for Training¶

4. Training Loop¶

5. Performance¶