13. National Pediatric Urology Congress

View Abstract

Oral Presentation - 3

CAN LLMs PROVIDE QUALITY PATIENT INFORMATION TO PARENTS ABOUT HYPOSPADIAS?: A COMPARATIVE STUDY OF CHATGPT 3.5 AND GOOGLE BARD

R Naz*, H Deliağa**, M Kaya**
*Eskişehir Osmangazi University Faculty of Health Sciences
**Bursa Yüksek İhtisas Training and Research Hospital Department of Pediatric Urology

INTRODUCTION:

Artificial intelligence language models have emerged as tools capable of producing human-like texts on a wide range of topics. However, it is known that the performance and content quality of these language models have not been comprehensively evaluated in certain medical fields. The aim of this study is to evaluate the performance of artificial intelligence language models ChatGPT and Bard in providing information about hypospadias to parents and to compare the quality of the information with a reference source.

MATERIALS AND METHODS:

The study included questions frequently asked by parents and published publicly on social media and websites by reputable institutions and communities. Two pediatric urologists and 1 nurse collaborated to evaluate a set of 38 frequently asked questions about hypospadias. To evaluate the response quality of LLMs (Large Language Models) on various topics, the questions were divided into 7 categories: basic information, diagnosis, preoperative preparation, treatment/surgery, complications, postoperative results/recovery period, other. The questions were then sent to the LLMs and the responses were collected. Global Quality Score (GQS), a 5-point Likert scale, was used to assess the quality of the responses. The time taken by LLMs to answer each question and the number of words and sentences in the answers were recorded by the researchers.

RESULTS:

In the study, which included a total of 38 questions, it was determined that the response quality of Bard was higher than ChatGPT in the question group related to the preoperative preparation category (p = 0.41). It was determined that Bard's response time to questions was shorter than ChatGPT (p<0.010). The quality of the answers given by ChatGPT and Bard to questions regarding hypospadias, except for the questions in the preoperative preparation category, were similar and above average. It was determined that the number of words (p<0.001) and sentences (p<0.001) in ChatGPT's answers to the questions were higher than Bard.

The quality of LLMs' responses to questions about hypospadias was above average. The results of the study show that LLMs have promising potential in hypospadias. Further research on LLMs may provide valuable results on hypospadias.

LLM’LER HİPOSPADİAS KONUSUNDA EBEVEYNLERE KALİTELİ HASTA BİLGİSİ SAĞLAYABİLİR Mİ?: CHATGPT 3.5 VE GOOGLE BARD’IN KARŞILAŞTIRILMALI BİR ÇALIŞMASI

R Naz*, H Deliağa**, M Kaya**
*Eskişehir Osmangazi Üniversitesi Sağlık Bilimleri Fakültesi
**Bursa Yüksek İhtisas EAH Çocuk Ürolojisi Kliniği

Giriş ve Amaç:

Yapay zeka dil modelleri geniş bir konu yelpazesinde insan benzeri metinler üretme yeteneğine sahip araçlar olarak ortaya çıkmışlardır. Bununla birlikte belirli tıbbi alanlarda bu dil modellerinin performanslarının ve içerik kalitesinin kapsamlı bir şekilde değerlendirilmediği bilinmektedir. Bu çalışmanın amacı yapay zeka dil modelleri olan ChatGPT ve Bard’ın hipospadias hakkında ebeveynlere bilgi sağlamadaki performansını değerlendirmek ve bilginin kalitesini bir referans kaynakla karşılaştırmaktır.

Gereç ve yöntem:

Çalışmada saygın kurumlar ve topluluklar tarafından halka açık bir şekilde sosyal medya ve web sitelerinde yayınlanan ve ebeveynler tarafından sık sorulan sorular yer aldı. Hipospadias hakkında sık sorulan 38 sorudan oluşan bir seti değerlendirmek üzere 2 çocuk üroloğu ve 1 hemşire tarafından iş birliği yapıldı. LLM’lerin (Large Language Models) çeşitli konulardaki yanıt kalitesini değerlendirmek için sorular temel bilgiler, teşhis, preoperatif hazırlık, tedavi/cerrahi, komplikasyonlar, postoperatif sonuçlar/iyileşme dönemi, diğer olmak üzere 7 kategoriye ayrıldı. Ardından sorular LLM’lere gönderildi ve yanıtlar toplandı Yanıtların kalitesini değerlendirmek için 5’li likert ölçeği olan Global Quality Score (GQS) kullanıldı. LLM’lerin her bir soruya yanıt verme süresi, yanıtların kelime ve cümle sayısı araştırmacılar tarafından kaydedildi.

Sonuçlar:

Toplam 38 sorunun bulunduğu çalışmada preoperatif hazırlık kategorisine ilişkin soru grubunda Bard’ın yanıt kalitesinin ChatGPT’den daha yüksek olduğu saptandı (p=0,41). Bard’ın sorulara yanıt verme süresinin ChatGPT’ye oranla daha kısa olduğu (p<0,010) belirlendi. ChatGPT ve Bard’ın preoperatif hazırlık kategorisinde yer alan sorular dışındaki hipospadiasa ilişkin sorulara verdikleri yanıtların kalitesi benzerdi ve ortanın üstündeydi. ChatGPT’nin sorulara verdiği yanıtların kelime (p<0,001) ve cümle sayısının (p<0,001) Bard’dan daha fazla olduğu tespit edildi.

Hipospadias hakkındaki sorulara LLM’lerin verdikleri yanıtların kalitesi ortanın üzerindeydi. Çalışmanın sonuçları LLM’lerin hipospadias hakkında umut verici bir potansiyele sahip olduğunu göstermektedir. LLM’ler hakkında daha fazla araştırmalar yapılması hipospadias hakkında değerli sonuçlar sunabilir.

Close