技术标签: 语言模型 nlp 笔记 文心一言 人工智能 软件工程 自然语言处理
这个作业属于哪个课程 | 2302软件工程 |
---|---|
这个作业要求在哪里 | 软件工程实践——软件评测作业 |
这个作业的目标 | 产品调研评测、分析、建议与规划 |
其他参考文献 | 《构建之法》,《GPT、Llama等大模型存在「逆转诅咒」,这个bug该如何缓解?》 |
基础功能
特色功能
附加功能
描述使用产品的整体过程和体验
使用文心一言的整体体验可以概括为直观且流畅。
用户可以轻松地通过简洁的向导式界面完成初步设置。
产品提供了丰富的帮助文档和教程,有助于新用户快速上手。
在日常使用中,用户可以通过直观的界面快速访问各项功能,进行文本编辑、数据分析或其他专业任务。
评估产品在解决用户问题方面的能力
文心一言在解决用户问题方面表现出色,无论是日常的文字处理还是专业的数据分析,其智能算法能够理解用户的需求,提供相应的解决方案,如自动完成、智能排版等。
此外,对于特定行业的问题,文心一言也能通过其模板库和插件系统提供定制化的解决方案,极大地提高了问题解决的效率和质量。
优点
缺点
探讨用户体验方面的潜在问题及其原因
用户体验的潜在问题可能包括:
- **多语言和本地化支持**:对于非中文用户,提供准确的多语言支持和本地化服务是提升用户体验的关键。改进措施包括扩展语言支持范围、优化翻译质量,以及考虑文化差异对对话的影响。
- **性能稳定性**:用户可能会遇到系统响应缓慢或服务中断的情况。针对这一点,产品团队可以优化算法效率、增强服务器的处理能力,以及设计更加稳健的错误恢复机制。
严重程度 | 说明 |
---|---|
★ | 轻微影响 - 这类BUG通常不易被察觉,可能包括小的界面瑕疵或轻微的性能延迟。它们通常不影响核心功能,用户可能不会意识到其存在。 |
★★ | 局部功能受阻 - BUG会导致某些功能部分失效或效率降低,但用户可以通过替代方法或稍作等待来继续使用软件。这类问题需要关注,但不会立即影响整体体验。 |
★★★ | 数据错误或误导信息 - 这类BUG可能导致数据处理错误或生成误导性信息,大语言模型中,对用户决策可能产生负面影响。需要优先解决,以避免潜在的严重后果。 |
★★★★ | 功能失效 - 此时BUG会导致关键功能完全无法使用,严重影响用户体验。用户可能需要使用替代方法、或者重新进入页面,或者刷新等待问题解决才能继续任务。 |
★★★★★ | 系统级故障 - 这是最严重的BUG级别,可能导致整个大模型系统崩溃或无法提供服务。这类问题需要立即解决,以恢复软件的正常运行和用户的信任。 |
操作系统与版本
windows10 家庭中文版 22H2
浏览器与版本
Microsoft Edge
版本 123.0.2420.97 (正式版本) (64 位)
发生时间段及前因后果
bug1: 记忆功能失效
如图所示,文心一言并不能记忆之前输入的文档内容。
具体描述:
有可能是因为文心一言并没有制作多文档处理功能,但是却宣称有着多文档记忆的功能,因此算作一个自相矛盾的bug
bug2: 古诗词词句顺序错误
再次复现
具体描述:
输入某些特定的古诗词,导致文心一言不能正确的输出古诗词的短句安排顺序,比如此时无法正确输出白云千载空悠悠的下一句诗
bug3: 自然语言理解失效
忽略了要求,而只顾着讲解识别到的关键词 无法理解我想要获得一副ai图片的需求
ai绘图部分也无法有效理解用户需求
具体描述:
当输入文本过多时,无法正确找到并理解用户输入的具体要求,或者无法对用户的要求进行处理
bug1: 文档记忆功能失效
bug2: 古诗词词句顺序错误
bug3: 自然语言理解失效
类别 | 描述 | 评分(满分10分) |
---|---|---|
功能 | 核心功能的实现情况,功能设计和质量的评估。 | 8 |
细节 | 为用户考虑的细节,如易用性、便捷性等。 | 8 |
用户体验 | 用户在使用软件时的体验,包括界面友好度、操作流畅性等。 | 8 |
辅助功能 | 提供给用户的额外功能,如皮肤、主题等。(是否付费?) | 6 |
差异化功能 | 软件独特的功能,及其对用户的吸引力。 | 6 |
软件的效能 | 软件的性能表现,如占用内存、生成速度、内存泄漏情况等。 | 6 |
软件的适应性 | 软件在不同环境下(断网/联网)的适应性和兼容性。 | 7 |
成长性 | 软件是否能够根据用户的使用习惯进行优化。 | 10 |
用户有控制权 | 用户对软件操作的控制程度,如反馈机制、错误处理等。 | 8 |
外部输入 | 软件对于外部输入的图片/文档/网络链接的支持度 | 5 |
软件功能的介绍
基本功能
文本理解与回答: 能够理解用户的问题并提供相应的答案。
多语言对话: 支持中文和英文等多种语言的对话。
信息检索: 通过搜索功能帮助用户找到网络上的信息。
文件阅读: 读取用户上传的多个文件并解读回答,一次性能上传多个文件。
网页内容解析: 解析用户提供的网址内容以回答问题。
特色功能
附加功能
描述使用产品的整体过程和体验
使用Kimi智能助手的整体体验是高效的。
用户可以通过简单、简洁直观的交互方式(输入输出)快速获得所需的信息和帮助。
Kimi智能助手提供了实时的问题解答和任务(输入)处理能力,联网搜索能力,使得用户在日常工作和生活中能够更加便捷地获取支持。
评估产品在解决用户问题方面的能力
Kimi智能助手在解决用户问题方面表现出色,特别是在提供信息检索、文件解析、速读和语言理解方面。无论是简单的查询还是复杂的数据分析,Kimi智能助手都能迅速理解用户的需求,并提供准确的答案和解决方案。
优点
缺点
严重程度 | 说明 |
---|---|
★ | 轻微影响 - 这类BUG通常不易被察觉,可能包括小的界面瑕疵或轻微的性能延迟。它们通常不影响核心功能,用户可能不会意识到其存在。 |
★★ | 局部功能受阻 - BUG会导致某些功能部分失效或效率降低,但用户可以通过替代方法或稍作等待来继续使用软件。这类问题需要关注,但不会立即影响整体体验。 |
★★★ | 数据错误或误导信息 - 这类BUG可能导致数据处理错误或生成误导性信息,大语言模型中,对用户决策可能产生负面影响。需要优先解决,以避免潜在的严重后果。 |
★★★★ | 功能失效 - 此时BUG会导致关键功能完全无法使用,严重影响用户体验。用户可能需要使用替代方法、或者重新进入页面,或者刷新等待问题解决才能继续任务。 |
★★★★★ | 系统级故障 - 这是最严重的BUG级别,可能导致整个大模型系统崩溃或无法提供服务。这类问题需要立即解决,以恢复软件的正常运行和用户的信任。 |
操作系统与版本
windows10 家庭中文版 22H2
浏览器与版本
Microsoft Edge
版本 123.0.2420.97 (正式版本) (64 位)
发生时间段及前因后果
bug1:古诗词锁定错误
bug2:无法满足规定字数限制
完全错误!胡说八道!
一本正经的胡说八道
有的内容可以,但是问到深处又错了
具体描述:
对于输入的特定古诗词句,无法正确锁定到对应的古诗词(标题、作者、朝代、诗词本身、诗词曲类型),反而会自己编造一些看似正确但其实非常离谱的答案,如:千树万树梨花开的下一句,故人西辞黄鹤楼诗歌本身的作者和标题等
心很累。。。
具体描述:
要求kimi输出规定字数的散文或者其他类型的文本时候,不能按照要求输出
bug1: 古诗词锁定错误,胡乱编造
bug2: 无法按照规定字数输出
类别 | 描述 | 评分(满分10分) |
---|---|---|
功能 | 核心功能的实现情况,功能设计和质量的评估。 | 9 |
细节 | 为用户考虑的细节,如易用性、便捷性等。 | 7 |
用户体验 | 用户在使用软件时的体验,包括界面友好度、操作流畅性等。 | 6 |
辅助功能 | 提供给用户的额外功能,如皮肤、主题等。(是否付费?) | 9 |
差异化功能 | 软件独特的功能,及其对用户的吸引力。 | 9 |
软件的效能 | 软件的性能表现,如占用内存、生成速度、内存泄漏情况等。 | 8 |
软件的适应性 | 软件在不同环境下(断网/联网)的适应性和兼容性。 | 9 |
成长性 | 软件是否能够根据用户的使用习惯进行优化。 | 7 |
用户有控制权 | 用户对软件操作的控制程度,如反馈机制、错误处理等。 | 8 |
外部输入 | 软件对于外部输入的图片/文档/网络链接的支持度 | 10 |
特性/问题 | 文心一言 | Kimi |
---|---|---|
问题 | 网页版全屏切换到小窗时会卡顿,可能丢失对话。上传文件时也会卡顿,甚至失败,一次只能上传一个文件。 | 无法进行语音输入,有时会遇到卡顿和发送失败的问题。 |
亮点 | 可以设置语音助手的性格,录制音频创建数字分身,适合喜欢与AI聊天娱乐的用户。页面提示到位,功能丰富,适用场景多,上手快。 | 页面设计简洁,适合快速上手。支持上传多个附件,有助于资料总结和分析。据说能处理超长文本,但未经测试。 |
改进建议 | 希望网页版在切换窗口大小时能更加流畅。 | 优化服务器稳定性,改善响应速度。增加功能指引,帮助用户更好地了解和使用产品。 |
开发环节 | 时间估计 | 环节说明 |
---|---|---|
项目启动与规划 | 30天 | 深入分析项目需求,制定详细规划和设计蓝图 |
用户界面设计与开发 | 60天 | 完成UI/UX设计,并开发前端界面和用户交互功能。 |
后端与API开发 | 90天 | 构建后端架构,开发API接口,并集成核心功能 |
智能语言模型开发训练 | 120天 | 开发和训练智能对话系统,包括NLP和机器学习模块 |
数据工程与分析 | 75天 | 处理和分析大量数据,以支持智能对话和决策 |
系统测试、调试与优化 | 60天 | 进行全面的系统测试,调试和性能优化 |
用户文档与支持体系构建 | 30天 | 编写详尽的用户文档和构建用户支持服务体系 |
项目管理与里程碑控制 | 20天 | 确保项目按照计划推进,控制关键里程碑 |
系统维护 | 长期 | 发布后,需持续监控性能并根据用户反馈进行优化 |
总计 | 485天 |
在评判同类语言模型软件产品时,通常考虑以下几个关键标准:
满分80换算为100分
评判标准 | ChatGPT (分) | 通义千问 (分) | 文心一言 (分) | 讯飞星火 (分) | Kimi (分) |
---|---|---|---|---|---|
语言理解能力 | 9.5 | 8.5 | 9.0 | 8.5 | 9.0 |
内容生成能力 | 9.5 | 8.5 | 9.0 | 8.5 | 9.0 |
知识问答能力 | 9.5 | 8.5 | 8.5 | 8.5 | 8.5 |
多模态交互能力 | 8.0 | 8.0 | 7.5 | 8.0 | 8.0 |
逻辑推理能力 | 9.0 | 8.5 | 8.5 | 8.5 | 8.5 |
技术创新性 | 9.5 | 9.0 | 8.5 | 8.5 | 9.0 |
应用场景广泛性 | 9.5 | 8.5 | 9.0 | 8.5 | 8.5 |
用户反馈与市场接受度 | 9.5 | 8.0 | 8.5 | 8.5 | 8.5 |
排名 | 产品名称 | 总分 |
---|---|---|
1 | ChatGPT | 92.5 |
2 | Kimi | 86.2 |
3 | 文心一言 | 85.6 |
4 | 通义千问 | 84.4 |
4 | 讯飞星火 | 84.4 |
ChatGPT有最高总分,表现在多个评判标准上的卓越性能。
Kimi和文心一言都有不错的表现,尤其是在技术创新性方面。
通义千问在技术创新性和应用场景广泛性方面表现良好。
讯飞星火和文心一言在应用场景广泛性和市场接受度方面有稳定的表现,但在其他一些标准上不太行。
软件名 | 建议 |
---|---|
Kimi | 1. 增强个性化推荐算法,利用数据挖掘和机器学习技术,分析用户行为和使用习惯,提供个性化服务推荐 2. 优化多模态交互设计,增加语音识别算法,适应不同的口音和语速,提高语音交互的准确性和流畅性 |
文心一言 | 1. 扩展多语言支持,增加对更多语言的支持,特别是非英语用户,提供准确的语言理解和生成能力 2. 引入智能辅助写作功能,开发一个智能辅助写作工具,提供文本建议、语法校正和风格一致性检查 3. 加强隐私保护和数据安全,确保所有用户数据通过加密传输和存储,并定期进行安全审计 |
BUG | 未修复的可能原因 |
---|---|
文心一言----bug1: 文档记忆功能失效 | 需求分析不足,未能充分理解用户需求;设计阶段数据持久性和状态管理考虑不周 |
文心一言----bug2: 古诗词词句顺序错误 | 设计阶段未能准确把握古诗词结构特征;测试用例设计疏漏,未能覆盖所有场景 |
文心一言----bug3: 自然语言理解失效 | 编码逻辑错误或未能有效处理异常输入;测试阶段未能充分验证模型鲁棒性 |
Kimi----bug1: 古诗词锁定错误,胡乱编造 | 需求分析未能准确捕捉用户期望;数据源引用错误或生成逻辑实现不当 |
Kimi----bug2: 无法按照规定字数输出 | 开发人员疏忽,未能正确处理字数限制;测试团队边界测试不充分 |
通过选取几篇文章,对大语言模型的市场规模进行调研
地区 | 市场规模预测 | 增长率 | 预测年份 | 参考资料 |
---|---|---|---|---|
全球 | 预计到2030年将达到411.7亿美元 | 29.71% CAGR | 2030 | Probesto大型语言模型市场规模详解 |
全球 | 需求达到市场规模近865.1亿美元到2032年 | 36.21% CAGR | 2032 | Value Market Research大语言模型市场份额和增长分析报告 |
中国 | 预计2023年市场规模将达到132.3亿元人民币 | 超过100%增长率 | 2023 | 工信部:今年我国语言大模型市场增长率将超100% |
直接用户
大语言模型的直接用户通常已经意识到并开始利用这些模型的自然语言处理和内容生成能力。这些用户群体包括但不限于:
潜在用户
潜在用户可能尚未完全意识到大语言模型的潜力和应用场景,但随着技术的成熟和应用案例的增加,这些用户群体可能会逐渐加入使用大语言模型的行列。潜在用户可能包括:
截至2023年10月以后,市场上的大语言模型产品呈现出多样化和专业化的趋势。主要的竞争产品包括:
这些产品在文本生成、情感分析、机器翻译、内容创作等不同领域展现出了强大的应用潜力。
OpenAI的ChatGPT4
百度的文心一言
科大讯飞的讯飞星火认知大模型
阿里巴巴的通义千问大模型
月之暗面科技有限公司的Kimi智能助手
用户 | 学历 | 直接需求 | 潜在需求 |
---|---|---|---|
科研人员 | 科研机构在读研究生或博士生 | 进行复杂的数据分析,发表研究成果 | 建立跨学科合作,获取研究资助 |
相关专业学生 | 科研机构在读本科生或研究生 | 完成课程作业,辅助课程或者科研 | 提升就业竞争力,参与实际项目 |
行业专家 | 硕士及以上学历,多年行业经验 | 行业分析,市场预测,决策支持 | 追求深入见解,持续教育和培训 |
企业决策者 | 高级管理学位,丰富的管理经验 | 业务流程优化,风险评估,市场洞察 | 增强企业竞争力,提高盈利能力 |
内容创作者 | 不限学历,重视创造力和表达能力 | 创意写作,内容编辑,社交媒体管理 | 建立个人品牌,扩大受众群体 |
开发者 | 计算机科学或相关技术专业背景 | 软件开发,应用集成,技术支持 | 技术提升,项目成功,社区认可 |
数据分析师 | 统计学、数据分析或相关专业背景 | 数据挖掘,报告制作,趋势预测 | 深入数据洞察,业务决策支持 |
大语言模型(LLMs)的用户群体多样化,包括科研人员、学生、开发者、企业决策者等。
大语言模型技术群体的生态系统中,用户群体才是技术的使用者,贡献者和创新者,共同推动着技术的迭代和优化。
大语言模型作为一项基础技术,催生了各类子产品和相关产品,构建了一个丰富的产品生态。
产品间的相互关系表现为:
N - 需求 (Need)
A - 实现的做法 (Approach)
B - 好处 (Benefit)
C - 主要竞争对象 (Competitors)
D - 推广 (Delivery)
角色 | 人数 | 职责描述 | 时间线说明 |
---|---|---|---|
项目经理 | 1 | 负责项目规划、进度跟踪、资源管理和团队协调。 | 从项目开始到结束,全程监督项目进度和质量。 |
前端开发工程师 | 1 | 负责用户界面的开发和实现。 | 主要工作集中在前4周,之后持续进行界面优化和bug修复。 |
后端开发工程师 | 2 | 负责后端逻辑、数据库设计和API开发。 | 前4周完成核心功能开发,之后进行功能测试和性能优化。 |
测试工程师 | 1 | 负责编写测试用例、执行测试和质量保证。 | 在开发阶段开始编写测试用例,开发结束后进行全面测试。 |
UI/UX设计师 | 1 | 负责设计新功能的界面和用户体验。 | 与前端开发工程师紧密合作,确保设计在开发阶段得到实施。 |
周数 | 阶段 | 任务 | 描述 | 新功能特性 |
---|---|---|---|---|
1-2 | 项目启动 | 团队组建、项目规划、需求分析 | 确定项目目标、角色分配、资源准备 | 多文档上传、支持常见文档格式 |
3-4 | 设计阶段 | UI/UX设计、技术架构设计 | 完成界面设计和用户体验设计,确定技术架构 | 界面友好、操作直观、格式识别 |
5-8 | 开发阶段 | 前端、后端开发、API实现 | 开发多文档处理的核心功能,实现前后端交互 | 文档解析、内容提取、并行处理 |
9-10 | 集成阶段 | 功能集成、初步测试 | 集成各个模块,进行初步的集成测试 | 确保各功能协同工作、无明显bug |
11 | 用户测试 | 用户测试计划、测试用例编写 | 邀请目标用户参与测试,收集反馈 | 用户体验优化、功能完善 |
12 | 性能优化 | 性能测试、优化 | 对系统进行压力测试,优化性能瓶颈 | 快速响应、高并发处理能力 |
13 | 功能迭代 | 根据用户测试反馈进行迭代 | 根据用户反馈调整和优化功能 | 增强稳定性、提升用户满意度 |
14 | 文档编写 | 用户手册、操作指南编写 | 准备详细的用户手册和操作指南 | 提供清晰的使用说明、方便用户上手 |
15 | 内部发布 | 内部发布、最终测试 | 对全体内部用户发布,进行最终测试 | 修复最后的问题、准备公开发布 |
16 | 公开发布 | 发布准备、正式发布 | 完成最终的调整,正式发布新功能 | 多文档处理功能正式上线 |
文章浏览阅读645次。这个肯定是末尾的IDAT了,因为IDAT必须要满了才会开始一下个IDAT,这个明显就是末尾的IDAT了。,对应下面的create_head()代码。,对应下面的create_tail()代码。不要考虑爆破,我已经试了一下,太多情况了。题目来源:UNCTF。_攻防世界困难模式攻略图文
文章浏览阅读2.9k次,点赞3次,收藏10次。偶尔会用到,记录、分享。1. 数据库导出1.1 切换到dmdba用户su - dmdba1.2 进入达梦数据库安装路径的bin目录,执行导库操作 导出语句:./dexp cwy_init/[email protected]:5236 file=cwy_init.dmp log=cwy_init_exp.log 注释: cwy_init/init_123..._达梦数据库导入导出
文章浏览阅读1.9k次。1. 在官网上下载KindEditor文件,可以删掉不需要要到的jsp,asp,asp.net和php文件夹。接着把文件夹放到项目文件目录下。2. 修改html文件,在页面引入js文件:<script type="text/javascript" src="./kindeditor/kindeditor-all.js"></script><script type="text/javascript" src="./kindeditor/lang/zh-CN.js"_kindeditor.js
文章浏览阅读2.3k次,点赞6次,收藏14次。SPI的详情简介不必赘述。假设我们通过SPI发送0xAA,我们的数据线就会变为10101010,通过修改不同的内容,即可修改SPI中0和1的持续时间。比如0xF0即为前半周期为高电平,后半周期为低电平的状态。在SPI的通信模式中,CPHA配置会影响该实验,下图展示了不同采样位置的SPI时序图[1]。CPOL = 0,CPHA = 1:CLK空闲状态 = 低电平,数据在下降沿采样,并在上升沿移出CPOL = 0,CPHA = 0:CLK空闲状态 = 低电平,数据在上升沿采样,并在下降沿移出。_stm32g431cbu6
文章浏览阅读1.2k次,点赞2次,收藏8次。数据链路层习题自测问题1.数据链路(即逻辑链路)与链路(即物理链路)有何区别?“电路接通了”与”数据链路接通了”的区别何在?2.数据链路层中的链路控制包括哪些功能?试讨论数据链路层做成可靠的链路层有哪些优点和缺点。3.网络适配器的作用是什么?网络适配器工作在哪一层?4.数据链路层的三个基本问题(帧定界、透明传输和差错检测)为什么都必须加以解决?5.如果在数据链路层不进行帧定界,会发生什么问题?6.PPP协议的主要特点是什么?为什么PPP不使用帧的编号?PPP适用于什么情况?为什么PPP协议不_接收方收到链路层数据后,使用crc检验后,余数为0,说明链路层的传输时可靠传输
文章浏览阅读587次。软件测试工程师移民加拿大 无证移民,未受过软件工程师的教育(第1部分) (Undocumented Immigrant With No Education to Software Engineer(Part 1))Before I start, I want you to please bear with me on the way I write, I have very little gen...
文章浏览阅读304次。Thinkpad X250笔记本电脑,装的是FreeBSD,进入BIOS修改虚拟化配置(其后可能是误设置了安全开机),保存退出后系统无法启动,显示:secure boot failed ,把自己惊出一身冷汗,因为这台笔记本刚好还没开始做备份.....根据错误提示,到bios里面去找相关配置,在Security里面找到了Secure Boot选项,发现果然被设置为Enabled,将其修改为Disabled ,再开机,终于正常启动了。_安装完系统提示secureboot failure
文章浏览阅读10w+次,点赞93次,收藏352次。1、用strtok函数进行字符串分割原型: char *strtok(char *str, const char *delim);功能:分解字符串为一组字符串。参数说明:str为要分解的字符串,delim为分隔符字符串。返回值:从str开头开始的一个个被分割的串。当没有被分割的串时则返回NULL。其它:strtok函数线程不安全,可以使用strtok_r替代。示例://借助strtok实现split#include <string.h>#include <stdio.h&_c++ 字符串分割
文章浏览阅读2.3k次。1 .高斯日记 大数学家高斯有个好习惯:无论如何都要记日记。他的日记有个与众不同的地方,他从不注明年月日,而是用一个整数代替,比如:4210后来人们知道,那个整数就是日期,它表示那一天是高斯出生后的第几天。这或许也是个好习惯,它时时刻刻提醒着主人:日子又过去一天,还有多少时光可以用于浪费呢?高斯出生于:1777年4月30日。在高斯发现的一个重要定理的日记_2013年第四届c a组蓝桥杯省赛真题解答
文章浏览阅读851次,点赞17次,收藏22次。摘要:本文利用供需算法对核极限学习机(KELM)进行优化,并用于分类。
文章浏览阅读1.1k次。一、系统弱密码登录1、在kali上执行命令行telnet 192.168.26.1292、Login和password都输入msfadmin3、登录成功,进入系统4、测试如下:二、MySQL弱密码登录:1、在kali上执行mysql –h 192.168.26.129 –u root2、登录成功,进入MySQL系统3、测试效果:三、PostgreSQL弱密码登录1、在Kali上执行psql -h 192.168.26.129 –U post..._metasploitable2怎么进入
文章浏览阅读257次。本文将为初学者提供Python学习的详细指南,从Python的历史、基础语法和数据类型到面向对象编程、模块和库的使用。通过本文,您将能够掌握Python编程的核心概念,为今后的编程学习和实践打下坚实基础。_python人工智能开发从入门到精通pdf